打开中大官网网页,开始进行爬虫。
想要爬取新闻的链接。
但是用下面的代码的时候出现了问题了。
我去查,是不是动态网页,但是却发现,在链接之后,学校网页跟我本地的主机就再也没有了交互的过程。
可以看出,这其实不是一个动态网页。
那究竟是为什么呢?
有点奇怪,但是我发现了下面这个地方
我发现这有意思了,虽然我对前端的知识了解有限。这个开头有点像那个html的开头的地方。
我就接着去查开始的时候这个网站跟我发过了什么包?
发现下面这个包,觉得有意思。
我想,可能就是在访问学校官网的服务器的同时,会向学校的这个服务器去发送请求,让这个服务器给本地发当前最新的新闻信息。
想想也觉得这个结构还是很靠谱的。毕竟,这样,就单独把这个服务器交给管新闻的有关部分去访问就好了。这样,对于整体的分工会更加明确。然后对于这个新闻的更新也会比较及时..吧?
领取专属 10元无门槛券
私享最新 技术干货