开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

爬取中大官网（一）

文章来源：企鹅号 - 肥宅Sean

打开中大官网网页，开始进行爬虫。

想要爬取新闻的链接。

但是用下面的代码的时候出现了问题了。

我去查，是不是动态网页，但是却发现，在链接之后，学校网页跟我本地的主机就再也没有了交互的过程。

可以看出，这其实不是一个动态网页。

那究竟是为什么呢？

有点奇怪，但是我发现了下面这个地方

我发现这有意思了，虽然我对前端的知识了解有限。这个开头有点像那个html的开头的地方。

我就接着去查开始的时候这个网站跟我发过了什么包？

发现下面这个包，觉得有意思。

我想，可能就是在访问学校官网的服务器的同时，会向学校的这个服务器去发送请求，让这个服务器给本地发当前最新的新闻信息。

想想也觉得这个结构还是很靠谱的。毕竟，这样，就单独把这个服务器交给管新闻的有关部分去访问就好了。这样，对于整体的分工会更加明确。然后对于这个新闻的更新也会比较及时..吧？

发表于: 2018-03-172018-03-17 19:36:45
原文链接：http://kuaibao.qq.com/s/20180317G15GNT00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯