首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python爬虫学习(七)爬取淘女郎

话不多说,直接开车!

分析美人库页面

然后,我们随便查看一个美女的首页,比如:

按照我们之前的爬取经验,这个地址应该能够从一开始的页面找到,毕竟是从那跳转过来的,于是,我们在页面源码中查找:

竟然没有?!不论怎么查找,都找不到。这是什么情况?答案是 。我们用Chrome的开发者工具查看一下,或许能找到答案。

从图中,我们可以看到好多请求,点击 选项卡,

有两个 请求,点击第二个(第一个是第一页的 )查看:

看到了宴宴的信息,原来之前看到的图片个人信息啥的,都是用 加载过来的!

分析个人主页

接下来,我们再谈谈个人主页,来到宴宴的主页,我们观察其URL 发现,请求参数主要是spm和userId,尝试去掉spm,看能不能访问到页面:

原来是可以用 访问的!

分析个人相册页

我们来到她的相册页,可以像分析个人主页一样,发现用 就可以访问到相册页了。

当我们查看个人相册页源码时,又发现:

什么都没有!老一套,于是我们再次打开了Chrome开发者工具,

果然,又是 请求! 这也提醒我们只要,我们获得了这个请求的响应内容,爬取图片什么的,都不是事儿了!

哈哈,原来只要请求 就可以了!!

user_id(XXXXXX)怎么弄

经过孜孜不倦的分析,我们终于发现,原来到达其他网页,比如个人首页,相册页等,最重要的就是 那一串数字了,那么那串数字怎么来的呢?

这就得回到我们最开始分析的地方,在分析美人库的时候其实已经得到了:

得到了user_id,再加上我们对URL的分析,我们可以随心所欲了,想爬哪爬哪!

最后附上部分源码,其他的可以根据自己的需求补充或修改:

然后附上扒图结果:

以上。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180227G08BKW00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券