首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何用Python看更多妹子?

又到了周末了,不好意思,昨天(周六)因为种种不可抗力,没能写推文,还请见谅。

回到正文,上个星期看完了虎扑的妹子,今天来看斗鱼的妹子。嘿嘿嘿

实验环境

Windows10 x64

编辑器

Sublime Text 3

可能用到第三方模块

requests,json,jsonpath

无意看到斗鱼鱼吧,就想着如何把妹子发的帖子的图片给趴下来

首先对手机斗鱼客户端,进行抓包,发现帖子实际上都来自下图的这个链接

打开图片url,刚好是和客户端里面看到的一致

好了,开始进行逻辑分析

过程:

1、首先要获取所有女性id的昵称

2、根据昵称来获取该帖子的真实地址

3、获取帖子图片的url

4、多线程下载图片,更快

模拟客户端发送请求,注意时间戳

筛选女性,发现关键字sex=2即可,采用jsonpath,不会用的可以查查

分析帖子可能会没有图片,加上判断,并把图片链接放入队列,进行爬取

分析多线程,注意图片命名,所有我设置了全局参数n,以数字来命名,还可以统计图片数

创建线程

多线程请求,注意阻塞,一定要加上,否则程序会一直等新图片链接进来

下载完成,倒杯茶慢慢欣赏

注意:客户端抓包有问题的可交流

不要请求过快,否则斗鱼可能会封ip,

测试了下爬取最多向下滑一百下,差不多女性用户发帖图片有1200张

其实和上周的爬虫大同小异,唯一不同点就是用了多线程,下载图片超级快,想更快,将线程数增加到你想的数字即可。

声明:本文章仅供技术交流,请勿商业使用,照片如有侵权,请联系本公众号删除。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180318G18RD300?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券