1、登陆公众号后台(也可以用selenium模拟登陆获取cookies)
登陆后复制粘贴cookies,此时cookies是字符串形式,我们需要转成字典形式
2、获取token请求参数
小编给大家推荐一个学习氛围超好的地方,python交流企鹅裙:【六一一,五三零,一零一】!适合在校大学生,小白,想转行,想通过这个找工作的加入。裙里有大量学习资料,有大神解答交流问题,每晚都有免费的直播课程
3、爬取接口在分享图文这里
该接口可输入一些查询字符串,返回公众号文章数据,我们利用的就是该接口
接口url和post请求参数
4、向接口发送请求
我们看到该接口的响应是json数据
向接口发送请求
5、获取数据
6、爬虫监控,出现异常实时向微信发送消息
例如:我在获取到token的时候向微信发送报告
7、抓取数据存到MySQL(标题,地址,内容)
说明:
1、模拟登陆也可以用selenium进行,然后获取cookies
2、公众号文章内容抓取仍存在缺陷,数据存在不完整性,仍需继续改进
领取专属 10元无门槛券
私享最新 技术干货