我爬取的是https://author.baidu.com/home?type=profile&action=profile&mthfr=box_share&context=%7B%22from%22%3A%22ugc_share%22%2C%22app_id%22%3A%221572595784300706%22%7D
因为他是json数据找到该json页面
https://author.baidu.com/list?type=article&tab=2&uk=D0hHfmuMEVka02HZelKA7g&ctime=15479957581253&num=14&_=1548039936244&callback=jsonp2
进行页面分析,主要内容有:
https://author.baidu.com/list?type=article&tab=2&uk=D0hHfmuMEVka02HZelKA7g
默认为当前时间10个内容
若想更改可:
https://author.baidu.com/list?type=article&tab=2&uk=D0hHfmuMEVka02HZelKA7g&ctime=15479954554890&num=14
特定时间特定内容数 表示时间为15479954554890(时间戳)内容数14
如想获得之前所有数据可取最后一个发布的时间戳进行yield再次循环处理
同时近两天发布为相对时间,可对其发布时间的时间戳进行转换
此页面评论数,阅读数尚未抓取到,可看下一篇