一个名叫马进的穷光蛋收到了彩票中头奖的信息,六千万!就在马进狂喜自己翻身的日子终于到来之际,一场突如其来的滔天巨浪打破了一切。苏醒过来的众人发现身处荒岛 ,丧失了一切与外界的联系。
这是豆瓣上关于一出好戏的简介,这个事情其实是在教育我们,如果你买彩票了,千万不要乱跑,万一领不到大奖,就亏大了,哈哈。
今天呢,中奖什么的是没戏了,咱们还是写一个使用PHP爬取豆瓣上关于一出好戏的影评吧,看看大家怎么评论这部电影的。
1、程序执行效果
程序会获取用户,时间,评论内容三部分内容,并将内容保存在csv文件中。
2、程序结构
程序有两个主体函数分别为
getCommentHtml()和
handleCommentHtml()
3、程序实现过程
首先我们需要知道一出好戏豆瓣影评的api地址是什么,我们打开一出好戏短评页面并F12去查看开发者选项:
通过开发者工具的查看器去查找用户名,时间,短评内容各自的html标签
准备工作做完之后就要开始上手编写我们的代码了!
3.1 发送请求
通过getCommentHtml()函数去请求豆瓣的API接口
3.2 处理HTML
通过handleCommentHtml()去处理请求到的html文本,将我们需要的内容剥离出来,存到csv中
然后执行该脚本即可获取处理好的短评内容,但是豆瓣限制了未登录用户获取评论的页数,我只能获取到start为200的信息,再之后就提示我没有权限了。
4、完结
完整代码放在了码云Gitee上了,感兴趣的可以看看。
地址:https://gitee.com/imanzb/simplespider
领取专属 10元无门槛券
私享最新 技术干货