首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

一出好戏!用PHP去爬取豆瓣影评

一个名叫马进的穷光蛋收到了彩票中头奖的信息,六千万!就在马进狂喜自己翻身的日子终于到来之际,一场突如其来的滔天巨浪打破了一切。苏醒过来的众人发现身处荒岛 ,丧失了一切与外界的联系。

这是豆瓣上关于一出好戏的简介,这个事情其实是在教育我们,如果你买彩票了,千万不要乱跑,万一领不到大奖,就亏大了,哈哈。

今天呢,中奖什么的是没戏了,咱们还是写一个使用PHP爬取豆瓣上关于一出好戏的影评吧,看看大家怎么评论这部电影的。

1、程序执行效果

程序会获取用户,时间,评论内容三部分内容,并将内容保存在csv文件中。

2、程序结构

程序有两个主体函数分别为

getCommentHtml()和

handleCommentHtml()

3、程序实现过程

首先我们需要知道一出好戏豆瓣影评的api地址是什么,我们打开一出好戏短评页面并F12去查看开发者选项:

通过开发者工具的查看器去查找用户名,时间,短评内容各自的html标签

准备工作做完之后就要开始上手编写我们的代码了!

3.1 发送请求

通过getCommentHtml()函数去请求豆瓣的API接口

3.2 处理HTML

通过handleCommentHtml()去处理请求到的html文本,将我们需要的内容剥离出来,存到csv中

然后执行该脚本即可获取处理好的短评内容,但是豆瓣限制了未登录用户获取评论的页数,我只能获取到start为200的信息,再之后就提示我没有权限了。

4、完结

完整代码放在了码云Gitee上了,感兴趣的可以看看。

地址:https://gitee.com/imanzb/simplespider

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180906G1674600?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券