首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

用 Python 爬取『赘婿』视频弹幕

1

前言

最近爱奇艺独播热剧『赘婿』特别火,笔者也在一直追,借助手中的技术,想爬取弹幕分析该剧的具体情况以及网友的评论!

由于为了让小白彻底学会使用python爬取爱奇艺弹幕的技术,因此本文详细介绍如何进行爬取,下文再进行分析数据

2

分析数据包

1.查找数据包

在浏览器里面按F12

找到这类url

2.分析弹幕链接

爱奇艺的弹幕获取地址如下:

https://cmts.iqiyi.com/bullet/参数1_300_参数2.z

参数2是:数字1、2、3.....

爱奇艺每5分钟会加载新的弹幕,每一集约是46分钟,46除以5向上取整就是10

因此弹幕的链接如下:

3.解码二进制数据包

通过弹幕链接下载的弹幕包是以z为后缀格式的文件,需要进行解码!

解码之后将数据保存成xml格式

3

解析xml

1.提取数据

通过查看xml文件,我们需要提取的内容有1.用户id(uid)、2.评论内容(content)、3.评论点赞数(likeCount)。

4

保存数据

1.保存前工作

导入xlwt库(写入csv),并定义好标题(uid、content、likeCount)

2.写入数据

最后保存成弹幕数据集-李运辰.xls

5

总结

1.通过实战案『赘婿』,手把手实现python爬取爱奇艺弹幕。

2.python解析xml格式数据。

3.将数据写入excel。

更多阅读

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20210312A01ZMT00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券