首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >我写了一个爬虫 想爬取腾讯视频的弹幕 但是总是获取不完整 求助?

我写了一个爬虫 想爬取腾讯视频的弹幕 但是总是获取不完整 求助?

提问于 2019-03-26 14:29:34
回答 0关注 1查看 918

如问题描述:开始是视频显示有60000多条弹幕,但是我只能爬取到25000条。

顺便 想问一下,js包里面的内容都代表什么呢?

视频网址https://v.qq.com/x/cover/pkd7mm8nlor7sqv/m0020d4bocq.html

其中一个js包中的一个内容:{"commentid"::"6129416678651013752","content":"今天我们","upcount":5,"isfriend":0,"isop":0,"isself":0,"timepoint":155,"headurl":"","opername":"","bb_bcolor":"","bb_head":"","bb_level":"","bb_id":"","rich_type":0,"uservip_degree":0,"content_style":""}

因为我看到第一个弹幕的时间戳是15所以设置的stamp=15,然后+=30

下面附代码,求助!

from urllib.parse import urlencode

import requests

import re

import csv

import time

import random

def search(base_url, time_stamp):

try:

headers = {

'user-agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.4295.400 QQBrowser/9.7.12661.400',

'accept': '*/*',

'accept - encoding': 'gzip, deflate, sdch, br',

'accept - language': 'zh-CN,zh;q=0.8',

'cache - control': 'max - age = 0',

'cookie':'cuid=9102028816; pgv_pvi=8393473024; RK=ITK8C31Rc1; tvfe_boss_uuid=047a68f022a12505; pac_uid=1_1179630150; ptui_loginuin=1179630150; ptisp=cnc; ptcz=4c8a92ec5e84326bd8926bc75a1413db138bc560b11fd2026cbb4652c51a10d9; uin=o1179630150; skey=@G4DR3fRZB; appid=3000501; login_time_init=1553069185; _video_qq_version=1.1; _video_qq_appid=3000501; _video_qq_login_time_init=1553069185; main_login=qq; vuserid=624788404; vusession=70de633e23002eb00000000012d275a5949283c2bd4e; next_refresh_time=4405; _video_qq_main_login=qq; _video_qq_vuserid=624788404; _video_qq_vusession=70de633e23002eb00000000012d275a5949283c2bd4e; _video_qq_next_refresh_time=4405; login_time_last=2019-3-20 16:42:40; o_cookie=1179630150; pgv_info=ssid=s3395872160; pgv_pvid=3092479592'

}

data = {

'timestamp': time_stamp,

'target_id': '1379190863',

}

# 使用urlencode()函数将参数表示为链接形式,进行拼接

url = base_url + urlencode(data)

response = requests.get(url, headers=headers)

if response.status_code == 200:

return response.text

except Exception:

return None

def get_30s_danmu(text):

id = re.findall(r'"commentid":"(.*?)",', text)

T = re.findall(r'"timepoint":(.*?),', text)

comments = re.findall(r'"content":"(.*?)",', text)

like = re.findall(r'"upcount":(.*?),"', text)

for (i, j, k, l) in zip(id, T, like, comments): # 生成可迭代对象

a=int(int(j)/60)

b=int(j)%60

c=":"

d=str(a)

e=str(b)

seq=(d,e)

j=c.join(seq)

with open('douluo_test1_danmu.csv', 'a+', newline='', encoding='utf-8-sig') as f: # newline=''可以避免存入空行;设置编码;追加写入

writer = csv.writer(f)

writer.writerow(['\''+str(i), str(j), str(k), l])

def main():

time_stamp = 15

num = 1

while True:

print('第{}次爬取'.format(num))

print('*'*50)

base_url = 'https://mfm.video.qq.com/danmu?'

text = search(base_url, time_stamp)

print('*'*50)

get_30s_danmu(text)

time_stamp += 30

num += 1

if __name__ == '__main__':

main()

回答

成为首答用户。去 写回答
相关文章
WebSocket爬虫之爬取龙珠弹幕
我是个宅男,喜欢看很多人直播,以前可以看一天直播不出门。现在主要看这么些主播,虎牙的韦神、Dopa,斗鱼的狗贼嘘嘘。
小歪
2018/12/14
2.9K1
Python爬虫 爬取B站视频弹幕 + 绘制词云
视频链接:https://www.bilibili.com/video/BV1zE411Y7JY
叶庭云
2020/09/17
3.5K0
Python爬虫    爬取B站视频弹幕 + 绘制词云
Python爬虫| 实战爬取腾讯视频评论
根据上图,我们可以知道:评论使用了Ajax异步刷新技术。这样就不能使用以前分析当前页面找出规律的手段了。因为展示的页面只有部分评论,还有大量的评论没有被刷新出来。
Python进击者
2019/12/25
2.3K0
Python爬虫| 实战爬取腾讯视频评论
python爬虫(爬取视频)
爬虫爬视频 爬取步骤 第一步:获取视频所在的网页 第二步:F12中找到视频真正所在的链接 第三步:获取链接并转换成机械语言 第四部:保存 保存步骤代码 import re import request
小小咸鱼YwY
2019/07/24
5.9K0
让弹幕飞一会儿——腾讯视频弹幕(39W+)爬取实战
短短四句,揭示了两种本质——碗是大和圆的,面是长亦宽的。一秒就看清事物本质的人和一辈子才看透事物本质的人自然过着不同的人生。
DT数据侠
2019/04/25
2.7K0
让弹幕飞一会儿——腾讯视频弹幕(39W+)爬取实战
python爬虫:爬取网站视频
python爬取百思不得姐网站视频:http://www.budejie.com/video/
py3study
2020/01/11
3.4K0
Python3爬取B站视频弹幕文字+视频
需要准备的环境: 1、一个B站账号,需要先登录,否则不能查看历史弹幕记录 2、联网的电脑和顺手的浏览器,我用的Chrome 3、Python3环境以及request模块,安装使用命令,换源比较快: 爬取步骤: 1.登录后打开需要爬取的视频页面,打开开发者工具台,Chrome可以使用F12快捷键,选择network监听请求 其中rolldate后面的数字表示该视频对应的弹幕号,返回的数据中timestamp表示弹幕日期,new表示数目 4.在查看历史弹幕中任选一天,查看,会发出新的请求 dmrol
企鹅号小编
2018/02/08
1.2K0
Python3爬取B站视频弹幕文字+视频
Python爬取《赘婿》弹幕
在近期的工作代码中我遇到了一些小问题,导致了我的更新慢了不少。今天我就想把我在之前遇到的问题分享给大家,并通过一篇实战内容来教会大家,希望各位小伙伴以后遇到类似问题的时候,可以想起我的文章,并解决问题。
程序员迪迪
2021/12/23
5750
利用爬虫爬取我的solo博客
标题:利用爬虫爬取我的solo博客 作者:cuijianzhe 地址:https://solo.cjzshilong.cn/articles/2020/03/25/1585126708916.html
cuijianzhe
2022/06/14
3630
利用爬虫爬取我的solo博客
好看到弹幕全是“二刷”?Python爬取腾讯视频1.1W弹幕,做词云分析
前言 最近难得有一部剧能在其中保持着热度——檀健次和金世佳主演的单元探案剧《猎罪图鉴》。 该剧于2022年3月6日在首播 《猎罪图鉴》以悬疑题材独辟蹊径,成为这个初春的一匹黑马,该剧豆瓣14W人评分,目前为7.0分 今天就来采集一下它的弹幕数据 环境介绍 python 3.8 pycharm requests >>> pip install requests pyecharts >>> pip install pyecharts 视频弹幕采集 请求数据 headers = { 'user-age
松鼠爱吃饼干
2022/03/30
9130
好看到弹幕全是“二刷”?Python爬取腾讯视频1.1W弹幕,做词云分析
Python实时爬取斗鱼弹幕
斗鱼提供的文档已经是一年前的了,里面传回的消息内容增加了不少,但整体逻辑还是没变,我这边只取了弹幕里面的昵称和文本内容,其他的消息各位可以先打印出来看了再写正则表达式去匹配就好。
Awesome_Tang
2018/09/11
2.1K0
Python实时爬取斗鱼弹幕
Python爬虫实践——简单爬取我的博客
学任何一门技术,如果没有实践,技术就难以真正的吸收。利用上次博客讲解的三个知识点:URL 管理器、网页下载器和网页解析器来爬取一下我的博客。 我的博客地址 http://weaponzhi.online/ 这个博客里面没有技术的文章,主要是我的一些生活上面的记录,可以说是我的日记本,平时会写一些思想感悟,记录些琐事。我们简单以这个博客主页为入口,爬取一下以 weaponzhi.online 为 host 下所有的 URL 。 首先当然是需要一个 URL 管理器了,但和上篇文章说的有所不同,这次我们的待爬取数
小之丶
2018/03/07
1.1K0
Python爬虫实践——简单爬取我的博客
爬取bilibili的弹幕制作词云
爬取哔哩哔哩的弹幕,http://comment.bilibili.com/6315651.xml
andrew_a
2019/07/30
9800
爬取bilibili的弹幕制作词云
Python爬虫---爬取腾讯动漫全站漫画
首先我们打开腾讯动漫首页,分析要抓取的目标漫画。 找到腾讯动漫的漫画目录页,简单看了一下目录,发现全站的漫画数量超过了三千部(感觉就是爬下来也会把内存撑爆)
用户7678152
2020/09/16
6.6K0
Python爬虫---爬取腾讯动漫全站漫画
python爬虫_爬取B站视频标题
全称 Uniform Resource Locator (统一资源定位器),格式为:协议+主机+端口+路径。
英雄爱吃土豆片
2021/01/29
1.5K0
源代码和工具 | 2023 bilibili 视频弹幕爬虫,单条视频最多可爬取 10000 条弹幕
书接上回,b 站除了评论区出人才,弹幕也是 b 站文化富集之地,所以今天分享的是 b 站弹幕爬虫,文末同时附上源代码和 exe 工具链接。
月小水长
2023/08/17
1.7K1
源代码和工具 | 2023 bilibili 视频弹幕爬虫,单条视频最多可爬取 10000 条弹幕
python爬取B站视频弹幕分析并制作词云
视频地址:https://www.bilibili.com/video/BV19E411W7BE 本身博主同时也是一名up主,虽然已经断更好久了,但是不妨碍我爬取弹幕信息来分析呀。 这次我选取的是自己唯一的爆款视频。就是下面这个。
萌萌哒的瓤瓤
2020/08/26
1.6K0
python爬取B站视频弹幕分析并制作词云
Python爬虫爬取Instagram博主照片视频
前言 Instagram上有很多非常好看的照片,而且照片类型非常全,照片质量也很高。 但是有个问题,不管是在移动端还是在网页端都不能通过长按或者右键方式进行图片保存。 看了下知乎问题 怎
林清猫耳
2018/08/31
5K1
Python爬虫爬取Instagram博主照片视频
Python爬虫学习教程 bilibili网站视频爬取!
Python的爬虫简单便捷、上手学习的难易程度超乎你的想象!教你从网页分析开始学习, 用猫眼电影爬虫带你入门网络爬虫技术。
python学习教程
2020/04/21
8700
Python爬虫:爬取美拍小姐姐视频
  最近在写一个应用,需要收集微博上一些热门的视频,像这些小视频一般都来自秒拍,微拍,美拍和新浪视频,而且没有下载的选项,所以只能动脑想想办法了。
py3study
2020/01/19
1.8K0
Python爬虫:爬取美拍小姐姐视频

相似问题

您好请问爬取新浪新闻的API 具体在哪里?我想爬取娱乐板块的?

1292

爬取B站弹幕文件没有检索到xml文件是为什么?

0699

腾讯云的设置,求助你们了?

2259

刚刚买了腾讯云服务器,求助求助求助?

3614

腾讯云直播会对弹幕进行审核吗?

1752
相关问答用户
平安资管 | 架构师擅长4个领域
擅长3个领域
腾讯云TDP | 高级后端开发工程师擅长3个领域
擅长4个领域
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档