前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

小伙子不讲武德,竟用Python爬取了B站上1.4w条马老师视频数据来分析

作者头像
朱小五
发布于 2020-11-23 02:02:20
发布于 2020-11-23 02:02:20
59900
代码可运行
举报
文章被收录于专栏:凹凸玩数据凹凸玩数据
运行总次数:0
代码可运行

看到标题,

啪的一下你就进来了吧!

如果有经常刷B站的小伙伴,肯定都知道B站鬼畜现在的顶流是谁?

印度:没错正是在下

那必须是当代大师浑元形意太极拳掌门人「马保国」先生啊!

实话讲,马保国走进大家视野还是他5月份PK被人连续KO三次。

不过现在他在鬼畜区的主要素材却是马保国更早时候的一些视频。

比如2020年一月份,右眼被蹭了一下的马老师面带微笑,为我们生动形象地讲述了健身房里的年轻人是如何不讲武德,偷袭他的故事。

在视频里,他控诉踢馆的年轻人 “ 不讲武德 ” ,劝他 “ 耗子尾汁 ” 。可以作为B站入站题目,建议全文背诵。

B站这个小机灵鬼,甚至还给马老师专门开了专栏,这为我们后续爬取数据也带来了便利。

跟平时爬取B站不太一样,在B站的马保国专栏下,F12可以轻松找到接口。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
https://api.bilibili.com/x/web-interface/web/channel/multiple/list?channel_id=3503796&sort_type=hot&page_size=30

解析JSON后我们需要的数据都可以获得。

其中要提到一点,url中的offest从解析上一个url的json中获取,如如下图所示。

通过简短的爬虫代码,

很快啊,很快就爬取了1.4万条马保国先生的视频数据。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
def get_data(url,headers):
    data_m = pd.DataFrame(columns=['id','name','view_count','like_count','duration','author_name','author_id','bvid'])
    html = requests.get(url,headers=headers).content
    data = json.loads(html.decode('utf-8'))
    offset = data['data']['offset']
    print(offset)
    for j in range(30):
        data_m = data_m.append({'id':data['data']['list'][j]['id'],'name':data['data']['list'][j]['name'],
                            'view_count':data['data']['list'][j]['view_count'],'like_count':data['data']['list'][j]['like_count'],
                            'duration':data['data']['list'][j]['duration'],'author_name':data['data']['list'][j]['author_name'],
                            'author_id':data['data']['list'][j]['author_id'],'bvid':data['data']['list'][j]['bvid']},ignore_index=True)
    return(offset,data_m)

1.4万条数据预览

我们先进行简单的数据整理(播放量有的是万为单位)后,将1.4万个视频按照播放量和点赞量制作了一个散点图。

可以看到什么才是“顶流”的话题,播放量几百万,点赞量几十万的相关视频特别多。

按照播放量排序一下。

第一名就是今年一月份相声泰斗马老师经典单口相声!!!

那按照点赞量呢?

第一名是来自鬼畜up主的伊丽莎白鼠“武 林 高 手”!

而懂王与马老师的联动表现也很优秀!

其中几个特效向的表现更是突出!

由于马老师的语录太过经典,我决定再补充爬一下它的弹幕。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 绘制词云图
stylecloud.gen_stylecloud(text=' '.join(text1), 
                          collocations=False,
                          font_path=r'‪C:\Windows\Fonts\msyh.ttc',
                          icon_name='fas fa-play-circle',
                          size=653,
                          output_name='马保国词云图.png')

Image(filename='马保国词云图.png') 

耗子尾汁真是门面担当!

婷婷、英国大理石、塔门说也夹杂其中。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 凹凸数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
年轻人不讲武德,竟用Python让马老师表演闪电五连鞭!
主要参考百度AI Studio上的一个开源项目,使用PaddleSeg对人像进行分割。
小F
2020/12/02
1.1K0
年轻人不讲武德,竟用Python让马老师表演闪电五连鞭!
用Python分析《令人心动的offer2》的13万条弹幕,网友们都在吐槽什么?
综艺,是我们劳累了一天的放松方式,也是我们饭后的谈资。看着自己喜欢的综艺,时光足够美。而《令人心动的offer》,就是一个不错的综艺选择。
龙哥
2020/12/07
3320
用Python分析《令人心动的offer2》的13万条弹幕,网友们都在吐槽什么?
利用Python做一个漂亮小姐姐词云跳舞视频
B站上的漂亮的小姐姐真的好多好多,利用 you-get 大法下载了一个 B 站上跳舞的小姐姐视频,利用视频中的弹幕来制作一个漂亮小姐姐词云跳舞视频,一起来看看吧。
叶庭云
2021/02/02
1K0
Python爬虫实战:爬取B站Top100视频,分析弹幕、播放量和分类并数据可视化
最近挺好奇的,B站每天Top100,具体什么视频最多,播放量和视频的弹幕数有没有比例关系。
Mintimate
2022/02/15
5.9K2
Python爬虫实战:爬取B站Top100视频,分析弹幕、播放量和分类并数据可视化
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。
松鼠爱吃饼干
2020/11/19
7230
Python爬取B站耗子尾汁、不讲武德出处的视频弹幕
《黑神话:悟空》B站弹幕、知乎回答分析
最近行哥看到一部燃爆的游戏试玩短片火遍全网---《黑神话:悟空》,短短四天在B站便获得2100万+播放量。知乎也都在从各个角度评论这款游戏,所以行哥今天分别爬取上万条《黑神话:悟空》在B站的弹幕和知乎的回答,来看看这款游戏的评价到底怎么样
行哥玩Python
2020/08/28
9560
《黑神话:悟空》B站弹幕、知乎回答分析
axaj异步加载数据爬虫,获取B站UP主所有视频信息保存到数据库——每周一个爬虫小教程系列
网址:https://space.bilibili.com/482165792/video
SingYi
2022/07/14
7530
axaj异步加载数据爬虫,获取B站UP主所有视频信息保存到数据库——每周一个爬虫小教程系列
爬取视频数据后我们发现,原来逛B站也能学编程...
很多人提到B站,首先想到的就会是二次元或者鬼畜,上个月,我们公众号也发表了一篇关于B站鬼畜视频的文章:大数据解读B站火过蔡徐坤的“鬼畜“区巨头们。
CDA数据分析师
2019/05/17
6760
爬取视频数据后我们发现,原来逛B站也能学编程...
爬取了陈奕迅新歌《我们》10万条评论数据发现:原来,有些人只适合遇见
最近就有一部“怀旧”题材的电影,未播先火,那就是刘若英的处女作——《后来的我们》。青春,爱情,梦想,一直是“怀旧”题材的核心要素,虽然电影现在还未上映,但先行发布的主题曲《我们》,已经虐哭了不少人。在MV里,歌声清清浅浅,诉说着那些年关于爱情里的遗憾。 “我最大的遗憾,就是你的遗憾,与我有关”,下面就一起来感受一下吧。 这首歌是《后来的我们》中的主题曲,网易云音乐上线当天便席卷千万+播放量,现如今光是网易云上面的评论就马上突破了10万条。 网易云音乐一直是我向往的“神坛“,听音乐看到走心的评论的那一刻,高山
腾讯大讲堂
2018/05/11
7300
实战 | 用Python爬取《云南虫谷》3.6万条评论,并做数据统计可视化展示分析,好看!
最近鬼吹灯系列网剧《云南虫谷》上线,作为鬼吹灯系列作品,承接上部《龙岭迷窟》内容,且还是铁三角原班人马主演,网友直呼非常好看!
可以叫我才哥
2021/09/24
1.3K0
爬取了陈奕迅新歌《我们》10万条评论数据发现:原来,有些人只适合遇见
最近就有一部“怀旧”题材的电影,未播先火,那就是刘若英的处女作——《后来的我们》。青春,爱情,梦想,一直是“怀旧”题材的核心要素,虽然电影现在还未上映,但先行发布的主题曲《我们》,已经虐哭了不少人。在MV里,歌声清清浅浅,诉说着那些年关于爱情里的遗憾。
IT派
2018/07/30
7130
爬取了陈奕迅新歌《我们》10万条评论数据发现:原来,有些人只适合遇见
用Python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几大平台的弹幕、评论,看这一篇就够了!
今天讲解如何用python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几个常见常用的影视、舆论平台的弹幕和评论,这类爬虫得到的结果一般用于娱乐、舆情分析,如:新出一部火爆的电影,爬取弹幕评论分析他为什么这么火;微博又出大瓜,爬取底下评论看看网友怎么说,等等这娱乐性分析。
Python与Excel之交
2021/09/03
3.4K0
用Python爬取芒果TV、腾讯视频、B站、爱奇艺、知乎、微博这几大平台的弹幕、评论,看这一篇就够了!
Python爬取B站历史观看记录并用Bokeh做数据可视化
执行完毕后,数据保存到当前目录下的bili_history_XXX-XX-XX.xlsx文件
润森
2022/08/18
8061
Python爬取B站历史观看记录并用Bokeh做数据可视化
Python爬虫 爬取B站视频弹幕 + 绘制词云
视频链接:https://www.bilibili.com/video/BV1zE411Y7JY
叶庭云
2020/09/17
3.5K0
Python爬虫    爬取B站视频弹幕 + 绘制词云
利用Python做一个小姐姐词云跳舞视频
本文将以哔哩哔哩–乘风破浪视频为例,you-get下载视频,同时利用python爬取B站视频弹幕,并利用opencv对视频进行分割,百度AI进行人像分割,moviepy生成词云跳舞视频,并添加音频。
Python编程与实战
2021/03/10
7720
利用Python做一个小姐姐词云跳舞视频
手把手教你用Python网络爬虫获取B站UP主10万条数据并用Pandas库进行趣味数据分析
大家好,我是Python进阶者!今天来给大家分享小小明的另一篇巨作,上一次分享了他开发的一个filetools,十分好用,这篇文章里边也会用到,没来得及上车的小伙伴,记得戳这里:盘点一个小小明大佬开发的Python库,4个超赞功能。言归正传,一起来看看今天的干货内容吧~
Python进阶者
2021/09/15
4.1K1
推荐阅读
相关推荐
年轻人不讲武德,竟用Python让马老师表演闪电五连鞭!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档