Loading [MathJax]/jax/output/CommonHTML/config.js
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MediaCrawler,轻松爬取抖音小红书评论数据!

MediaCrawler,轻松爬取抖音小红书评论数据!

作者头像
小F
发布于 2024-04-15 09:44:40
发布于 2024-04-15 09:44:40
4.2K012
代码可运行
举报
运行总次数:12
代码可运行
大家好,我是小F~

今天给大家介绍一个Python爬虫实战的项目,MediaCrawler。

可以实现小红书爬虫,抖音爬虫, 快手爬虫, B站爬虫, 微博爬虫。

目前能抓取小红书、抖音、快手、B站、微博的视频、图片、评论、点赞、转发等信息。

项目地址:

https://github.com/NanmiCoder/MediaCrawler

原理:利用playwright搭桥,保留登录成功后的上下文浏览器环境,通过执行JS表达式获取一些加密参数 通过使用此方式,免去了复现核心加密JS代码,逆向难度大大降低。

下面小F就来介绍下如何使用~

首先使用conda创建虚拟环境,Python版本3.9。

激活环境后,安装相关的依赖。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 创建conda环境
conda create --name MediaCrawler python=3.9

# 激活环境
conda activate MediaCrawler

# 安装相关依赖
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 安装playwright浏览器驱动
playwright install

其中Playwright是微软推出来的一款自动化测试工具,是专门为满足端到端测试需求而创建的。

最后还需要安装nodejs,版本为v16.20.2,要不然运行会报错。

数据保存有三种方式,数据库、CSV、JSON

数据库地址可以在db_config.py文件里配置。

支持redis、mysql、sqlite3。

整个项目代码开源,项目代码结构如下。

一些常见的问题,大家可以看看。

环境搭建好以后,就可以执行代码啦~

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 从配置文件中读取关键词搜索相关的帖子并爬去帖子信息与评论
python main.py --platform xhs --lt qrcode --type search

# 从配置文件中读取指定的帖子ID列表获取指定帖子的信息与评论信息
python main.py --platform xhs --lt qrcode --type detail

# 其他平台爬虫使用示例, 执行下面的命令查看
python main.py --help

具体的配置可以去base_config.py文件里修改。

这里以小红书作为例子,来实验一下。

命令行运行代码,结果如下。

成功保存了csv数据,包含帖子及评论信息。

下一步就是对数据进行分析处理了,大家可以自行去学习使用。

项目源码,公众号后台回复:「MediaCrawler」,即可获得。

爬取这些平台(小红书、抖音、快手、B站、微博)的笔记、视频评论和帖子评论可以为多个领域创造价值。下面举几个例子说明:

① 市场研究和消费者洞察

通过分析这些数据,企业可以获得有关消费者偏好、兴趣、反馈和行为趋势的深入洞察。这为产品开发、市场定位和优化营销策略提供了数据支持。

品牌舆情监控

企业可以实时监控和分析公众对其品牌、产品或服务的看法和情绪变化。这有助于快速响应可能的负面舆论,维护品牌形象。

③ 竞争对手分析

通过比较分析竞争对手在上述平台的表现,企业可以了解竞争对手的市场策略、客户反馈以及优缺点,从而调整自己的策略以保持竞争优势。

④ 内容策略优化

了解哪些主题或视频类型最受欢迎,可以帮助内容创造者、营销人员和媒体公司制定更符合用户需求和喜好的内容策略。

⑤ 社交媒体趋势分析

分析评论数据可以揭示当前的社交媒体趋势、热议话题和病毒内容,为内容创新提供灵感。

⑥ 顾客服务和产品反馈

直接从用户评论中提取问题和反馈,可以让企业迅速改进产品和服务,提升顾客满意度。

注:使用这些数据时,要特别注意遵守相关法律法规(如数据保护法),尊重用户隐私,确保数据的合法、合规获取和使用。不当的数据使用不仅可能违反法律,还可能对企业声誉和用户信任造成伤害。

万水千山总是情,点个 👍 行不行。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-04-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 法纳斯特 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MediaCrawler 提取评论生词云:小红书实例-麦琳评论区
怪盗LYL
2024/11/12
3800
MediaCrawler 提取评论生词云:小红书实例-麦琳评论区
快手评论协议,抖音小红书评论协议,自动评论协议脚本
下载地址:https://www.pan38.com/dow/share.php?code=JCnzE 提取密码:8896 【仅供学习参考】
用户11749621
2025/07/21
80
4个惊艳的AI项目,开源了!
三维参数导引下可控一致的人体图像动画生成项目。只需要一张照片,就能让照片里的人物动起来。
Jack_Cui
2024/04/03
1.8K0
4个惊艳的AI项目,开源了!
抖音、快手、小红书、B站等广告投放平台的特点、用户特征
当前广告投放市场已经基本结束了野蛮生长的状态,进入了成熟稳定的流量生态发力期。随着掌握流量入口的BAT,以及近年来新兴的抖音、快手、小红书、B站等媒体崛起,流量不仅被分流到各个不同圈层和平台,还由此诞生了特征鲜明的平台属性,每个平台的规则和用户标签都不一样。
openinstall
2023/08/25
2.3K0
抖音、快手、小红书、B站等广告投放平台的特点、用户特征
内容电商,抖音、快手、小红书“分道扬镳”
说起内容平台,相信大家并会不感到陌生,抖音、快手、小红书更是当下消费者最常用的内容平台之一。无论是抖音、快手,还是小红书,都凭借着独特的优势,在各自的领域站稳脚跟,成长为行业的头部玩家,收获了众多用户的青睐。
刘旷
2024/02/06
1710
龙哥风向标20240109 GPT拆解
盈利点:利用Tiktok shop上的厨房好物商机,可以投放具有较大利润空间的厨房产品,并通过Tiktok shop平台进行销售,获取利润。
ApacheCN_飞龙
2024/01/31
2240
龙哥风向标20231205 GPT拆解
盈利点:利用小红书博主视频+直播形式销售绘本的商机,可以通过合作或者委托博主进行产品推广销售,利用其高销量和粉丝众多的优势进行盈利。
ApacheCN_飞龙
2024/01/31
2390
抖音、美团“神仙打架”
抖音做外卖,美团搞短视频。如今,消费互联网的红利出走,越来越多企业的商业化步入深水区,在意料之外的领域中碰头了。
刘旷
2022/06/04
2600
龙哥风向标20230912 GPT拆解
盈利点:利用公众号流量主平台,选择养老金作为方向,可以通过推广养老金相关内容获取流量,进而实现盈利。
ApacheCN_飞龙
2024/01/31
2450
抖音与美团的“用户时长”持久战,耗得起的抖音和稳步推进的美团
除了抖音之外,拥有“用户时长”优势的小红书、快手、微信也都纷纷高调进入本地生活领域……或许,这才是投资人最大的担心
庄帅
2023/09/08
4390
抖音与美团的“用户时长”持久战,耗得起的抖音和稳步推进的美团
龙哥风向标20231114 GPT拆解
盈利点:利用小红书邀约旅游博主的商机,可以通过真实行程路线获得流量,同时警示假攻略的危险,可以提供真实的旅游内容,吸引用户关注,同时警示用户避免虚假信息。
ApacheCN_飞龙
2024/01/31
1760
抖音==1/2个微信?抖音会是下一个巨头吗?
昨天,抖音对外宣布了最新用户数据,全球月活跃用户数超过5亿。而微信的月活约为10亿,刚好是抖音的2倍。
IT派
2018/08/10
5340
抖音==1/2个微信?抖音会是下一个巨头吗?
龙哥风向标20231017 GPT拆解
盈利点:利用小红书博主发布的笔记和销量信息,可以进行服装短视频带货或图文带货的模仿学习,从中获取盈利。
ApacheCN_飞龙
2024/01/31
2040
龙哥风向标20240103 GPT拆解
盈利点:利用小红书平台卖虚拟资料,可以扩展至教育等产品,可以通过垂直类账号进行销售,盈利点在于销售虚拟资料和教育产品。
ApacheCN_飞龙
2024/01/31
2500
龙哥风向标20230829 GPT拆解
盈利点:利用抖音图文电商带货实操分享的商机,可以通过分享实操经验吸引新手入局,帮助他们在抖音图文带货中获取纯佣金收入。 操作步骤:
ApacheCN_飞龙
2024/01/31
2710
小红书关键词帖子数据采集和监控系统
很多读者可能有这种习惯,吃瓜看微博,疑惑上知乎,那要是生活方式和消费决策,还得是小红书。
月小水长
2023/04/27
1.8K0
小红书关键词帖子数据采集和监控系统
龙哥风向标20230822 GPT拆解
盈利点:利用视频号图书带货,专做小学数学讲解,通过直播间热度和精准人群转化高的特点,可以销售小学数学题测等产品,实现盈利。
ApacheCN_飞龙
2024/01/31
2080
AI 版“非诚勿忧”:视觉技术如何帮广告主精准寻找抖音“带货”博主
面对如此多的带货KOL和短视频,如何判断它们是否符合自己的品牌调性,是否愿意代理自己的产品,以及是否具有最高的投入产出比呢?这成了广告主们甜蜜的烦恼。
AI掘金志
2019/08/29
6900
AI 版“非诚勿忧”:视觉技术如何帮广告主精准寻找抖音“带货”博主
用python开发的小红书评论批量采集软件,高效挖掘评论数据价值
在当下的互联网环境中,小红书作为国内极具影响力的社区种草平台,日活跃度极高,笔记评论区蕴含着海量有价值的信息。在合法合规、遵循平台规则且尊重用户隐私的前提下,对这些评论数据进行采集分析,能助力企业精准把握消费者的喜好、需求和购买意向。基于此需求,一款名为 xhs_search_comment_tool 的采集小红书评论区界面软件开发完成,如下:
python迷3016
2025/03/31
7070
用python开发的小红书评论批量采集软件,高效挖掘评论数据价值
龙哥风向标20231219 GPT拆解
盈利点:利用小红书热帖中雍和宫手串助力考研上岸的需求火爆,可以代理雍和宫手串并进行销售,同时可以拓展更多与本命年相关产品,如开光手串等,以满足用户需求。
ApacheCN_飞龙
2024/01/31
1900
推荐阅读
相关推荐
MediaCrawler 提取评论生词云:小红书实例-麦琳评论区
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验