前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >我用python开发了一个微博搜索关键词采集软件

我用python开发了一个微博搜索关键词采集软件

原创
作者头像
马哥小迷弟132
修改于 2025-03-12 10:05:49
修改于 2025-03-12 10:05:49
1300
代码可运行
举报
运行总次数:0
代码可运行

本工具仅限学术交流使用,严格遵循相关法律法规,符合平台内容的合法及合规性,禁止用于任何商业用途!

一、背景分析

1.1 开发背景

微博是国内非常流行的社交媒体平台,内容主要以文字和图片为主,在实时性和KOL关注热度方面尤为突出。广大网友在微博平台大量输出自己的观点、看法,组成了一个活跃度极高的社区群体。同时,我本人也发现,每次热点事件爆发的时候,微博热搜也是所有媒体平台里最先曝光的平台(其他平台或多或少都有一些延迟)

基于此,我用python开发了一个爬虫采集软件,叫【爬微博搜索软件】,下面详细介绍。

1.2 软件界面

软件界面,如下:

软件运行中
软件运行中

1.3 结果展示

爬取结果:(截图中展示的就是全部字段了)

爬取结果
爬取结果

1.4 演示视频

软件运行演示:小破站:BV1morrYgEcf

1.5 软件说明

几点重要说明,请详读了解:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便!
2. 软件通过爬虫程序爬取,经本人专门测试,运行持久,稳定性较高!
3. 先在cookie.txt中填入自己的cookie值,方便重复使用(内附cookie获取方法)
4. 支持多个关键词串行爬取
5. 支持按时间段范围采集贴子
6. 爬取过程中,每爬一页,存一次csv。并非爬完最后一次性保存!防止因异常中断导致丢失前面的数据(每条间隔1~2s)
7. 爬取过程中,有log文件详细记录运行过程,方便回溯 
8. 结果csv含11个字段,有:关键词,页码,微博id,微博链接,用户昵称,用户主页链接,发布时间,转发数,评论数,点赞数,微博内容。 

以上是现有功能,软件版本持续更新中。

二、主要技术

软件全部模块采用python语言开发,主要分工如下:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
tkinter:GUI软件界面
requests:爬虫请求
BeautifulSoup:解析响应数据
pandas:保存csv结果、数据清洗
logging:日志记录

出于版权考虑,暂不公开源码,仅向用户提供软件使用。

部分代码实现:

发送请求并解析数据:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
# 发送请求
r = requests.get(url, headers=h1, params=params)
# 解析数据
soup = BS(r.text, 'html.parser')

解析微博链接:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
# 微博链接
wb_url = 'https:' + item.find('div', {'class': 'from'}).find('a').get('href')
wb_url_list.append(wb_url)

保存结果数据到csv文件:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
# 保存数据
df = pd.DataFrame(
	{
		'关键词': kw,
		'页码': page,
		'微博id': id_list,
		'微博链接': wb_url_list,
		'用户昵称': name_list,
		'用户主页链接': user_link_list,
		'发布时间': create_time_list,
		'转发数': repost_count_list,
		'评论数': comment_count_list,
		'点赞数': like_count_list,
		'微博内容': text_list,
	}
)
# 保存csv文件
df.to_csv(self.result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
self.tk_show('结果保存成功:{}'.format(self.result_file))

软件界面底部版权:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
# 版权信息
copyright = tk.Label(root, text='@马哥python说 All rights reserved.', font=('仿宋', 10), fg='grey')
copyright.place(x=290, y=625)

日志模块:

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
										when='MIDNIGHT',
										interval=1,
										backupCount=7,
										encoding='utf-8')

三、使用介绍

3.0 填写cookie

开始采集前,先把自己的cookie值填入cookie.txt文件。

pc端微博cookie获取说明:

cookie获取方法
cookie获取方法

然后把复制的cookie值填写到当前文件夹的cookie.txt文件中。

3.1 软件登录

用户登录界面:

用户登录
用户登录

3.2 采集微博帖子

根据自己的实际情况,在软件界面填写采集条件,点击开始按钮:

软件界面
软件界面

完成采集后,在当前文件夹生成对应的csv文件,文件名以时间戳命名,方便查找。

关键Python库

代码语言:python
代码运行次数:0
运行
AI代码解释
复制
tkinter:GUI软件界面
requests:爬虫请求
BeautifulSoup:解析响应数据
pandas:保存csv结果、数据清洗
logging:日志记录

END

我是一名10年程序猿,专注python开发!

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用python开发的抖音关键词搜索采集软件
抖音作为国内颇受欢迎的短视频社交平台,汇聚了大量用户群体和活跃用户。分析抖音上的热门视频可用于市场调研和竞品分析,帮助了解流行内容和趋势,从而为企业制定营销策略和推广方案提供参考。同时,抖音也可作为灵感源泉,帮助内容创作者发现新的创意和内容方向。
马哥小迷弟132
2024/07/07
3781
用python开发的抖音关键词搜索采集软件
【YouTube采集软件】根据关键词批量爬取油管搜索结果
我是一枚资深python开发工程师。用python原创开发了一款爬虫软件,作用是:通过搜索关键词采集YouTube的搜索结果,包含14个关键字段(见1.3章节,详细介绍)
马哥小迷弟132
2024/07/03
8660
【YouTube采集软件】根据关键词批量爬取油管搜索结果
揭秘!抖音搜索神器,一键批量采集GUI软件,多关键词抓取不是梦!
哇塞,你知道吗?我用Python捣鼓出了一个爬虫小能手,它能自动去抖音上按照关键词找视频数据呢!
马哥python说
2024/02/08
1.3K0
揭秘!抖音搜索神器,一键批量采集GUI软件,多关键词抓取不是梦!
高效运营秘诀!爬虫软件一键采集小红书多博主笔记,批量获取灵感!
众所周知,小红书是国内流量数一数二的社区种草平台,拥有海量用户和上亿日活。抓取小红书平台的目标博主的热门笔记,有助于做账号的宝子们快速实现流量最大化,引导粉丝成交的目的。因此,我用python开发了一个爬虫采集软件,可自动按指定博主抓取该博主已发布笔记数据。
马哥python说
2024/03/26
1.3K0
高效运营秘诀!爬虫软件一键采集小红书多博主笔记,批量获取灵感!
【爬虫软件】我用python开发的小红书蒲公英采集软件,支持筛选关键词、粉丝数、报价等,助力品牌商高效筛选优质博主!
蒲公英平台(用过的人都知道^^,没用过的人一脸懵- -!),在此介绍一下:蒲公英是小红书推出的优质创作者商业合作服务平台,致力于为品牌和博主提供内容合作服务,可以为品牌匹配出最符合合作条件的优质博主。
马哥小迷弟132
2024/07/01
5220
【爬虫软件】我用python开发的小红书蒲公英采集软件,支持筛选关键词、粉丝数、报价等,助力品牌商高效筛选优质博主!
【爬虫软件】小红书搜索神器:一键批量采集笔记,多关键词同时抓取!
为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!
马哥python说
2024/01/25
2.1K2
【爬虫软件】小红书搜索神器:一键批量采集笔记,多关键词同时抓取!
2024研发:批量采集抖音博主的主页作品软件(可监控对标账号发布作品)
毫无疑问,抖音是目前国内最为火热的短视频社交平台,拥有海量用户和上亿日活。采集抖音个人主页作品数据可以用来分析该用户的热门作品、受众喜好、创作风格等信息,有助于了解用户的影响力和受欢迎程度。这些数据可以帮助营销人员选择合适的合作对象和推广策略,也可以帮助内容创作者优化自己的创作方向和提升影响力。
马哥小迷弟132
2024/06/29
4530
2024研发:批量采集抖音博主的主页作品软件(可监控对标账号发布作品)
【GUI软件】调用YouTube的API接口,采集关键词搜索结果,并封装成界面工具!
我用Python独立开发了一款爬虫软件,作用是:通过搜索关键词采集YouTube的搜索结果,包含14个关键字段:关键词,页码,视频标题,视频id,视频链接,发布时间,视频时长,频道名称,频道id,频道链接,播放数,点赞数,评论数,视频简介。
马哥python说
2024/05/08
3080
【GUI软件】调用YouTube的API接口,采集关键词搜索结果,并封装成界面工具!
【GUI软件】小红书按关键词采集笔记详情,支持多个关键词,含笔记正文、转评赞藏等
开发界面软件的目的:方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!
马哥python说
2024/03/30
5000
【GUI软件】小红书按关键词采集笔记详情,支持多个关键词,含笔记正文、转评赞藏等
爆款小红书笔记采集神器!Python开发,正文一键爬取
小红书是国内集社交、分享、购物于一体的综合性平台,为用户提供了一个交流经验、获取灵感和享受购物乐趣的沟通渠道,同时也是国内流量数一数二的生态网站。很多行业的操盘手需要获取热门笔记、热门作者的作品数据,从而提升自己账号的互动数据和价值。因此,我用python开发了一个爬虫采集软件,可自动按笔记链接抓取笔记的详情数据。
马哥小迷弟132
2024/06/25
1.6K0
爆款小红书笔记采集神器!Python开发,正文一键爬取
用Python开发的抖音评论区采集软件,批量爬取评论(含二级)
采集软件的主要目标是实现笔记数据的自动化采集,包括笔记正文、发布时间、以及转评赞藏等关键信息。通过设计直观的界面,旨在让即使是技术小白也能轻松使用这款工具。
马哥python说
2024/01/27
10.1K3
用Python开发的抖音评论区采集软件,批量爬取评论(含二级)
【python爬虫软件】2024版快手评论区批量采集,含二级评论!
快手是目前国内较流行的短视频社交平台,尤其是二三线城市等下沉市场,采集快手评论区数据可以用于用户行为分析和情感分析,了解用户对于特定内容或产品的喜好和意见。还可以帮助营销人员制定更具针对性的营销策略,提高营销效果。此外,还可以帮助内容创作者改善内容质量,更好地吸引和留住观众。同时,采集快手评论区数据还可以用于舆情监测,及时了解用户对特定事件或话题的看法,帮助企业做出及时的反应。
马哥小迷弟132
2024/06/28
4130
【python爬虫软件】2024版快手评论区批量采集,含二级评论!
【爬虫工具】2025微博采集软件,根据搜索关键词批量爬帖子,突破50页限制!
微博是国内非常流行的社交媒体平台,内容主要以文字和图片为主,在实时性和KOL关注热度方面尤为突出。广大网友在微博平台大量输出自己的观点、看法,组成了一个活跃度极高的社区群体。同时,我本人也发现,每次热点事件爆发的时候,微博热搜也是所有媒体平台里最先曝光的平台(其他平台或多或少都有一些延迟)
马哥python说
2025/01/09
70
【爬虫软件】小红书评论区批量采集,含二级评论
毋庸置疑,小红书是国内流量数一数二的社区种草平台,拥有海量用户和上亿日活,尤其笔记下方的评论区有重大挖掘价值。采集小红书评论数据可以帮助客户了解消费者对商品和品牌的评价和反馈,从而更好地洞悉消费者的喜好、需求和购买意向。通过分析用户评论数据,企业可以及时发现和处理消费者的负面评价和投诉,提升品牌口碑和信誉度。
马哥python说
2024/01/21
1.7K1
【爬虫软件】小红书评论区批量采集,含二级评论
【爬虫软件】2024研发:抖音评论区采集,包含二级评论!
众所周知,抖音是国内最火热的短视频社交平台,拥有上亿日活和海量用户,视频下方的评论区数据也是文本挖掘的重要目标,对于掌握热点方向、洞察用户心理、抓取目标数据大有帮助。
马哥小迷弟132
2024/06/27
1.1K0
【爬虫软件】2024研发:抖音评论区采集,包含二级评论!
【爬虫GUI】YouTube评论采集软件,突破反爬,可无限爬取!
最近我用python开发了一个GUI桌面软件,作用是爬取YouTube指定视频的评论。
马哥python说
2024/03/02
4330
【爬虫GUI】YouTube评论采集软件,突破反爬,可无限爬取!
【爬虫软件】小红书评论采集v4.0升级版:自动采集1024w条,含二级评论!
您好!我用python开发的爬虫采集软件,可自动抓取小红书评论数据,并且含二级评论数据。
马哥小迷弟132
2024/06/24
5460
【爬虫软件】小红书评论采集v4.0升级版:自动采集1024w条,含二级评论!
用python爬取youtube视频评论,并封装成GUI软件!
众所周知,YouTube是全球最大的视频分享平台,用户可以在上面观看和上传视频内容。该平台现已成为在线视频市场的领军者之一,拥有数十亿的用户和数以亿计的视频内容。视频下方评论区也成为众多媒体从业者的分析目标。不仅可以分析评论中的情感倾向,了解公众对特定视频或主题的情感反馈,有助于了解受众的情绪和看法。还可以洞察观众对视频内容的喜好、关注点以及反馈,有助于内容创作者做出更好的决策。同时,评论也可以作为市场调研的一部分,帮助企业和品牌了解公众对其产品或服务的态度,从而调整营销策略。
马哥小迷弟132
2024/07/02
5022
用python爬取youtube视频评论,并封装成GUI软件!
【爬虫软件】用python开发的快手评论批量采集工具:含二级评论
我开发了一款基于Python的快手评论采集软件,该软件能够自动抓取快手视频的评论数据,包括二级评论和展开评论。为便于不懂编程的用户使用,我提供了图形用户界面(GUI),用户无需安装Python环境或编写代码,只需双击即可运行。
马哥python说
2024/03/21
8730
【爬虫软件】用python开发的快手评论批量采集工具:含二级评论
推荐阅读
用python开发的抖音关键词搜索采集软件
3781
【YouTube采集软件】根据关键词批量爬取油管搜索结果
8660
揭秘!抖音搜索神器,一键批量采集GUI软件,多关键词抓取不是梦!
1.3K0
高效运营秘诀!爬虫软件一键采集小红书多博主笔记,批量获取灵感!
1.3K0
【爬虫软件】我用python开发的小红书蒲公英采集软件,支持筛选关键词、粉丝数、报价等,助力品牌商高效筛选优质博主!
5220
【爬虫软件】小红书搜索神器:一键批量采集笔记,多关键词同时抓取!
2.1K2
2024研发:批量采集抖音博主的主页作品软件(可监控对标账号发布作品)
4530
【GUI软件】调用YouTube的API接口,采集关键词搜索结果,并封装成界面工具!
3080
【GUI软件】小红书按关键词采集笔记详情,支持多个关键词,含笔记正文、转评赞藏等
5000
爆款小红书笔记采集神器!Python开发,正文一键爬取
1.6K0
用Python开发的抖音评论区采集软件,批量爬取评论(含二级)
10.1K3
【python爬虫软件】2024版快手评论区批量采集,含二级评论!
4130
【爬虫工具】2025微博采集软件,根据搜索关键词批量爬帖子,突破50页限制!
70
【爬虫软件】小红书评论区批量采集,含二级评论
1.7K1
【爬虫软件】2024研发:抖音评论区采集,包含二级评论!
1.1K0
【爬虫GUI】YouTube评论采集软件,突破反爬,可无限爬取!
4330
【爬虫软件】小红书评论采集v4.0升级版:自动采集1024w条,含二级评论!
5460
用python爬取youtube视频评论,并封装成GUI软件!
5022
【爬虫软件】用python开发的快手评论批量采集工具:含二级评论
8730
相关推荐
用python开发的抖音关键词搜索采集软件
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文