前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬取微博热榜并将其存储为csv文件

爬取微博热榜并将其存储为csv文件

作者头像
秋名山码神
发布2023-10-16 14:27:09
3230
发布2023-10-16 14:27:09
举报
文章被收录于专栏:码神随笔

前言

基于大数据技术的社交媒体文本情绪分析系统设计与实现,首先需要解决的就是数据的问题,我打算利用Python 语言的Scrapy、Beautiful Soup等工具抓取一段时间内新浪微博用户对于热点事件的博文之后,按照事件、时间等多种方式进行分类,接着利用正则表达式等工具过滤掉微博正文中的超链接、转发信息、表情符号、广告宣传和图片等无效信息之后,将处理完的文本进行手工标注,最终将标注的文本作为训练语料库。今天的主要工作量就是对数据的获取,进行简单的热榜爬虫、和热点爬虫,热榜爬虫代码进行公开,热点爬虫代码需要的欢迎私信有偿获取。

1. 热榜前50爬虫

所需库:

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup
import pandas as pd

新浪微博目标网站: url = ‘https://s.weibo.com/top/summary/’

cookie的获取: Cookie中包含以下字段:

  • SUB:用户身份认证信息,通常由数字和字母组成。
  • SUBP:用户身份认证信息,通常由数字和字母组成。
  • SINAGLOBAL:用户身份认证信息,通常由数字和字母组成。
  • _s_tentry:用户访问来源网站的信息。
代码语言:javascript
复制
cookie = '你自己的cookie'

常规爬虫代码

代码语言:javascript
复制
# 获取网页响应,对网页响应进行编码
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text

# 将网页文本使用Beautifulsoup解析
soup = BeautifulSoup(html, 'html.parser')

# allnews存放热搜前50的新闻和热度,形式为{'新闻':'热度'}字典
all_news = {}

微博热榜分析

代码语言:javascript
复制
# 定位网页元素,观察到热搜新闻位于'td'元素下,class为'td-02'
for news in soup.find_all('td', class_='td-02')[1:]:
    text = news.text.split('\n')[1].strip()
    if news.text.split('\n')[2].strip() == '':
        continue
    elif news.text.split('\n')[2].strip()[0].isdigit():
        hot = news.text.split('\n')[2].strip()
    else:
        hot = news.text.split('\n')[2].strip()[2:]
    all_news[text] = hot

存储为csv

代码语言:javascript
复制
# 将字典转为DataFrame,并将DataFrame保存为csv文件
df = pd.DataFrame.from_dict(all_news, orient='index', columns=['热度'])
df.index.name = '新闻'
df.to_csv('weibo_hot.csv', encoding='utf-8-sig')

结果展示

最后

如果本文对你有所帮助,还请三连支持一下博主!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 1. 热榜前50爬虫
  • 最后
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档