开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

如何使用Python漂亮汤将yelp评论和星级收集到CSV中

使用Python漂亮汤（BeautifulSoup）将yelp评论和星级收集到CSV中可以通过以下步骤实现：

导入所需的库：

from bs4 import BeautifulSoup
import requests
import csv

定义目标URL和请求头信息：

url = "https://www.yelp.com"
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"
}

发送请求并获取HTML页面内容：

response = requests.get(url, headers=headers)
html_content = response.text

使用BeautifulSoup解析HTML内容：

soup = BeautifulSoup(html_content, "html.parser")

定位评论和星级的元素，并提取数据：

reviews = soup.find_all("div", class_="review")
data = []

for review in reviews:
    comment = review.find("span", class_="lemon--span__373c0__3997G raw__373c0__3rcx7").text.strip()
    rating = review.find("div", class_="i-stars__373c0__1T6rz").get("aria-label")
    data.append([comment, rating])

将数据写入CSV文件：

with open("yelp_reviews.csv", "w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["Comment", "Rating"])
    writer.writerows(data)

以上代码将评论和星级分别存储在Comment和Rating两列中，并将数据写入名为yelp_reviews.csv的CSV文件中。

注意：以上代码中的示例使用了第三方库BeautifulSoup进行HTML解析，可以通过pip install beautifulsoup4安装。此外，代码中的请求头信息User-Agent是为了模拟浏览器请求，具体可根据需要进行修改。

推荐的腾讯云相关产品：腾讯云服务器（CVM）和腾讯云对象存储（COS）。

腾讯云服务器（CVM）：提供高性能、可扩展的云服务器实例，适用于各类应用场景和业务需求。详细信息请参考：腾讯云服务器产品页
腾讯云对象存储（COS）：提供高可用、高可靠的对象存储服务，适用于海量文件存储和数据备份。详细信息请参考：腾讯云对象存储产品页

请注意，以上仅为推荐产品，并非对云计算品牌商的广告，也可根据实际需求选择其他云计算品牌商的相应产品。

相关搜索:使用python请求/ .CSV从库中检索漂亮的汤如何在python2.7中结合使用re和漂亮的汤来抑制某些结果？如何使用python在漂亮汤中通过lxml从网页中提取img src？如何使用python中的漂亮汤从带有" data -reactid“的"span”标记中抓取数据？如何使用python中的请求和漂亮汤对网站的所有页面进行分页我如何使用python中的漂亮汤来替换多个单词(术语)，包括html标签？如何使用python将所有具有相同值的元素收集到数组中？使用python将字典中的键和值写入csv 如何使用python将json数据保存到csv中如何使用python将CSV标头用作表列将csv加载到sqlite DB中如何使用python (在行中)将xml转换为csv文件？如何使用python和漂亮汤访问同一类的第二个和第三个p的内容如何使用python将数组中的CSV文件转换为MongoDB 如何获得与浏览器视图匹配的带换行符的文本，而不是html源代码(使用python和漂亮汤)如何使用python和pandas更改csv文件cloumn中的所有值如何使用Python将字符串写入csv文件中的列如何使用python将多个CSV文件导入到PostgreSQL表中？如何使用python将csv转换为json中的嵌套数组如何使用python将CSV文件中的列转换为json，以便键和值对来自CSV的不同列？如何使用Python和Pandas将多个CSV文件合并为一个文件？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

对美食评语进行情感分析

Yelp是美国著名商户点评网站，创立于2004年，囊括各地餐馆、购物中心、酒店、旅游等领域的商户，用户可以在Yelp网站中给商户打分，提交评论，交流购物体验等。...在Yelp中搜索一个餐厅或者旅馆，能看到它的简要介绍以及网友的点论，点评者还会给出多少星级的评价，通常点评者都是亲身体验过该商户服务的消费者，评论大多形象细致。...Yelp Reviews Yelp Reviews是Yelp为了学习目的而发布的一个开源数据集。它包含了由数百万用户评论，商业属性和来自多个大都市地区的超过20万张照片。...专门有个开源项目用于解析该JSON文件： https://github.com/Yelp/dataset-examples 该项目可以将Yelp Reviews的Yelp Reviews转换成CSV格式...如果为True，则跳过空行；否则记为NaN 按照列名直接获取数据，读取评论内容和打分结果，使用list转换成list对象。

2.1K2 0

GAN 优化 Yelp 形象图片广告

[在该论文种作者使用Yelp的图像数据集和基于星级的评估系统来衡量图像在促进餐饮业务发展方面的有效性]。作者使用迁移学习来训练一个接受Yelp图像并预测星级的分类器。...该分类器将餐饮的相关图像作为输入，将预测Yelp评论评分作为输出。其中，低于平均水平的图像将获得1-3.5星的分类，平均图像将获得4星的分类，高于平均水平的图像将获得4.5-5星的分类。...假设用户将评论[0，3.5]星视为低于平均水平，将评论4.0星视为平均水平，将任何评论[4.5，5]视为高于平均水平。...作者将每张图片与一家企业和该企业的星级相关联，所以需要进行大量的预处理。...处理后的图像阵列和星级一起存储在最终的数字阵列中，并保存到磁盘上。在该论文中作者实现了一个定制的数据集类，它与这些保存的数组进行交互，并由pytorch DataLoader进行使用。 ?

1.9K2 0

【Kaggle微课程】Natural Language Processing - 2.Text Classification

包括垃圾邮件检测、情绪分析和标记客户查询。在本教程中，您将学习使用spaCy进行文本分类。该分类器将检测垃圾邮件，这是大多数电子邮件客户端的常见功能。...您将首先使用Yelp评论构建一个模型来区分正面评论和负面评论，因为这些评论包括每个评论的评级。你的数据由每篇评论的正文和星级评分组成。 1-2 星的评级为“负样本”，4-5 星的评级为“正样本”。...3 星的评级是“中性”的，已经从数据中删除。 1. 评估方法上面方法的优势在于，你可以区分正面邮件和负面邮件，即使你没有标记为正面或负面的历史邮件。...这种方法的缺点是，电子邮件可能与Yelp评论很不同（不同的分布），这会降低模型的准确性。例如，客户在电子邮件中通常会使用不同的单词或俚语，而基于Yelp评论的模型不会看到这些单词。...在实践中，手动从每一个来源读几封电子邮件就足以判断这是否是一个严重的问题。如果你想做一些更花哨的事情，你可以创建一个包含Yelp评论和电子邮件的数据集，看看模型是否能从文本内容中分辨出评论的来源。

5481 0

用文本分类模型轻松搞定复杂语义分析；NLP管道模型可以退下了

第一篇《用 Python 构建 NLP Pipeline，从思路到具体代码，这篇文章一次性都讲到了》中（链接在文章末尾），我们使用 Python 构建了一个 NLP Pipeline，通过逻辑化的方式解析语法和结构...这是一个简单的 Python 转换函数，可以添加到代码中： ⚠️ 下面提供的完整代码包含此功能将数据拆分为训练集和测试集为了准确衡量模型的表现，需要测试训练数据外的数据。...这里还有一个提示：为了使模型更撸棒，在使用自己的数据时，还需要随机化每个数据文件中的行顺序，以便训练数据的顺序不会影响训练过程。当然在本文中不需要，因为 Yelp 的数据已经非常随机了。...你还可以要求 fastText 检查星级评分中预测的准确率。比如模型预测一条评论可能是“5”也可能是“4”，而真实用户说的是“4”，那么就可以得出模型预测为“4”的频率。...安装完成后，这里是加载模型并使用它自动评分用户评论的整个代码：这是它运行时的样子：这些都是非常好的预测结果！让我们看看它会给我的 Yelp 评论预测：这就是机器学习最酷的地方！

1.9K3 0

特征工程(一)：

，转换为可以在 R，Python 或 Scala 中最喜欢的建模库中尝试的格式，将预测转储回 csv 文件，由评估程序分析，迭代多次，最后由生产团队用 C++ 或 Java 重写，运行所有数据，并将最终预测输出到另一个数据库...示例2-4 演示如何计算 Yelp 商户评论数的十等分, 图2-5 覆盖直方图上的十等分。这就更清楚地说明了对更小的计数的歪斜。例子 2-4。计算 Yelp 商户评论数的十分位数 ? ?...对数转换实战让我们看看在监督学习中对数转换如何执行。我们将使用上面的两个数据集。对于 Yelp 评论数据集, 我们将使用评论的数量来预测商户的平均评级。...将此与应用于YELP评论数据集的相同散点图进行比较。图2-10看起来与图2-9非常不同。在1到5，步长0.5的区间，平均星级是离散的。高评论计数（大致＞2500评论）与较高的平均星级评级相关。...没有一种清晰的方法可以根据输入来预测平均星级。从本质上讲，该图表明，评论数及其对数都是平均星级的不良线性预测因子。例2-11。可视化 Yelp 商户评论预测中输入与输出的相关性。 ?

1.2K3 0

一次让人脸红心跳的python数据分析

评论内容，星级核心：从上一步的csv文件中，读取Rank , item_name , reviews , reviews_link字段构建函数读取每个商品的所有评论利用for循环，获取所有商品的所有评论...存储到数据库和csv文件中 4、爬取size和color数据和第三步基本一样，代码基本一样，主要在于要确认每页评论的size&color个数。...单一方面毕竟还是很难衡量哪家商家更优秀，不如综合多个指标来分析吧~ 4、不同商家的加权分排名将星级、平均评论数、商品均价、商品数量进行标准化处理后，因为不好拍定加权的比例，便将4项的归一化结果x10...，群里会不定期更新最新的教程和学习方法，大家都是学习python的，或是转行，或是大学生，还有工作中想提升自己能力的，如果你是正在学习python的小伙伴可以加入学习。...最后祝所有程序员都能够走上人生巅峰，让代码将梦想照进现实最后在分析了Top100的商品信息和2.4w条评论后，作为一篇正经的python数据分析研究，我们来总结一下亚马逊情趣内衣产品和销售策略： 1

9490 0

通过嵌入隐层表征来理解神经网络

我将星级评分转换为二进制 -- 使事情变得更容易一些。所以 -- 1,2 和 3 星是负面的，4 星，5 星是积极的评论。...那么让我们看看我们可以如何理解它的使用。下面这个例子是有关词嵌入在 yelp 任务上如何变化的动画。它们使用 50 维度的 Glove 词向量进行初始化。 ?...例如，我很好奇有毒词的嵌入如何在上述恶意评论分类任务中发生变化。我在上面的恶意评论分类任务中创建了一个模型，从头开始学习嵌入（因此没有使用预先训练的嵌入进行权重初始化）。...因此，我只是将所有有恶意词汇染成红色并在动画中跟踪它们。这是嵌入式如何变化的动画：（PG-13 预警！！） ? 在有害评论数据中从头开始学习的词嵌入的变化这看起来不是很迷人吗？...该模型将咒骂词（代表恶意）分成一个漂亮的小簇。我希望这篇文章能够阐明以不同方式可视化数据点的隐藏表示以及它们如何揭示有关模型的有用见解。我期待将这些分析应用于越来越多的机器学习问题。

7282 0

如何用 Python 和深度迁移学习做文本分类？

本文为你展示，如何用10几行 Python 语句，把 Yelp 评论数据情感分类效果做到一流水平。疑问在《如何用 Python 和 fast.ai 做图像深度迁移学习？》...（Spacy与Word Embedding）》和《如何用 Python 和 gensim 调用中文词嵌入预训练模型？》）。 ?...在《如何用 Python 和 fast.ai 做图像深度迁移学习？》一文中，我们提到了，建议使用 Google Compute Platform 。...载入在 Jupyter Lab 中，我们可以使用 !+命令名称的方式，来执行终端命令（bash command）。我们下面就使用 wget 来从 AWS 下载 Yelp 评论数据集。 !...这个过程，请参考我在《如何用Python和机器学习训练中文文本情感分类模型？》

1.1K2 0

于是我用Python抓取了“相关数据”，发现了这些秘密......

于是，我准备用Python爬取豆瓣上的短评数据以及一些评论时间信息、评价星级信息。...df = pd.read_csv("final_all_comment.csv",index_col=0) df.head(10) 结果如下：其实数据还是挺漂亮的，但是我们还是需要做如下处理： 1）剔除重复值...我们认为：如果'评论时间'和'评论内容'完全一致的话，就认为他是同一条评论，需要将其剔除。...df["评论天数"] = df["评论时间"].str[8:-9].astype(int) df["小时"] = df["评论时间"].str[11:-6].astype(int) 3）评论星级处理观察原页面的评论星级...于是很多人将这部剧和2009年播出的《大秦帝国》作比较，以此来讽刺该剧。好了，今天的分享就到此为止。如果你有更多的时间，更多的分析思路，可以下去拓展哦！

3591 0

分析全球最大美食点评网站万家餐厅数据寻找餐厅经营成功的秘密

这家美食评论起家的网站是被全球公认的“美食攻略提供者”，它是利用大众经验和点评的最好例子之一，而其中的大量评价数据和排名机制也因此“操控”了很多家大小餐厅的生死。...Mosaic图使用颜色作为比较各价格范围和星级评分组合下，观测值与期待值的差别（译注：如图所示，横向为星级评分，分为9组，纵向为价格范围，分为4组。...在本案例中，我们可以观察到，价格和星级评分不是完全独立的，该结果可通过χ2检测得到证实。 ◆ ◆ ◆ 预测模型为从数据中确定出关键的影响特征，我们决定使用基于树的模型。...◆ ◆ ◆ LDA(主题模型)和数据可视化为了理解点评数据中的关键主题，我们使用LDA主题建模算法来提取每个类别和每个评级中的20项关键主题。...我们使用R语言扩展包 “LDAvis” 来进行交互式主题模型的可视化，并且回答了这些问题：每项关键主题都是什么意思？这些关键主题普遍性怎么样？这些关键主题是如何相互关联？

1.6K7 0

爬虫入门经典(二十四) | 爬取当当网图书信息并进行数据清洗

3.1 爬取内容描述和数据来源爬取内容描述：从当当网搜索页面，按照关键词搜索，使用Python编写爬虫，自动爬取搜索结果中图书的书名、出版社、价格、作者和图书简介等信息。...可以选择将这些图书信息保存为 CSV 文件，Excel 文件，也可以保存在数据库中。这里我们使用 DataFrame 提供的 to_csv 方法保存为CSV文件。 books_df.to_csv("....3）对于评论数这一列直接提取数值。 4）出版信息分为三列分别是作者、出版日期、出版社。 5）将原始数据中的书名拆分为为书名和简介两列。...4.2 提取价格数值首先我们处理价格、星级、评论数，这几个比较简单，对于价格最主要的目的是提取数据中的数值，但真实数据除了数值还包含其他的内容，我们可以使用正则匹配将数值提取出来。...提取出书名称和简介信息后，我们可以将数据中的原始书名列删除。 del data["书名"] data.head() ? 最后，将清洗完成的数据保存到 CSV 文件中。 data.to_csv(".

4.2K2 0

当当网图书数据清洗

在之前的案例使用网络爬虫自动抓取图书信息中，我们通过简单的爬虫抓取了当当网的机器学习相关的图书数据，并保存为 ./input/books_total.csv 文件。...3）对于评论数这一列直接提取数值。 4）出版信息分为三列分别是作者、出版日期、出版社。 5）将原始数据中的书名拆分为为书名和简介两列。...2.提取价格数值首先我们处理价格、星级、评论数，这几个比较简单，对于价格最主要的目的是提取数据中的数值，但真实数据除了数值还包含其他的内容，我们可以使用正则匹配将数值提取出来。...，我们可以将数据中的原始书名列删除。...CSV 文件中。

1.1K4 0

我用 Python 得出了一些结论！

获取数据首先，我们通过 Python 爬取《龙岭迷窟》500 条豆瓣短评数据，爬取的具体细节这里就不说了，如果不了解的话，可以看一下：Python 分析电影《南方车站的聚会》。...我们爬取的数据项包括：评论用户、评论时间、评论星级、评论内容，爬取的数据我们存储到 csv 文件中，实现代码如下： def spider(): url = 'https://accounts.douban.com...('data.csv') # 将评论单独再保存下来 comment_df['comments'].to_csv('comment.csv', index=False) 分析数据数据我们已经取到了...人物角色接着，我们来看所获取的评论数据中，剧中主要角色被提及的次数，实现代码如下： csv_data = pd.read_csv('data.csv') roles = {'胡八一':0, '王胖子'...评论星级再接着，我们看一下该剧每天用户的评论星级，星级最高为 5 星，一天中如果有多条评论星级数据，我们则取其平均值，代码实现如下： csv_data = pd.read_csv('data.csv'

4134 0

Python 分析电影《南方车站的聚会》

但我们发现一个问题，该 URL 参数中并没有行号等信息（实现翻页需要），这个问题我们只需点击后页按钮即可看到，结果如图所示： ?...接着我们看一下如何实现登陆，首先打开登录页：https://accounts.douban.com/passport/login，如下图所示： ?...csv.writer(csvfile) # 表头 writer.writerow(['时间','星级','评论内容']) def spider(): url = 'https://accounts.douban.com...因为有人说了影片口碑两级分化，接下来我们看一下打 1 星和 5 星的词云效果如何，主要实现如下所示： for i,line in enumerate(csv_list): if i !...上面我们只使用了评论内容信息，还有时间和星级信息没有使用，最后我们可以用这两项数据分析下随着时间的变化影片星级的波动情况，以月为单位统计影片从首映（2019 年 5 月）到当前时间（2019 年 12月

6403 0

使用网络爬虫自动抓取图书信息

1、任务描述和数据来源从当当网搜索页面，按照关键词搜索，使用Python编写爬虫，自动爬取搜索结果中图书的书名、出版社、价格、作者和图书简介等信息。...在下面的代码中，我们首先导入requests库，定义当当网的搜索页面的网址，设置搜索关键词为"机器学习"。然后使用 requests.get 方法获取网页内容。最后将网页的前1000个字符打印显示。...可以选择将这些图书信息保存为 CSV 文件，Excel 文件，也可以保存在数据库中。这里我们使用 DataFrame 提供的 to_csv 方法保存为CSV文件。 books_df.to_csv("..../input/books_total.csv",encoding="utf8",sep="\t",index=None) 4、总结和展望借助Python的 requests, lxml, Pandas...能够从当当网按照关键词搜索图书，将图书信息页面下载，并从页面中解析出结构化的图书信息。最后将解析出的图书信息保存为了CSV格式的文件。

2.5K1 0

教程 | 通过可视化隐藏表示，更好地理解神经网络

它能产生静态可视化图和动图。对于动态图，我们需要上传两个我们想要进行对比的 csv 文件，这些文件包含隐藏表示。该工具能使文件中的点动起来。...我将星级评分转换为二进制——这样更容易操作。所以 -1、2 和 3 星是消极的，4 星、5 星是积极的评论。同样，我用一个简单的前馈神经网络架构处理嵌入，压缩嵌入，然后输入全连接层并输出概率。...这是个中立的评论，可能更倾向于积极的一面。因此，对于模型而言，将这一点放在积极的点簇中还算差强人意。...理解神经网络训练过程中数据表示的变化我们将使用动画来理解这一点。我理解动画可视化的方式通常是选择一个点的子集，并观察其邻域在训练过程中如何发生变化。...例如，我很好奇恶意评论分类任务中恶意词的嵌入如何发生变化。我在上述恶意评论分类任务中创建了一个模型，从头开始学习嵌入（因此没有使用预训练嵌入进行权重初始化）。

9321 0

用于图神经网络研究的几个实用的数据集

一些研究已经发展出将ML/DL应用于社交网络、社区分类、脑网络分析等网络任务的方法。在这些任务中，数据由图G(V,E)表示，其中V是节点的集合，E是边的集合:节点表示数据点，边表示节点之间的连接。...亚马逊评论数据集与 Yelp 数据集类似，亚马逊评论数据集收集有关产品（包括照片、星级评分、元数据、产品描述）、用户（元数据、好友连接、名称、位置……）以及用户对产品的评论的信息。...该数据集非常适合链接预测和节点分类任务：与 yelp 类似，链接预测将在电子商务中具有实用的推荐应用；节点分类任务将应用于对销售服务的产品进行评级。...数据由 FakeNewsTracker 检索，从 Twitter 和许多其他社交媒体页面中提取新闻。该数据集非常适合图 ML/DL 中的许多任务：节点分类、链接预测和图分类。...它有效地操作大型图，计算结构属性，生成规则和随机图，并支持节点和边上的属性。这个项目有很多小/中/大的图形数据集。然而，它们中的大多数对于实际应用程序是不实用的。

1.6K2 0

Salesforce连接器在Yelp中的应用案例

Yelp是美国著名商户点评网站，创立于2004年，囊括各地餐馆、购物中心、酒店、旅游等领域的商户，用户可以在Yelp网站中给商户打分，提交评论，交流购物体验等。...在Yelp 中搜索一个餐厅或者旅馆，能看到它的简要介绍以及网友的点论，点评者还会给出多少星级的评价，通常点评者都是亲身体验过该商户服务的消费者，评论大多形象细致。...Yelp的销售团队主要做什么呢？他们卖广告包！他们卖给谁呢？Yelp上的商家！那我们如何从Yelp的数据库中获取这些商家信息并提供给Salesforce呢？读过下文你就明白了。...为了让我们可以很容易地不必做更多的工作就在API之间切换，我们写了个通用的客户端，用它包装了现有的SOAP、REST和批量API等Python客户端。...这两种问题的根本原因都在于我们在Salesforce的程序中使用了大量的触发器和回滚操作。

1.1K2 0

用于图神经网络研究的几个实用的数据集

一些研究已经发展出将ML/DL应用于社交网络、社区分类、脑网络分析等网络任务的方法。在这些任务中，数据由图G(V,E)表示，其中V是节点的集合，E是边的集合:节点表示数据点，边表示节点之间的连接。...这里下载： https://www.yelp.com/dataset 亚马逊评论数据集与 Yelp 数据集类似，亚马逊评论数据集收集有关产品（包括照片、星级评分、元数据、产品描述）、用户（元数据...该数据集非常适合链接预测和节点分类任务：与 yelp 类似，链接预测将在电子商务中具有实用的推荐应用；节点分类任务将应用于对销售服务的产品进行评级。...数据由 FakeNewsTracker 检索，从 Twitter 和许多其他社交媒体页面中提取新闻。该数据集非常适合图 ML/DL 中的许多任务：节点分类、链接预测和图分类。...它有效地操作大型图，计算结构属性，生成规则和随机图，并支持节点和边上的属性。这个项目有很多小/中/大的图形数据集。然而，它们中的大多数对于实际应用程序是不实用的。

8324 0

适用于NLP自然语言处理的Python：使用Facebook FastText库

在第一部分中，我们将看到FastText库如何创建向量表示形式，该向量表示形式可用于查找单词之间的语义相似性。在第二部分中，我们将看到FastText库在文本分类中的应用。...数据集数据集包含多个文件，但我们仅对该yelp_review.csv文件感兴趣。该文件包含有关不同业务（包括餐馆，酒吧，牙医，医生，美容院等）的520万条评论。.../Colab Datasets/yelp_review_short.csv") 在上面的脚本中，我们yelp_review_short.csv使用pd.read_csv函数加载了包含50,000条评论的文件...以下脚本从数据集中过滤出reviews_score和text列，然后__label__在该reviews_score列中的所有值之前添加前缀。类似地，\n和\t被text列中的空格替换。...80％的数据（即50,000条记录中的前40,000条记录）将用于训练数据，而20％的数据（最后10,000条记录）将用于评估算法的性能。以下脚本将数据分为训练集和测试集： !

9711 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭