使用Python漂亮汤(BeautifulSoup)将yelp评论和星级收集到CSV中可以通过以下步骤实现:
from bs4 import BeautifulSoup
import requests
import csv
url = "https://www.yelp.com"
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36"
}
response = requests.get(url, headers=headers)
html_content = response.text
soup = BeautifulSoup(html_content, "html.parser")
reviews = soup.find_all("div", class_="review")
data = []
for review in reviews:
comment = review.find("span", class_="lemon--span__373c0__3997G raw__373c0__3rcx7").text.strip()
rating = review.find("div", class_="i-stars__373c0__1T6rz").get("aria-label")
data.append([comment, rating])
with open("yelp_reviews.csv", "w", newline="", encoding="utf-8") as file:
writer = csv.writer(file)
writer.writerow(["Comment", "Rating"])
writer.writerows(data)
以上代码将评论和星级分别存储在Comment
和Rating
两列中,并将数据写入名为yelp_reviews.csv
的CSV文件中。
注意:以上代码中的示例使用了第三方库BeautifulSoup进行HTML解析,可以通过pip install beautifulsoup4
安装。此外,代码中的请求头信息User-Agent
是为了模拟浏览器请求,具体可根据需要进行修改。
推荐的腾讯云相关产品:腾讯云服务器(CVM)和腾讯云对象存储(COS)。
请注意,以上仅为推荐产品,并非对云计算品牌商的广告,也可根据实际需求选择其他云计算品牌商的相应产品。
领取专属 10元无门槛券
手把手带您无忧上云