首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Python将web抓取数据写入csv

Python将web抓取数据写入csv
EN

Stack Overflow用户
提问于 2018-03-17 23:19:19
回答 2查看 297关注 0票数 0

我对Python还是非常陌生的,我正在为我的学校做一项作业。

我需要编写代码从网站中提取所有的html,然后将其保存到一个csv文件中。

我相信我需要将链接转换成一个列表,然后写出列表,但我不知道如何做到这一点。

到目前为止,这就是我所拥有的:

代码语言:javascript
复制
import bs4
import requests
from bs4 import BeautifulSoup, SoupStrainer
import csv

search_link = "https://www.census.gov/programs-surveys/popest.html"
r = requests.get(search_link)
raw_html = r.text
soup = BeautifulSoup(raw_html, 'html.parser')
all_links = soup.find_all("a")

rem_dup = set()
for link in all_links:
    hrefs = str(link.get("href"))
    if hrefs.startswith('#http'):
        rem_dup.add(hrefs[1:])
    elif hrefs.endswith('.gov'):
        rem_dup.add(hrefs + '/')
    elif hrefs.startswith('/'):
        rem_dup.add('https://www.census.gov' + hrefs)
    else:
        rem_dup.add(hrefs)

filename = "Page_Links.csv"
f = open(filename, "w+")
f.write("LINKS\n")
f.write(all_links)
f.close()
EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2018-03-18 00:53:03

write()函数需要一个字符缓冲区对象作为参数。all_links本质上持有所有超链接的ResultSet。所以,而不是-

代码语言:javascript
复制
f.write(all_links)

您应该在set()中写入由rem_dup变量定义的值(因为这些值包含以字符串格式表示的实际超链接)-

代码语言:javascript
复制
for hyperlink in rem_dup:
    f.write(hyperlink + "\n")
票数 0
EN

Stack Overflow用户

发布于 2018-03-17 23:56:48

all_links是美丽汤的集合或结果。rem_dup是存储所有hrefs的地方,所以我想这就是您想要写到文件中的内容,所以只需要f.write(rem_dup)

进一步的解释:rem_dup实际上是一个集合。如果您希望它是一个列表,那么请使用rem_dup = list()而不是set()append通常与列表一起使用,因此您使用的是正确的语法/。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/49342892

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档