我对Python还是非常陌生的,我正在为我的学校做一项作业。
我需要编写代码从网站中提取所有的html,然后将其保存到一个csv文件中。
我相信我需要将链接转换成一个列表,然后写出列表,但我不知道如何做到这一点。
到目前为止,这就是我所拥有的:
import bs4
import requests
from bs4 import BeautifulSoup, SoupStrainer
import csv
search_link = "https://www.census.gov/programs-surveys/popest.html"
r = requests.get(search_link)
raw_html = r.text
soup = BeautifulSoup(raw_html, 'html.parser')
all_links = soup.find_all("a")
rem_dup = set()
for link in all_links:
hrefs = str(link.get("href"))
if hrefs.startswith('#http'):
rem_dup.add(hrefs[1:])
elif hrefs.endswith('.gov'):
rem_dup.add(hrefs + '/')
elif hrefs.startswith('/'):
rem_dup.add('https://www.census.gov' + hrefs)
else:
rem_dup.add(hrefs)
filename = "Page_Links.csv"
f = open(filename, "w+")
f.write("LINKS\n")
f.write(all_links)
f.close()发布于 2018-03-18 00:53:03
write()函数需要一个字符缓冲区对象作为参数。all_links本质上持有所有超链接的ResultSet。所以,而不是-
f.write(all_links)您应该在set()中写入由rem_dup变量定义的值(因为这些值包含以字符串格式表示的实际超链接)-
for hyperlink in rem_dup:
f.write(hyperlink + "\n")发布于 2018-03-17 23:56:48
all_links是美丽汤的集合或结果。rem_dup是存储所有hrefs的地方,所以我想这就是您想要写到文件中的内容,所以只需要f.write(rem_dup)。
进一步的解释:rem_dup实际上是一个集合。如果您希望它是一个列表,那么请使用rem_dup = list()而不是set()。append通常与列表一起使用,因此您使用的是正确的语法/。
https://stackoverflow.com/questions/49342892
复制相似问题