应用介绍:
获取python官方网站https://www.python.org/events/python-events/的会议信息,包括会议名,时间,地点。
思路分析:
使用requests模块发送http请求;
使用BeautifulSoup模块解析HTML文档。
代码实现:
importrequests
frombs4importBeautifulSoup
req = requests.get('https://www.python.org/events/python-events/')
datas = []
spans = []
events = []
soup = BeautifulSoup(req.text,"html.parser")
# soup = BeautifulSoup(open('test.html', encoding='utf-8'), "html.parser")
targets = soup.find(class_="list-recent-events menu")
# print(targets.find('li'))
n =
foriintargets('li'):
datas.append(i.find('time').text)
spans.append(i.find(class_='event-location').text)
events.append(i.find(class_="event-title").text)
print("会议:%s\n地点:%s\n日期:%s\n"% (events[n],spans[n],datas[n]))
n +=1
OK,废话少说,总结一下我这两天的经验。做个简单的解析网页的脚本,你需要先了解HTML和HTTP的相关知识,当你发送一个http请求(推荐使用requests模块,比起内建的urllib中的request模块好用很多),获得目标网页的html文档后,你要做的就是解析html文档,根据不同的tag去搜索文档树,获得想要的信息,推荐使用BeautifulSoup模块,做个简单的爬虫是不是很简单,自己动手试试吧。
这里推荐给大家几个学习的网站:
http://docs.python-requests.org/zh_CN/latest/user/quickstart.html
(上面的链接并不是超链接,不用费劲点啦,个人公众平台加不了外部的超链接,大家可以百度前面的中文)
欢迎在评论区贴出你的代码,一起交流学习。
领取专属 10元无门槛券
私享最新 技术干货