前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >requests库编写的爬虫程序没有那么难!

requests库编写的爬虫程序没有那么难!

原创
作者头像
华科云商小徐
发布2023-11-06 10:36:39
2000
发布2023-11-06 10:36:39
举报
文章被收录于专栏:小徐学爬虫小徐学爬虫

下文是用requests库编写的爬虫程序,用于爬取toutiao上的图片。程序使用了爬虫ip服务器,爬虫ip服务器的地址为duoip,端口号为8000。

代码语言:javascript
复制
import requests
from bs4 import BeautifulSoup

# 设置爬虫ip服务器
proxy_host = 'duoip'
proxy_port = 8000
proxy = {'http': 'http://' + proxy_host + ':' + str(proxy_port),
         'https': 'http://' + proxy_host + ':' + str(proxy_port)}

# 发送GET请求
url = 'toutiao'
response = requests.get(url, proxies=proxy)

# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')

# 找到所有img标签
images = soup.find_all('img')

# 打印图片的src属性
for image in images:
    print(image.get('src'))

这个程序首先设置了爬虫ip服务器,然后使用requests库发送了一个GET请求到toutiao。请求使用了设置的爬虫ip

服务器。然后,使用BeautifulSoup库解析了返回的HTML内容。最后,程序找到了所有img标签,并打印出了它们的src属性,这些属性就是图片的URL。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档