爬取翻页URL不变的网站,可以使用以下步骤:
以下是一个示例代码,以爬取翻页URL不变的新闻列表为例:
import requests
from bs4 import BeautifulSoup
def get_news_list(url):
# 发送初始请求
response = requests.get(url)
html = response.text
# 解析HTML内容
soup = BeautifulSoup(html, 'html.parser')
# 提取翻页URL
next_page_url = soup.select_one('a.next-page').get('href')
# 翻页操作
while next_page_url:
# 发送请求获取翻页后的HTML内容
response = requests.get(next_page_url)
html = response.text
# 解析HTML内容
soup = BeautifulSoup(html, 'html.parser')
# 提取数据
news_titles = soup.select('.news-list .title')
for title in news_titles:
print(title.text)
# 提取下一页URL
next_page_url = soup.select_one('a.next-page').get('href')
# 测试代码
url = 'https://example.com/news'
get_news_list(url)
以上代码中的url
为待爬取的网站URL,news_titles
为提取到的新闻标题,你可以根据实际情况进行修改和扩展。
推荐的腾讯云相关产品:腾讯云服务器(https://cloud.tencent.com/product/cvm)和腾讯云对象存储(https://cloud.tencent.com/product/cos)。
领取专属 10元无门槛券
手把手带您无忧上云