使用Python从前10个页面提取数据(标题、电子邮件链接、位置)可以通过以下步骤实现:
import requests
from bs4 import BeautifulSoup
def extract_data(url):
# 发送HTTP请求并获取页面内容
response = requests.get(url)
content = response.text
# 使用BeautifulSoup解析HTML页面
soup = BeautifulSoup(content, 'html.parser')
# 提取标题
title = soup.title.text
# 提取电子邮件链接
email_links = soup.find_all('a', href=lambda href: href and 'mailto:' in href)
emails = [link['href'][7:] for link in email_links]
# 提取位置
location = soup.find('span', class_='location').text
return title, emails, location
def get_data_from_pages(urls):
data = {}
for url in urls[:10]:
title, emails, location = extract_data(url)
data[url] = {'title': title, 'emails': emails, 'location': location}
return data
urls = [
'https://example.com/page1',
'https://example.com/page2',
'https://example.com/page3',
# 添加更多页面的URL
]
data = get_data_from_pages(urls)
for url, info in data.items():
print('URL:', url)
print('Title:', info['title'])
print('Emails:', info['emails'])
print('Location:', info['location'])
print('---')
这样,你就可以使用Python从前10个页面提取数据(标题、电子邮件链接、位置)。请注意,这只是一个简单的示例,实际应用中可能需要处理更多的异常情况和数据清洗工作。对于更复杂的页面结构,可能需要使用其他库或技术来提取数据。
领取专属 10元无门槛券
手把手带您无忧上云