从零开始：用Python爬取懂车帝网站的汽车品牌和价格数据

原创

jackcode

发布于 2025-02-12 13:04:02

15800

代码可运行

文章被收录于专栏：爬虫资料爬虫资料

运行总次数：0

代码可运行

场景：在一个现代化的办公室里，工程师小李和产品经理小张正在讨论如何获取懂车帝网站的汽车品牌和价格数据。

小张：小李，我们需要获取懂车帝网站上各个汽车品牌的价格和评价数据，以便为用户提供更准确的购车建议。

小李：明白了。我们可以使用Python编写爬虫来抓取这些信息。不过，考虑到反爬机制，我们需要使用代理IP来避免被封禁。

小张：对，代理IP很重要。你打算怎么实现？

小李：我计划使用亿牛云爬虫代理的域名、端口、用户名和密码来设置代理。此外，我还会设置cookie和User-Agent，以模拟真实用户的访问行为。为了提高采集效率，我会采用多线程技术。

小张：听起来很完整。能给我展示一下具体的代码实现吗？

小李：当然，以下是实现代码：

import requests
from bs4 import BeautifulSoup
import threading
import random
import time

# 亿牛云爬虫代理（www.16yun.cn）的域名、端口、用户名和密码
PROXY_HOST = 'proxy.16yun.cn'  # 代理服务器域名
PROXY_PORT = '12345'  # 代理服务器端口
PROXY_USERNAME = '16yun'  # 代理用户名
PROXY_PASSWORD = '16IP'  # 代理密码

# 设置代理
def get_proxy():
    proxy_url = f"http://{PROXY_USERNAME}:{PROXY_PASSWORD}@{PROXY_HOST}:{PROXY_PORT}"
    proxies = {
        "http": proxy_url,
        "https": proxy_url,
    }
    return proxies

# 设置请求头，包括User-Agent和Cookie
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    "Cookie": "your_cookie_data"  # 这里替换为实际的cookie
}

# 目标URL
url = 'https://www.dongchedi.com'

# 解析网页内容
def parse_page(content):
    soup = BeautifulSoup(content, 'html.parser')
    # 假设汽车品牌和价格信息在特定的HTML元素中
    brands = soup.find_all('div', class_='brand-class')  # 替换为实际的class
    prices = soup.find_all('span', class_='price-class')  # 替换为实际的class
    for brand, price in zip(brands, prices):
        print(f"品牌：{brand.text.strip()}，价格：{price.text.strip()}")

# 获取网页内容
def fetch_page(url):
    try:
        response = requests.get(url, headers=headers, proxies=get_proxy(), timeout=10)
        if response.status_code == 200:
            parse_page(response.text)
        else:
            print(f"请求失败，状态码：{response.status_code}")
    except requests.exceptions.RequestException as e:
        print(f"请求发生错误：{e}")

# 多线程爬取
def multi_thread_scraping(urls):
    threads = []
    for url in urls:
        thread = threading.Thread(target=fetch_page, args=(url,))
        threads.append(thread)
        thread.start()
        time.sleep(random.uniform(0.5, 1.5))  # 随机延时，模拟真实用户行为
    for thread in threads:
        thread.join()

# 示例URL列表
urls = [
    'https://www.dongchedi.com/brand1',
    'https://www.dongchedi.com/brand2',
    'https://www.dongchedi.com/brand3',
    # 添加更多品牌的URL
]

# 启动多线程爬虫
multi_thread_scraping(urls)

小张：这段代码看起来很完整。你能解释一下每个部分的作用吗？

小李：当然。

代理设置：get_proxy函数构建了代理服务器的URL，并返回一个包含代理信息的字典。
请求头设置：headers字典包含了请求头信息，包括User-Agent和Cookie，用于模拟真实用户的浏览器请求。
网页解析：parse_page函数使用BeautifulSoup解析网页内容，提取汽车品牌和价格信息。需要根据实际网页结构调整find_all方法中的参数。
网页获取：fetch_page函数发送GET请求，获取网页内容，并调用parse_page进行解析。
多线程爬取：multi_thread_scraping函数创建多个线程，每个线程负责爬取一个URL，以提高采集效率。每次启动新线程前，使用time.sleep添加随机延时，模拟真实用户行为，避免被反爬机制识别。