你知道吗？html_table可以提取的不止是表格

原创

jackcode

发布于 2025-01-07 11:19:48

8300

代码可运行

文章被收录于专栏：爬虫资料爬虫资料

运行总次数：0

代码可运行

概述

当我们提到 html_table，许多人可能联想到表格解析，毕竟它的名字直观地表明了处理 HTML 表格的功能。然而，html_table 的潜力远超表面。在现代爬虫技术中，它已成为一种强大的工具，可以提取、整合、分析、存储多种类型的关键数据，并为数据传输提供便利。

本文将从以下四个方面详细探讨 html_table 的强大功能及应用：

关键数据提取
零散信息整合
数据对比分析
数据存储与传输

细节

1. 关键数据提取

html_table 不仅仅能从静态 HTML 表格中提取内容，还可从复杂的网页中提取隐藏的关键数据。例如：

财经网站：提取股票的实时价格、涨跌幅等信息。
学术研究网站：抓取实验结果、研究统计数据，为后续分析提供数据基础。

2. 零散信息整合

对于零散分布在页面各处的信息，html_table 可作为信息整合的基础工具：

电子商务网站：抓取产品标题、价格、用户评价等分散数据并整合为一份全面的产品报告。
新闻网站：提取标题、作者、时间等要素，形成清晰的数据视图。

3. 数据对比分析

通过提取不同网页的数据，html_table 可以完成对比分析：

手机性能参数对比：抓取各品牌、型号的性能信息，如处理器、内存、电池容量等。
竞争对手分析：比较市场调研中的竞争对手产品，发现优势和差距。

4. 数据存储与传输

html_table 格式数据可以直接转换为 CSV、JSON 等格式，便于存储和传输：

在线教育平台：存储学生成绩、出勤记录等。
跨平台传输：在不同系统或平台间传递时，保证数据的结构化和完整性。

技术实现

下面是基于 Python 的一个完整代码示例，展示如何使用代理 IP 技术、多线程以及设置 User-Agent 和 Cookie 提高爬虫效率。

import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor
import pandas as pd

# 配置爬虫代理（以亿牛云代理为例 ）
proxy_host = "http-dyn.16yun.cn"
proxy_port = "9020"
proxy_user = "your_username"
proxy_pass = "your_password"

proxy_meta = f"http://{proxy_user}:{proxy_pass}@{proxy_host}:{proxy_port}"
proxies = {
    "http": proxy_meta,
    "https": proxy_meta
}

# 自定义请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/117.0.0.0 Safari/537.36",
    "Cookie": "your_cookie_here"
}

# 目标网址（东方财富股吧）
base_url = "https://guba.eastmoney.com"
stock_list_url = "https://guba.eastmoney.com/remenba.aspx"  # 热门股票列表

# 数据存储
stocks_data = []
errors = []

# 获取股票列表
def fetch_stock_list():
    try:
        response = requests.get(stock_list_url, headers=headers, proxies=proxies, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, "html.parser")

        # 提取股票链接
        links = soup.select("div.quotecontent a")
        stock_links = [base_url + link["href"] for link in links if link.has_attr("href")]
        return stock_links
    except Exception as e:
        errors.append(f"Error fetching stock list: {e}")
        return []

# 爬取单个股票页面的信息
def fetch_stock_data(stock_url):
    try:
        response = requests.get(stock_url, headers=headers, proxies=proxies, timeout=10)
        response.raise_for_status()
        soup = BeautifulSoup(response.text, "html.parser")

        # 提取股票信息
        stock_name = soup.select_one(".stock-name").text.strip() if soup.select_one(".stock-name") else "N/A"
        stock_price = soup.select_one(".stock-price").text.strip() if soup.select_one(".stock-price") else "N/A"
        stock_change = soup.select_one(".stock-change").text.strip() if soup.select_one(".stock-change") else "N/A"

        stocks_data.append({
            "name": stock_name,
            "price": stock_price,
            "change": stock_change,
            "url": stock_url
        })
    except Exception as e:
        errors.append(f"Error fetching {stock_url}: {e}")

# 多线程爬取股票信息
def main():
    stock_links = fetch_stock_list()
    if not stock_links:
        print("No stock links found.")
        return

    with ThreadPoolExecutor(max_workers=5) as executor:
        executor.map(fetch_stock_data, stock_links)

    # 保存数据到 CSV 文件
    df = pd.DataFrame(stocks_data)
    df.to_csv("stocks_data.csv", index=False, encoding="utf-8-sig")
    print("Data saved to stocks_data.csv")

    # 输出错误日志
    if errors:
        with open("errors.log", "w", encoding="utf-8") as f:
            f.write("\n".join(errors))
        print("Errors logged to errors.log")

if __name__ == "__main__":
    main()