如何使用Puppeteer和Node.js爬取大学招生数据：入门指南

原创

jackcode

发布于 2024-11-05 11:43:51

5340

1. 引言

在数据驱动的时代，招生数据为学生和教育机构提供了许多宝贵的信息。通过分析和挖掘各大学的招生数据（如录取率、标准化考试分数、班级排名和高中平均绩点），不仅能帮助学生做出合理的选择，还能为教育政策的制定提供依据。本文将介绍如何使用Puppeteer和Node.js爬取大学招生数据，并通过代理IP提升爬取的稳定性和效率。

2. 为什么选择Puppeteer？

Puppeteer是一个Node.js库，允许通过DevTools协议控制无头浏览器。它的优势包括：

模拟真实浏览器访问，减少被反爬虫机制检测的风险
支持JavaScript渲染，使得我们能够爬取动态加载的数据
提供方便的API来操作页面元素，如点击、输入、等待页面加载等

Puppeteer尤其适用于需要与页面交互的复杂爬取任务，比如获取网站的动态内容（招生数据可能在某些页面的动态表格中展示）。

3. 使用代理IP提升爬虫稳定性

为了避免IP被封禁，我们将使用代理IP。本文中将使用爬虫代理的代理IP服务来提升爬虫的稳定性。使用代理可以：

规避IP限制，提高数据抓取的成功率
提高匿名性，保护数据采集的隐私

在以下代码中，我们将参考爬虫代理的域名、端口、用户名和密码来配置Puppeteer。

4. 准备工作

4.1 安装Puppeteer

确保你已经安装了Node.js和npm。然后，运行以下命令安装Puppeteer：

npm install puppeteer

4.2 代理配置

代理的配置在Puppeteer中非常简单。我们需要通过传递参数来配置代理IP。

5. 实现爬虫代码

以下是一个完整的爬虫代码示例。目标是爬取某所大学的招生页面，并获取录取率、标准化考试分数、班级排名和高中平均绩点等数据。

const puppeteer = require('puppeteer');

// 配置16yun爬虫代理加强版 代理参数 
const PROXY_HOST = 'proxy.16yun.cn'; // 代理服务器域名
const PROXY_PORT = '8080';            // 代理端口
const PROXY_USERNAME = 'your_username'; // 代理用户名
const PROXY_PASSWORD = 'your_password'; // 代理密码

(async () => {
    // 启动Puppeteer，并配置代理
    const browser = await puppeteer.launch({
        headless: true, // 使用无头模式
        args: [
            `--proxy-server=${PROXY_HOST}:${PROXY_PORT}` // 设置代理服务器
        ]
    });

    // 创建一个页面实例
    const page = await browser.newPage();

    // 设置基本认证（代理的用户名和密码）
    await page.authenticate({
        username: PROXY_USERNAME,
        password: PROXY_PASSWORD
    });

    // 目标网址，例如浙江大学招生页面
    const url = 'https://www.zju.edu.cn/admission';

    // 导航到页面
    await page.goto(url, { waitUntil: 'networkidle2' });

    // 等待目标元素加载，例如招生数据所在的表格
    await page.waitForSelector('.admission-data-table'); // 假设这是数据表的类名

    // 提取数据
    const admissionData = await page.evaluate(() => {
        const data = [];
        // 遍历表格行，假设数据存储在表格的特定结构中
        document.querySelectorAll('.admission-data-table tbody tr').forEach(row => {
            const cells = row.querySelectorAll('td');
            data.push({
                admissionRate: cells[0].innerText, // 录取率
                testScore: cells[1].innerText,     // 标准化考试分数
                classRank: cells[2].innerText,     // 班级排名
                gpa: cells[3].innerText            // 高中平均绩点
            });
        });
        return data;
    });

    console.log('招生数据：', admissionData);

    // 关闭浏览器
    await browser.close();
})();