随着互联网的发展,网页数据抓取(Web Scraping)已成为数据分析和市场调研的重要手段之一。Puppeteer作为一款强大的无头浏览器自动化工具,能够在Node.js环境中模拟用户行为,从而高效地抓取网页数据。然而,当面对复杂的网页结构和反爬虫机制时,基础的爬虫技术往往无法满足需求。本文将深入探讨如何在Node.js中利用Puppeteer的高级功能,实现复杂的Web Scraping任务,并通过代理IP、User-Agent、Cookies等技术提高爬虫的成功率。
Puppeteer是由Google开发的一款无头浏览器工具,它可以控制Chromium或Chrome浏览器进行各种自动化操作。使用Puppeteer,开发者可以模拟浏览器的行为,例如点击、输入、导航等,甚至可以生成页面的PDF或截图。
安装Puppeteer非常简单,只需在Node.js环境中执行以下命令:
npm install puppeteer
在进行Web Scraping时,使用代理IP可以有效避免被目标网站限制,尤其是在大量请求的情况下。此外,通过设置User-Agent和Cookies,爬虫可以伪装成真实用户的访问行为,从而进一步提高数据抓取的成功率。
以下是一个使用Puppeteer进行复杂Web Scraping的示例代码(BOSS直聘),代码中使用了爬虫代理加强版,并设置了User-Agent与Cookies信息。
const puppeteer = require('puppeteer');
// 配置代理IP的信息 爬虫代理加强版
const proxy = {
host: 'proxy.16yun.cn', // 代理IP端口服务器
port: 8000, // 代理IP端口
username: '你的代理用户名', // 代理IP用户名
password: '你的代理密码' // 代理IP密码
};
// 用户代理信息(User-Agent)
const userAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36';
// 预设的Cookies信息
const cookies = [
{
name: 'your_cookie_name', // 替换为实际的Cookie名称
value: 'your_cookie_value', // 替换为实际的Cookie值
domain: '.zhipin.com' // Boss直聘的域名
}
];
(async () => {
// 启动Puppeteer浏览器实例,并设置代理IP
const browser = await puppeteer.launch({
headless: true, // 无头模式
args: [
`--proxy-server=${proxy.host}:${proxy.port}` // 配置代理IP
]
});
// 创建一个新的浏览器页面
const page = await browser.newPage();
// 设置User-Agent
await page.setUserAgent(userAgent);
// 设置代理IP的认证
await page.authenticate({
username: proxy.username,
password: proxy.password
});
// 设置Cookies
await page.setCookie(...cookies);
// 导航到Boss直聘的应聘简历页面
await page.goto('https://www.zhipin.com/web/geek/job-recommend', { waitUntil: 'networkidle2' });
// 等待页面中的简历列表加载完成
await page.waitForSelector('.geek-item');
// 抓取简历信息
const resumes = await page.evaluate(() => {
const resumeElements = document.querySelectorAll('.geek-item');
const resumeData = [];
resumeElements.forEach((element) => {
const name = element.querySelector('.name').innerText; // 应聘者姓名
const jobTitle = element.querySelector('.job-name').innerText; // 目标职位
const experience = element.querySelector('.text').innerText; // 工作经验
const location = element.querySelector('.address').innerText; // 所在城市
const salary = element.querySelector('.salary').innerText; // 期望薪资
resumeData.push({ name, jobTitle, experience, location, salary });
});
return resumeData;
});
// 打印抓取的简历数据
console.log(resumes);
// 在抓取完成后关闭浏览器
await browser.close();
})();
--proxy-server
参数设置代理IP,避免IP被封禁的风险。同时,使用page.authenticate()
方法对代理IP进行认证。page.setUserAgent()
方法伪装请求的浏览器信息,模拟真实用户的访问行为。page.setCookie()
方法预设Cookies信息,以维持会话状态或绕过登录验证。page.goto()
方法导航到目标网页,并使用page.content()
方法获取网页内容。4. 代理IP与Puppeteer的配合使用代理IP进行Web Scraping时,建议选择一个稳定、速度快的代理服务商,例如亿牛云爬虫代理。通过使用稳定的代理服务,可以大大提高爬虫的效率和成功率。此外,合理设置抓取频率和随机等待时间,也能有效避免触发目标网站的反爬虫机制。5. 提高爬虫效率的其他技巧page.waitForSelector()
或page.waitForTimeout()
方法,确保所有数据加载完成后再进行抓取。原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。