爬数据 js脚本

爬数据使用的 JS 脚本通常是通过模拟浏览器行为来获取网页上的数据。

基础概念：

使用 JavaScript 操作浏览器 DOM（文档对象模型），提取所需信息。
可以处理网页的动态加载内容，因为一些网站的数据是通过 JavaScript 异步加载的。

优势：

能够获取动态生成的页面内容。
可以处理复杂的页面交互和数据加载逻辑。

类型：

基于浏览器自动化的脚本，如 Puppeteer 等工具。
直接在浏览器控制台编写的简单脚本。

应用场景：

市场调研，获取竞争对手的价格、产品信息等。
数据挖掘和分析，收集特定领域的公开数据。

可能出现的问题及原因：

被目标网站检测到并封禁 IP，原因是频繁的请求或异常的行为模式。
数据提取不准确，可能是页面结构变化导致脚本无法正确匹配元素。

解决方法：

设置合理的请求间隔时间，模拟人类的操作速度。
定期检查和更新脚本以适应页面结构的变化。
使用代理 IP 来分散请求来源。

示例代码（使用 Puppeteer）：

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');

  // 等待特定元素加载
  await page.waitForSelector('.target-element');

  // 提取数据
  const data = await page.evaluate(() => {
    return document.querySelector('.target-element').innerText;
  });

  console.log(data);

  await browser.close();
})();

需要注意的是，在进行数据爬取时，应遵守法律法规和网站的使用条款，不得进行未经授权的非法爬取行为。