如何使用Puppeteer启用阅读器模式/提取页面

Puppeteer是一个由Google开发的Node.js库，用于控制Headless Chrome或Chromium进行自动化测试、页面截图、页面内容提取等任务。如果你想使用Puppeteer启用阅读器模式或提取页面，可以按照以下步骤进行操作：

安装Puppeteer：在开始之前，首先需要安装Node.js和npm（Node Package Manager）。打开命令行终端并输入以下命令来安装Puppeteer：

npm install puppeteer

引入Puppeteer：在你的JavaScript代码中，使用require语句引入Puppeteer模块：

const puppeteer = require('puppeteer');

创建浏览器实例：使用puppeteer.launch()方法创建一个Headless Chrome浏览器实例：

const browser = await puppeteer.launch();

打开新页面：使用browser.newPage()方法创建一个新页面对象：

const page = await browser.newPage();

进入阅读器模式：使用page.emulateMediaType()方法将页面模拟为阅读器模式，以便更好地提取页面内容：

await page.emulateMediaType('screen');

导航到目标页面：使用page.goto()方法导航到你想要提取内容的页面：

await page.goto('https://example.com');

提取页面内容：使用Puppeteer提供的各种方法来提取页面内容，比如获取特定元素的文本、属性或截图等。以下是一些示例代码：

// 获取页面标题
const title = await page.title();
console.log('页面标题：', title);

// 获取特定元素的文本
const elementText = await page.$eval('.selector', element => element.textContent);
console.log('元素文本：', elementText);

// 获取屏幕截图
await page.screenshot({ path: 'screenshot.png' });
console.log('屏幕截图已保存');