首页
学习
活动
专区
圈层
工具
发布

Puppeteer 入门指引

Puppeteer 是什么 Puppeteer 是一个 Node library,提供了一套完整的通过 DevTools 协议操纵 Chrome 或 Chromium 的 API。...熟悉爬虫或者 UI 自动化的同学可能会联想到 PhantomJS、CasperJS 或者 Selenium,而作为 Chrome DevTools 团队亲自出品和维护的 puppeteer 不管是在功能的完整性...示例 4 - 自动填充表单并提交(在 https://developers.google.com 页面搜索框中输入关键词 Headless Chrome 并搜索) 创建 search.js const...(resultsSelector); // 从页面中爬取结果 const links = await page.evaluate((resultsSelector) => { const...debugger 进行调试: 首先在启动 puppeteer 的时候设置 {devtools: true}: 然后在 evaluate() 的执行代码中插入 debugger,这样 Chromium 在执行到这一步的时候会停止

2K50
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    网站性能测试利器:Puppeteer

    整个测试归结为page.evaluate()在page上下文中发送window.performance.timing,并使用JSON.parse()解码结果。...DevTools性能时间轴面板-首次有意义绘图 本章将使用Chrome性能指标(Chrome Performance Metrics)。...但有些功能你能用原始的Chrome DevTools 协议实现,而Puppeteer API不能。 目前,在0.13版本中,只有通过page._client.send()才能获得原始协议的方法。...如果你在testPage.js中发现了奇怪的代码page.waitFor(1000),这就对了。但为什么需要延迟测量首次有意义绘图?...Chrome DevTools协议需要启用特定域名,但其中一些域名是由Puppeteer启用的。 ServiceWorker域名不在Puppeteer中使用,所以我们必须手工启动它。

    5.6K130

    Node:使用Puppeteer完成一次复杂的爬虫

    the DevTools Protocol....简而言之,这货是一个提供高级API的node库,能够通过devtool控制headless模式的chrome或者chromium,它可以在headless模式下模拟任何的人为操作。...方法,该方法的参数是一个函数,这个函数将会在页面内部运行,这个函数的返回的数据将会以Promise的形式返回到外部 const list = await page.evaluate(()...(集群)实现,本质都是一样的 我在爬取的过程中也设置了不同的等待时间,一方面是为了等待网页的加载,一方面避免淘宝识别到我是爬虫弹验证码 Puppeteer的其它功能 这里仅仅利用了Puppeteer...此外一些需要登录的网站,如果你不想识别验证码委托第三方进行处理,你也可以关闭headless,然后在程序中设置等待时间,手动完成一些验证从而达到登录的目的。

    3.6K90

    自动化 Web 性能分析之 Puppeteer 爬虫实践

    本文将向大家介绍自动化性能分析使用的核心库——Puppeteer,并结合页面登录场景,介绍 Puppeteer 在百策系统中的应用。...Puppeteer 简介 Puppeteer 是一个 Node 库,它提供了一整套高级 API 来通过 DevTools 协议控制 Chromium 或 Chrome。...创建最新的自动化测试环境,使用最新的 JavaScript 和浏览器功能,直接在最新版本的 Chrome 中运行测试。 捕获页面的时间轴来帮助诊断性能问题。 测试 Chrome 扩展程序。...为能在页面执行 JavaScript 从而来检测页面性能,我们就需要用到以下 API: page.evaluate(pageFunction[, ...args]) 在浏览器中执行此函数,返回一个 Promise...green > diffPixel || blue > diffPixel) { return i; } } } }); // 获取滑动按钮在页面中的坐标

    3.7K40

    Puppeteer:从零出发,全面掌握浏览器自动化神器

    textContent 被成功的输出,说明 el 是个有效的对象,但如果直接返回 el 对象,你会看到不一样的结果,终端输出了 {} 。...}) 添加 debugger; 关键字中断代码: // 注意启用 devtools 选项 await page.evaluate(() => { // 模拟客户端代码中使用 debugger; 关键字中断代码执行...node --inspect-brk index.mjs" // v7.24.2 + 在 Chrome 或 Chromium 中打开 chrome://inspect/#devices ,在新页面中的...在新打开的浏览器中,按 F8 可以恢复测试执行; 添加的 debugger; 关键字也会被命中并中断程序执行; 记录 DevTools 协议流量: 以上的调试方法都不起作用时,则可能是 Puppeteer...扩展测试: Puppeteer 可以用于测试 Chrome 扩展程序,但需要注意的是 headless: 'shell' 模式中不可用。

    4.2K11

    Puppeteer 初探

    Puppeteer是一个Node库,它提供了一个高级API来通过DevTools协议控制无头 Chrome或Chromium ,它也可以配置为使用完整(非无头)Chrome或Chromium。...你可以在浏览器中手动完成的大部分事情都可以使用Puppteer完成 比如: 生成页面的屏幕截图和PDF。 抓取SPA并生成预先呈现的内容(即“SSR”)。 自动表单提交,UI测试,键盘输入等。...使用最新的的JavaScript和浏览器功能,直接在最新版本的Chrome浏览器中运行测试。 捕获您网站的时间线跟踪,以帮助诊断性能问题。...iframe.evaluate() 在浏览器中执行函数,相当于在控制台中执行函数,返回一个 Promise Array.from 将类数组对象转化为对象 page.click() 点击一个元素 iframe...$eval() 相当于在 iframe 中运行 document.queryselector 获取指定元素,并将其作为第一个参数传递 iframe.

    3K20

    (最新版)如何正确移除Selenium中的 window.navigator.webdriver

    在《一日一技:如何正确移除Selenium中window.navigator.webdriver的值》一文中,我们介绍了在当时能够正确从Selenium启动的Chrome浏览器中移除window.navigator.webdriver...所以即使要执行这段 JavaScript 语句,也应该是在浏览器运行网站自带的所有 JavaScript 之前。 这也就是我们现在的方案。...可能有读者会认为,是不是通过写 Chrome 浏览器的插件,让插件里面的 JavaScript 语句在网站页面刚刚打开,还没有运行自带的 JavaScript 之前运行。...这种方式虽然可以解决问题,但稍显麻烦,我们今天的方法非常简单。就是使用 Google 的Chrome Devtools-Protocol(Chrome 开发工具协议)简称CDP。...我们打开 CPD 的官方文档[1],可以看到如下的命令: 在每个Frame 刚刚打开,还没有运行 Frame 的脚本前,运行给定的脚本。

    4.6K30

    使用Node.js爬取任意网页资源并输出高质量PDF文件到本地~

    协议控制headless Chrome的Node库。...另外headless Chrome本身对服务器依赖的库的版本要求比较高,centos服务器依赖偏稳定,v6很难使用headless Chrome,提升依赖版本可能出现各种服务器问题(包括且不限于无法使用...page.evaluate 这个函数,内部是处理我们进入想要爬取网页的数据逻辑 page.goto和 page.evaluate两个方法,可以在async内部调用多次, 那意味着我们可以先进入京东网页...的中文官网下载对应的操作系统包 第二步,在下载安装完了Node.js后, 启动windows命令行工具(windows下启动系统搜索功能,输入cmd,回车,就出来了) 第三步 需要查看环境变量是否已经自动配置,在命令行工具中输入...cnpm i puppeteer --save 命令 即可下载 第七步 完成第六步下载后,打开本项目的url.js,将您需要爬虫爬取的网页地址替换上去(默认是http://nodejs.cn/) 第八步 在命令行中输入

    3.5K60

    有JavaScript动态加载的内容如何抓取

    引言JavaScript动态加载的内容常见于现代Web应用中,用于增强用户体验和减少初始页面加载时间。...方法一:使用无头浏览器无头浏览器是一种在没有用户图形界面的情况下运行的Web浏览器。它允许我们模拟用户操作,如点击、滚动和等待JavaScript执行完成。1....//example.com'); await page.waitForSelector('selector-of-dynamic-content'); const content = await page.evaluate...使用浏览器开发者工具使用浏览器的开发者工具(如Chrome DevTools)监控网络请求,找到加载动态内容的请求,并直接对其发起请求。示例步骤打开Chrome DevTools(F12)。...无头浏览器、网络请求分析和专门的抓取库都是有效的解决方案。选择哪种方法取决于具体的需求和环境。在实施这些技术时,始终要遵守网站的使用条款和相关法律法规,确保抓取行为合法合规。

    1.3K10

    前端人的爬虫工具【Puppeteer】

    它提供了高级API来通过 DevTools 协议控制无头 Chrome 或 Chromium ,它也可以配置为使用完整(非无头)Chrome 或 Chromium。...Headless Chrome 是什么 可以在无界面的环境中运行 Chrome。 通过命令行或者程序语言操作 Chrome。 无需人的干预,运行更稳定。...Puppeteer 提供了一系列 API,通过 Chrome DevTools Protocol 协议控制 Chromium/Chrome 浏览器的行为。...page.evaluate(pageFunction[, ...args]):在浏览器环境中执行函数 page.evaluateHandle(pageFunction[, ...args]):在浏览器环境中执行函数...一样,tab 页多必然会卡,所以必须有效控制 tab 页个数 一个 Chrome 实例启动时间长了难免会出现内存泄漏,页面奔溃等现象,所以定时重启 Chrome 实例是有必要的 为了加快性能,关闭没必要的配置

    3.8K20

    分享 10 个你可能不知道的 Devtools 技巧!

    Edge 和 Firefox 的 Devtools 都提供了编辑并重新发送网络请求的功能(Chrome 在最近的版本中也在尝试提供类似的能力,不过只能覆盖 Header ,体验并不是很好) 比如,在 Edge...禁用调试语句 有些网站会故意使用 debugger 语句来禁止你调试,只要 DevTools 关闭,这个语句就没有效果,但是只要你打开它,DevTools 就会暂停网站的主线程。...我们可以在 Devtools 中找到 3D 视图面板,然后打开它: 在 3D 视图工具中,在三种不同模式之间进行选择:Z-Index、DOM 和 Composited Layers。...切换 Devtoos 语言 一般情况下 Devtools 都会继承操作系统当前选择的默认语言,但是 Devtoos 上的翻译有时候真的挺别扭的,在 Safari 、 Chrome 或 Edge 中,我们都可以在...Devtoos 的设置中随意切换目标语言,如果你也觉得翻译过来的中文比较别扭,还是建议直接使用英文版 但是,在 Firefox 中,DevTools 始终会与浏览器的语言匹配,所以如果你想使用法语版的

    84810

    有JavaScript动态加载的内容如何抓取

    引言 JavaScript动态加载的内容常见于现代Web应用中,用于增强用户体验和减少初始页面加载时间。...方法一:使用无头浏览器 无头浏览器是一种在没有用户图形界面的情况下运行的Web浏览器。它允许我们模拟用户操作,如点击、滚动和等待JavaScript执行完成。 1....example.com'); await page.waitForSelector('selector-of-dynamic-content'); const content = await page.evaluate...使用浏览器开发者工具 使用浏览器的开发者工具(如Chrome DevTools)监控网络请求,找到加载动态内容的请求,并直接对其发起请求。 示例步骤 打开Chrome DevTools(F12)。...无头浏览器、网络请求分析和专门的抓取库都是有效的解决方案。选择哪种方法取决于具体的需求和环境。在实施这些技术时,始终要遵守网站的使用条款和相关法律法规,确保抓取行为合法合规。

    80210

    如何用Pyppeteer打造高并发无头浏览器采集方案

    以下文章将从行业痛点出发,结合 Pyppeteer 高并发无头浏览器技术,讲解如何在 Python 中打造一个可配置代理的高效采集方案,以采集 Amazon 今日特价商品并分析优惠价格与评分。...二、技术灵感借鉴 Puppeteer 在 Node.js 中的成熟实践,Pyppeteer 作为其 Python 移植版本,可通过 Chrome DevTools 协议实现浏览器自动化,天然支持 headless...5.0 (Windows NT 10.0; Win64; x64) ' 'AppleWebKit/537.36 (KHTML, like Gecko) ' 'Chrome...四、验证实验在真实环境下运行上述脚本,5 个并发页面在 30 秒内成功抓取超过 200 条今日特价商品信息,平均每条耗时约 0.15 秒。...与单线程方案相比,效率提升超过 4 倍,且在连续抓取 100 次后未触发 Amazon 反爬封禁。

    22810

    我写了一个自动化脚本涨粉,从0阅读到接近100粉丝

    Puppeteer 是一个 Node 库,它提供了一个高级 API 来通过 DevTools 协议控制 Chromium 或 Chrome。...Chromium 和 Chrome区别 在学puppeteer之前我们先来了解下 headless chrome 什么是 Headless Chrome 在无界面的环境中运行 Chrome 通过命令行或者程序语言操作...Chrome 无需人的干预,运行更稳定 在启动 Chrome 时添加参数 --headless,便可以 headless 模式启动 Chrome alias chrome="/Applications...userDataDir string 设置用户数据目录,默认linux 是在 ~/.config 目录,window 默认在 C:\Users{USER}\AppData\Local\Google\Chrome...devtools boolean 是否为每个选项卡自动打开DevTools面板, 这个选项只有当 headless 设置为 false 的时候有效 puppeteer如何使用 下面介绍 10 个关于使用

    83010
    领券