推荐一个.Net开源库,方便通过高级API来控制Chromium 浏览器。
01
项目简介
这是一个基于 Google 开源的 Node.js 库 Puppeteer 的 .NET 开源库,方便开发人员使用无头 Web 浏览器抓取 Web、检索 JavaScript 呈现的 HTML,以及与 UI 元素交互等功能。
比如可以用来抓取网页、生成页面 PDF 或者图片、网页截屏,以及进行自动化测试等。
02
项目核心功能
1、操作浏览器:比如新开/关闭浏览器窗口核标签、返回页面、打印页面、重新加载页面等;
2、执行JavaScript脚本:执行Js代码/函数等;
3、操作Html页面:比如获取元素的属性、文本内容,插入、更改元素等;
4、模拟鼠标操作:模拟点击页面元素、双击页面元素、拖动页面元素等;
5、模拟键盘输入:输入文字、按下按键、摁住按键等;
6、页面事件:等待页面加载完毕、字体加载等事件。
03
使用示例
1、网页截屏
using PuppeteerSharp;
using var browserFetcher = new BrowserFetcher();await browserFetcher.DownloadAsync();await using var browser = await Puppeteer.LaunchAsync( new LaunchOptions { Headless = true });await using var page = await browser.NewPageAsync();await page.GoToAsync("http://www.xxx.com");var outputFile = "screenshot.jpg";await page.ScreenshotAsync(outputFile);
2、生成页面PDF
using PuppeteerSharp;
using var browserFetcher = new BrowserFetcher();await browserFetcher.DownloadAsync();await using var browser = await Puppeteer.LaunchAsync(new LaunchOptions { Headless = true });await using var page = await browser.NewPageAsync();await page.GoToAsync("http://www.xxx.com");//等待字体加载完毕await page.EvaluateExpressionHandleAsync("document.fonts.ready");var outputFile = "page.pdf";await page.PdfAsync(outputFile);
3、加载页面并获取页面的所有超链接
using PuppeteerSharp;using System;
//浏览器配置var options = new LaunchOptions { Headless = true };await new BrowserFetcher().DownloadAsync();
//打开浏览器using (var browser = await Puppeteer.LaunchAsync(options))using (var page = await browser.NewPageAsync()){ //加载页面 await page.GoToAsync("http://www.xxx.com");
//获取所有超链接 var jsSelectAllAnchors = @"Array.from(document.querySelectorAll('a')).map(a => a.href);"; var urls = await page.EvaluateExpressionAsync(jsSelectAllAnchors); foreach (string url in urls) { Console.WriteLine($"Url: {url}"); } Console.ReadLine();}
04
项目地址
https://github.com/hardkoded/puppeteer-sharp
领取专属 10元无门槛券
私享最新 技术干货