前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Rust 中,对网址进行异步快照,并且添加水印效果的实践

Rust 中,对网址进行异步快照,并且添加水印效果的实践

作者头像
niqin.com
发布2022-09-01 15:44:42
1.7K0
发布2022-09-01 15:44:42
举报
文章被收录于专栏:Rust 生态与实践

最近的项目需求中,需要实现两个功能——

  • 通过 url 网址,对站点进行拍照,生成网页快照;
  • 为了避免站点版权纠纷,以及历史留痕。需要在网页快照上生成时间戳,或者添加水印。

是故,笔者经过 crate 比较,实践后,整合了一个笔者认为最合适的解决方案。特此分享,以求抛砖引玉。

新建项目,从 None 开始

为了本次分享的详细和可操作性,我们抛离其它关联项目业务。从零开始一个全新的项目:

代码语言:javascript
复制
cargo new screenshot_watermark --bin
cd screenshot_watermark

我们将在此项目中进行全新的实践。

网页快照 crate 比较和选择

笔者以前曾了解到,Rust 中关于通过 url 网址,对网页截图快照的 crate 还不少,我们仅提及较为成熟的:有通过具体浏览器的 headless 模式的,如 rust-headless-chrome;有使用 WebDriver 模式的,则可以理论支持所有浏览器。

Rust crate 中,在 Chrome 浏览器方面,网页快照库只有 rust-headless-chrome 一个较为成熟;在 WebDriver 方面,笔者测试后,成熟的库有 2 个:fantoccini、thirtyfour。

它们都是异步库。fantoccini 最为成熟,久经考验;headless-chrome 次之,仅对 chrome 浏览器提供支持,秉持“如非必要,不增实体”思维的伙伴们,优先选择;thirtyfour 则最新,还对 tokio、async-std 两个 Rust 运行时(runtime)均提供了支持。

笔者比较后,选择了 fantoccini,但此文中,我们会对它们都做以实践。

首先,让我们编辑 Cargo.toml 文件,依赖项中添加此三个 crate,以及 tokio 运行时。

笔者采用 cargo-edit 工具包进行依赖项的添加:

cargo-edit 的使用,请参阅构建 Rust 异步 GraphQL 服务:基于 tide + async-graphql + mongodb(1)- 起步及 crate 选择一文中的工具类 crate 安装部分。

代码语言:javascript
复制

cargo add fantoccini headless-chrome thirtyfour tokio

thirtyfour 默认的运行时选择是 tokio,如果你喜欢使用 async-std,则需要在依赖项中指定 features

此时,Cargo.toml 文件内容如下:

代码语言:javascript
复制
[package]
name = "screenshot_watermark"
version = "0.1.0"
authors = ["我是谁?"]
edition = "2018"

# See more keys and their definitions at https://doc.rust-lang.org/cargo/reference/manifest.html

[dependencies]
fantoccini = "0.17.3"
headless_chrome = "0.9.0"
thirtyfour = "0.24.2"
tokio = "1.6.0"

WebDriver 下载和启动

对于采用 WebDriver 模式的 fantoccini 和 thirtyfour,需要下载各自浏览器的 WebDriver:firefox 的 geckodriver、chrome 的 chromedriver、edge 的 edgedriver,以及 safari 的 safaridriver 等。目前,WebDriver 模式的网页快照 crate,对于一些小众浏览器也提供了支持,如 opera,甚至 IE 等。不过,本文中笔者就不做提及了,开发模式是完全相同的。

各自浏览器的官网,均提供了其 WebDriver 的下载。下载完成后,我们启动时需要指定端口(如果你采用默认端口,请注意代码中更改)。以 firefox 和 chrome 为例:

代码语言:javascript
复制
geckodriver --port=4444
chromedriver --port=4445

网页快照截图

以下代码中,采用 tokio 运行时,async-std 运行时编码相同。

代码语言:javascript
复制
use std::fs;
use fantoccini::ClientBuilder;
use headless_chrome::{
    protocol::page::ScreenshotFormat, Browser, LaunchOptionsBuilder,
};
use thirtyfour::prelude::*;

#[tokio::main]
async fn main() -> Result<(), Box<dyn std::error::Error>> {
    // 使用 fantoccini 进行网页快照截图 - 开始
    // 连接到 webdriver 实例,监听端口 4444
    // 4444 端口对应的是 geckodriver
    // 在 fantoccini 中如果要使用 chromedriver,请将 chromedriver 的启动端口改为 4444
    let mut client =
        ClientBuilder::native().connect("http://localhost:4444").await?;
    // 访问快照目标网址
    client.goto("https://blog.budshome.com").await?;
    // 设定快照截图尺寸
    client.set_window_size(1280, 1024).await?;

    // 网页快照
    let screenshot = client.screenshot().await?;
    fs::write("screenshot_f.jpg", &screenshot)?;

    // 关闭客户端浏览器窗口
    client.close().await?;
    // 使用 fantoccini 进行网页快照截图 - 结束

    // 使用 headless-chrome 进行网页快照截图 - 开始
    // 打开客户端浏览器
    let options =
        LaunchOptionsBuilder::default().build().expect("没有找到 Chrome 应用");
    let browser = Browser::new(options)?;
    // tab 初始化
    let tab = browser.wait_for_initial_tab()?;
    // 访问快照目标网址
    // 网页快照截图
    // JPEG 格式使用 75% 图象质量
    let jpg_data = tab
        .navigate_to("https://blog.budshome.com")?
        .wait_until_navigated()?
        .capture_screenshot(ScreenshotFormat::JPEG(Some(75)), None, true)?;
    fs::write("screenshot_h.jpg", &jpg_data)?;
    // 使用 headless-chrome 进行网页快照截图 - 结束

    // 使用 thirtyfour 进行网页快照截图 - 开始
    // firefox 浏览器
    let caps = DesiredCapabilities::firefox();
    let driver = WebDriver::new("http://localhost:4444", &caps).await?;
    // 访问快照目标网址
    driver.get("https://blog.budshome.com").await?;
    // 网页快照
    let png_data = driver.screenshot_as_png().await?;
    fs::write("screenshot_t_f.jpg", &png_data)?;

    // chrome 浏览器
    let caps = DesiredCapabilities::chrome();
    let driver = WebDriver::new("http://localhost:4445", &caps).await?;
    // 访问快照目标网址
    driver.get("https://blog.budshome.com").await?;
    // 网页快照
    let png_data = driver.screenshot_as_png().await?;
    fs::write("screenshot_t_c.jpg", &png_data)?;
    // 使用 thirtyfour 进行网页快照截图 - 结束

    Ok(())
}

运行程序,生成的截图如下所示(为了网页展示,上传服务器时缩小了尺寸):

笔者体验:fantoccini 最合适,headless-chrome 最为方便。

图片水印效果

Rust 的图像处理 crate 非常丰富,有 image、imagef、imager、andrew、png、jpg、gif、rgb,以及 image 库的子库 imageproc 和 image-png/gif/jpg 等等,琳琅满目。最为成熟、完善的还要数 image,我们如下示例即采用。

笔者实践测试了 andrew、imager、imagef 等,也大抵可用。

在上述代码的 Ok(())之前,添加如下代码,实现网页快照截图增加水印效果。

代码语言:javascript
复制
    // 打开网页快照截图
    // 此为底图,即要打上水印的图像
    let screenshot = image::open("screenshot.jpg").unwrap();
    // 转换为 rgb8 图像
    let mut screenshot_rgb = screenshot.to_rgb8();

    // 水印,采用图片,方便美术加工后
    // 当然也可以是文字等
    let watermark = image::open("rust-shijian.png").unwrap().to_rgb8();

    // 向底图添加水印效果
    image::imageops::overlay(&mut screenshot_rgb, &watermark, 900, 800);

    //  保存底图
    screenshot_rgb.save("screenshot.jpg").unwrap();

笔者的水印图片是微信公众号二维码,在图像右下角。

为了网页展示,上传服务器时缩小了尺寸

结语

Okay,代码全部完成。可以发现,Rust 的图像处理生态不只很完善,使用也非常方便,不逊于 Python、Java 的生态。

以下为技术广告——

  • 推荐大家给上面实践和提及的各个 crate 的 github 仓库点赞;
  • graphql + wasm(yew)的前端整合实例仓库 sansx/yew-graphql-demo 已经完成,graphql 后端基于 tide-async-graphql-mongodb。sansx 老师后端会整合到 tide-async-graphql-mongodb。
  • 另外,sansx 老师还提供了采用 yes 开发 wasm 的模板项目 sansx/yew-wasm-pack-template,相信不久就会有 sansx 老师的 wasm 开发中文教程。
  • 希望大家参与和帮助上述几个项目。

谢谢您的阅读,欢迎交流。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-05-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Rust 生态与实践 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 新建项目,从 None 开始
  • 网页快照 crate 比较和选择
  • WebDriver 下载和启动
  • 网页快照截图
  • 图片水印效果
  • 结语
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档