Stirling-PDF：功能强大的开源PDF工具

季春二九

发布于 2024-11-22 12:51:31

3.2K0

文章被收录于专栏：季春二九季春二九

Stirling-PDF是一款被誉为“PDF的瑞士军刀”的开源PDF工具，功能强大，适用于个人用户、企业和开发者，在批量处理或自动化PDF操作时优势明显。

一、主要功能

PDF转换：

支持将PDF转换为word、PPT、图片（如PNG、JPG等格式）。
可将图片或HTML转换为PDF。

PDF编辑：

能添加水印。
可合并多个PDF文件，也能拆分PDF文件。

OCR（光学字符识别）：

使用Tesseract OCR引擎，能识别PDF或图像中的文本，且支持多种语言，包括中文。

安全性管理：

可设置或移除PDF密码，还能加密PDF文件。

压缩PDF：

能够减少PDF文件大小，方便存储和共享。

其他高级功能：

可进行页面裁剪、旋转操作。
能提取文本、图片或元数据。
支持批量处理PDF文件，有效提高工作效率。

二、安装使用（Compose安装Stirling-PDF）

创建文件夹：

先在任意位置创建一个pdf文件夹，用于存放docker-compose.yaml文件。

构建项目：

使用docker的compose方式构建，点击新增项目。

输入项目名称，路径选择刚刚创建的pdf文件夹，点击创建。

将以下代码拷贝进docker-compose.yml（注意要把其中/vol1/1000/docker/pdf/trainingData、/vol1/1000/docker/pdf/extraConfigs、/vol1/1000/docker/pdf/logs、/vol1/1000/docker/pdf/customFiles路径换成自己的）：

version: '3.3'
services:
  stirling-pdf:
 container_name: Stirling-PDF # 容器名称
 image: frooodle/s-pdf:latest # 使用的镜像，最新版本
 ports:
   - "8750:8080" # 映射端口，本地的8750映射到容器的8080
 volumes:
   # 数据卷挂载，将宿主机目录挂载到容器内部
   - /vol1/1000/docker/pdf/trainingData:/usr/share/tessdata # 用于OCR模型的训练数据
   - /vol1/1000/docker/pdf/extraConfigs:/configs # 存储容器的配置文件
   - /vol1/1000/docker/pdf/logs:/logs # 存储容器的日志文件
   - /vol1/1000/docker/pdf/customFiles:/customFiles # 存储用户自定义文件
 environment:
   DOCKER_ENABLE_SECURITY: "true" # 启用容器的安全模式
   SECURITY_ENABLELOGIN: "true" # 禁用登录功能，无需验证即可访问
   SECURITY_INITIALLOGIN_USERNAME: zhixinfang # Stirling-PDF登录账号
   SECURITY_INITIALLOGIN_PASSWORD: zhixinfang # Stirling-PDF登录密码
   SYSTEM_DEFAULTLOCALE: zh-CN # 设置系统默认语言为简体中文
   UI_APPNAME: 季春二九PDF # 设置应用程序名称
   UI_HOMEDESCRIPTION: 季春二九PDF # 设置首页的描述文字
   UI_APPNAMENAVBAR: 季春二九PDF # 设置导航栏的名称
   SYSTEM_MAXFILESIZE: "500" # 设置文件上传的最大尺寸（单位：MB）
   INSTALL_BOOK_AND_ADVANCED_HTML_OPS: "false" # 禁用书籍和高级 HTML操作功能
 restart: on-failure:3 # 配置重启策略，仅在失败时重启，最多尝试3次

复制代码运行报错的，请在浏览器打开文章后再复制。要仔细看代码里面的注释，根据自己的需求修改。
上述代码默认设置的是登录后使用，如果想不登录直接使用，请把DOCKER_ENABLE_SECURITY: "true"和SECURITY_ENABLELOGIN: "true"这两行代码中的true改成false，或者部署好后去容器修改环境变量也可以。

下载OCR中文模型：

OCR扫描需要自行下载中文模型。
下载地址：https://github.com/tesseract-ocr/tessdata/tree/main，打开后找到下面五个模型下载下来上传到trainingData文件夹下：
- eng.traineddat
- chi_sim.traineddat
- chi_tra.traineddat
- chi_sim_vert.traineddat
- chi_tra_vert.traineddata
其中sim是简体中文、tra繁体中文，eng是英文（English）文本，带vert的文件为竖排版模型，若还需要其他模型可根据需求自行下载。
参考文档链接：https://github.com/Stirling-Tools/Stirling-PDF/blob/main/HowToUseOCR.md

登录使用：