首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Stirling-PDF:功能强大的开源PDF工具

Stirling-PDF:功能强大的开源PDF工具

作者头像
季春二九
发布2024-11-22 12:51:31
发布2024-11-22 12:51:31
2.5K0
举报
文章被收录于专栏:季春二九季春二九

Stirling-PDF是一款被誉为“PDF的瑞士军刀”的开源PDF工具,功能强大,适用于个人用户、企业和开发者,在批量处理或自动化PDF操作时优势明显。

一、主要功能

PDF转换

  • 支持将PDF转换为word、PPT、图片(如PNG、JPG等格式)。
  • 可将图片或HTML转换为PDF。

PDF编辑

  • 能添加水印。
  • 可合并多个PDF文件,也能拆分PDF文件。

OCR(光学字符识别)

  • 使用Tesseract OCR引擎,能识别PDF或图像中的文本,且支持多种语言,包括中文。

安全性管理

  • 可设置或移除PDF密码,还能加密PDF文件。

压缩PDF

  • 能够减少PDF文件大小,方便存储和共享。

其他高级功能

  • 可进行页面裁剪、旋转操作。
  • 能提取文本、图片或元数据。
  • 支持批量处理PDF文件,有效提高工作效率。
2024-11-21T03:14:30.png
2024-11-21T03:14:30.png

二、安装使用(Compose安装Stirling-PDF)

创建文件夹

  • 先在任意位置创建一个pdf文件夹,用于存放docker-compose.yaml文件。
2024-11-21T03:14:45.png
2024-11-21T03:14:45.png

构建项目

  • 使用docker的compose方式构建,点击新增项目。
2024-11-21T03:14:57.png
2024-11-21T03:14:57.png
  • 输入项目名称,路径选择刚刚创建的pdf文件夹,点击创建。
2024-11-21T03:15:07.png
2024-11-21T03:15:07.png
  • 将以下代码拷贝进docker-compose.yml(注意要把其中/vol1/1000/docker/pdf/trainingData、/vol1/1000/docker/pdf/extraConfigs、/vol1/1000/docker/pdf/logs、/vol1/1000/docker/pdf/customFiles路径换成自己的):
代码语言:javascript
复制
version: '3.3'
services:
  stirling-pdf:
 container_name: Stirling-PDF # 容器名称
 image: frooodle/s-pdf:latest # 使用的镜像,最新版本
 ports:
   - "8750:8080" # 映射端口,本地的8750映射到容器的8080
 volumes:
   # 数据卷挂载,将宿主机目录挂载到容器内部
   - /vol1/1000/docker/pdf/trainingData:/usr/share/tessdata # 用于OCR模型的训练数据
   - /vol1/1000/docker/pdf/extraConfigs:/configs # 存储容器的配置文件
   - /vol1/1000/docker/pdf/logs:/logs # 存储容器的日志文件
   - /vol1/1000/docker/pdf/customFiles:/customFiles # 存储用户自定义文件
 environment:
   DOCKER_ENABLE_SECURITY: "true" # 启用容器的安全模式
   SECURITY_ENABLELOGIN: "true" # 禁用登录功能,无需验证即可访问
   SECURITY_INITIALLOGIN_USERNAME: zhixinfang # Stirling-PDF登录账号
   SECURITY_INITIALLOGIN_PASSWORD: zhixinfang # Stirling-PDF登录密码
   SYSTEM_DEFAULTLOCALE: zh-CN # 设置系统默认语言为简体中文
   UI_APPNAME: 季春二九PDF # 设置应用程序名称
   UI_HOMEDESCRIPTION: 季春二九PDF # 设置首页的描述文字
   UI_APPNAMENAVBAR: 季春二九PDF # 设置导航栏的名称
   SYSTEM_MAXFILESIZE: "500" # 设置文件上传的最大尺寸(单位:MB)
   INSTALL_BOOK_AND_ADVANCED_HTML_OPS: "false" # 禁用书籍和高级 HTML操作功能
 restart: on-failure:3 # 配置重启策略,仅在失败时重启,最多尝试3次
  • 复制代码运行报错的,请在浏览器打开文章后再复制。要仔细看代码里面的注释,根据自己的需求修改。
  • 上述代码默认设置的是登录后使用,如果想不登录直接使用,请把DOCKER_ENABLE_SECURITY: "true"SECURITY_ENABLELOGIN: "true"这两行代码中的true改成false,或者部署好后去容器修改环境变量也可以。

下载OCR中文模型

  • OCR扫描需要自行下载中文模型。
  • 下载地址:https://github.com/tesseract-ocr/tessdata/tree/main,打开后找到下面五个模型下载下来上传到trainingData文件夹下:
    • eng.traineddat
    • chi_sim.traineddat
    • chi_tra.traineddat
    • chi_sim_vert.traineddat
    • chi_tra_vert.traineddata
  • 其中sim是简体中文、tra繁体中文,eng是英文(English)文本,带vert的文件为竖排版模型,若还需要其他模型可根据需求自行下载。
  • 参考文档链接:https://github.com/Stirling-Tools/Stirling-PDF/blob/main/HowToUseOCR.md

登录使用

  • 访问浏览器打开http://ip:8750,输入设置的账号密码登录,这样就可以使用了,经测试几乎没问题,且比市面上的强太多了。
2024-11-21T03:16:50.png
2024-11-21T03:16:50.png
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-11-21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、主要功能
  • 二、安装使用(Compose安装Stirling-PDF)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档