Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Stirling-PDF:功能强大的开源PDF工具

Stirling-PDF:功能强大的开源PDF工具

作者头像
季春二九
发布于 2024-11-22 04:51:31
发布于 2024-11-22 04:51:31
1.4K02
代码可运行
举报
文章被收录于专栏:季春二九季春二九
运行总次数:2
代码可运行

Stirling-PDF是一款被誉为“PDF的瑞士军刀”的开源PDF工具,功能强大,适用于个人用户、企业和开发者,在批量处理或自动化PDF操作时优势明显。

一、主要功能

PDF转换

  • 支持将PDF转换为word、PPT、图片(如PNG、JPG等格式)。
  • 可将图片或HTML转换为PDF。

PDF编辑

  • 能添加水印。
  • 可合并多个PDF文件,也能拆分PDF文件。

OCR(光学字符识别)

  • 使用Tesseract OCR引擎,能识别PDF或图像中的文本,且支持多种语言,包括中文。

安全性管理

  • 可设置或移除PDF密码,还能加密PDF文件。

压缩PDF

  • 能够减少PDF文件大小,方便存储和共享。

其他高级功能

  • 可进行页面裁剪、旋转操作。
  • 能提取文本、图片或元数据。
  • 支持批量处理PDF文件,有效提高工作效率。
2024-11-21T03:14:30.png
2024-11-21T03:14:30.png

二、安装使用(Compose安装Stirling-PDF)

创建文件夹

  • 先在任意位置创建一个pdf文件夹,用于存放docker-compose.yaml文件。
2024-11-21T03:14:45.png
2024-11-21T03:14:45.png

构建项目

  • 使用docker的compose方式构建,点击新增项目。
2024-11-21T03:14:57.png
2024-11-21T03:14:57.png
  • 输入项目名称,路径选择刚刚创建的pdf文件夹,点击创建。
2024-11-21T03:15:07.png
2024-11-21T03:15:07.png
  • 将以下代码拷贝进docker-compose.yml(注意要把其中/vol1/1000/docker/pdf/trainingData、/vol1/1000/docker/pdf/extraConfigs、/vol1/1000/docker/pdf/logs、/vol1/1000/docker/pdf/customFiles路径换成自己的):
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
version: '3.3'
services:
  stirling-pdf:
 container_name: Stirling-PDF # 容器名称
 image: frooodle/s-pdf:latest # 使用的镜像,最新版本
 ports:
   - "8750:8080" # 映射端口,本地的8750映射到容器的8080
 volumes:
   # 数据卷挂载,将宿主机目录挂载到容器内部
   - /vol1/1000/docker/pdf/trainingData:/usr/share/tessdata # 用于OCR模型的训练数据
   - /vol1/1000/docker/pdf/extraConfigs:/configs # 存储容器的配置文件
   - /vol1/1000/docker/pdf/logs:/logs # 存储容器的日志文件
   - /vol1/1000/docker/pdf/customFiles:/customFiles # 存储用户自定义文件
 environment:
   DOCKER_ENABLE_SECURITY: "true" # 启用容器的安全模式
   SECURITY_ENABLELOGIN: "true" # 禁用登录功能,无需验证即可访问
   SECURITY_INITIALLOGIN_USERNAME: zhixinfang # Stirling-PDF登录账号
   SECURITY_INITIALLOGIN_PASSWORD: zhixinfang # Stirling-PDF登录密码
   SYSTEM_DEFAULTLOCALE: zh-CN # 设置系统默认语言为简体中文
   UI_APPNAME: 季春二九PDF # 设置应用程序名称
   UI_HOMEDESCRIPTION: 季春二九PDF # 设置首页的描述文字
   UI_APPNAMENAVBAR: 季春二九PDF # 设置导航栏的名称
   SYSTEM_MAXFILESIZE: "500" # 设置文件上传的最大尺寸(单位:MBINSTALL_BOOK_AND_ADVANCED_HTML_OPS: "false" # 禁用书籍和高级 HTML操作功能
 restart: on-failure:3 # 配置重启策略,仅在失败时重启,最多尝试3
  • 复制代码运行报错的,请在浏览器打开文章后再复制。要仔细看代码里面的注释,根据自己的需求修改。
  • 上述代码默认设置的是登录后使用,如果想不登录直接使用,请把DOCKER_ENABLE_SECURITY: "true"SECURITY_ENABLELOGIN: "true"这两行代码中的true改成false,或者部署好后去容器修改环境变量也可以。

下载OCR中文模型

登录使用

  • 访问浏览器打开http://ip:8750,输入设置的账号密码登录,这样就可以使用了,经测试几乎没问题,且比市面上的强太多了。
2024-11-21T03:16:50.png
2024-11-21T03:16:50.png
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-11-21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
【docker】PDF编辑、使用神器 | Stirling-PDF的部署与使用
有的时候我们需要编辑PDF,但不得不说能处理PDF文件的软件真的很少。因为夜梦最近在弄一些文章,需要处理一些PDF文件,所以就找到了这么一个开源项目Stirling-PDF。试用了一下,真的十分方便!合并、拆分、加水印、加密码、加权限都可以轻松完成!
夜梦星尘
2024/08/20
1K0
【docker】PDF编辑、使用神器 | Stirling-PDF的部署与使用
Stirling-PDF:一款优秀的开源PDF处理工具
最近我的朋友大雄需要将一个PDF转换为Word文档。于是他在网上尝试了多个PDF转换的在线工具,但要么需要会员,要么需要登录等繁琐操作,而且我们的文件也存在泄漏等安全隐患。因此,他向我咨询是否有可私有化部署且易于使用的PDF在线工具。大雄平时也喜欢制作PPT,每当有灵感时就会创建超过60多页的ppt演示文稿。
修己xj
2023/10/23
3.4K2
Stirling-PDF:一款优秀的开源PDF处理工具
告别付费束缚,拥抱Stirling-PDF:本地部署的PDF编辑利器,最强开源PDF工具箱!
在日常工作流程中,PDF文件扮演着至关重要的角色,无论是打印标书、分享资料还是保存电子合同,PDF都是首选。尽管PDF文件的不可编辑性常常让人感到不便,但它的稳定性和安全性赢得了众多用户的青睐。
释然IT杂谈
2024/11/23
1.3K0
告别付费束缚,拥抱Stirling-PDF:本地部署的PDF编辑利器,最强开源PDF工具箱!
【Docker项目实战篇】Docker部署PDF多功能工具Stirling-PDF
江湖有缘
2024/07/28
7.5K1
【Docker项目实战篇】Docker部署PDF多功能工具Stirling-PDF
本地部署功能强大的PDF处理工具Stirling PDF并实现远程使用
本篇文章我们将在Linux上使用Docker在本地部署一个开源的PDF工具——Stirling PDF,并且结合cpolar的内网穿透实现公网随时随地访问。
YIN_尹
2024/05/26
7150
本地部署功能强大的PDF处理工具Stirling PDF并实现远程使用
Star 8.3k!强烈推荐这款强大的 PDF 文件处理工具,PDF处理它全包了!
大家想必都有过这样的经历,面对一堆PDF文档,或者需要合并几个PDF,或者需要将一份PDF文件拆分,又或者需要调整PDF中的页面顺序,再或者需要各种文档格式同PDF进行转换,找到的在线工具要么广告满天飞,要么需要付费使用,再不然就是担心隐私泄露的问题。
Python兴趣圈
2023/12/30
7690
Star 8.3k!强烈推荐这款强大的 PDF 文件处理工具,PDF处理它全包了!
Stirling-PDF一款开源可本地托管的pdf处理利器
这是一个健壮的、本地托管的基于Web的PDF操作工具,使用Docker实现。它使您能够对PDF文件执行各种操作,包括分割、合并、转换、重新组织、添加图像、旋转、压缩等。这个本地托管的Web应用程序已发展成为包含全面功能的套件,满足您所有的PDF需求。
山行AI
2024/05/09
1.9K0
Stirling-PDF一款开源可本地托管的pdf处理利器
Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码、测试数据和训练集下载地址
 OCR(Optical character recognition) —— 光学字符识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向。可惜国内的科研院所,基本没有几个高识别率的训练集——笔者联系过北京语言大学研究生一篇论文的作者,他们论文说有%90的正确识别率,结果只做了20个笔画简单的汉字(20/6753 = %0.3 常用简体汉字的千分之三),然后找了20个学生,各自手写了一遍。真的是为了论文而论文,而且很会选择样本(小而简单)
NaughtyCat
2020/10/09
4.3K0
Tika结合Tesseract-OCR 实现光学汉字识别(简体、宋体的识别率百分之百)—附Java源码、测试数据和训练集下载地址
Tesseract-OCR 4.1.0 安装和使用— windows及CentOS
 OCR(Optical character recognition) —— 光学文字识别,是图像处理的一个重要分支,中文的识别具有一定挑战性,特别是手写体和草书的识别,是重要和热门的科学研究方向
NaughtyCat
2020/10/09
3.9K1
Tesseract-OCR 4.1.0 安装和使用— windows及CentOS
云原生之使用Docker部署PDF多功能工具Stirling-PDF
江湖有缘
2023/11/01
4.2K3
云原生之使用Docker部署PDF多功能工具Stirling-PDF
Android使用Tesseract-ocr进行文字识别
Tessseract是一款由HP实验室开发由 Google 维护的开源 OCR(Optical Character Recognition , 光学字符识别)引擎。能够支持中文十分难得。虽然其识别效果不是很理想,但是对于要求不高的中小型项目来说,已经足够用了。
Vaccae
2019/07/25
10.2K0
JAVA——Tess4J简单的图像识别DEMO
2、在任意地方创建一个文件夹tessdata,将下载的chi_sim.traineddata 和 eng.traineddata语言包存放在该目录下,也可以直接存放到自己项目的resources/tessdata目录下。
全栈程序员站长
2022/09/05
2.2K0
JAVA——Tess4J简单的图像识别DEMO
tesseract-ocr安装
语言包地址:https://github.com/tesseract-ocr/tessdata
jaychou
2022/12/26
1.2K0
基于Tess4j的图片识别
Tess4J是对Tesseract OCR API的Java JNA 封装。tesseract是跨平台的OCR(Optical Character Recognition,光学字符识别)引擎,让开发者非常容易的集成OCR能力到他们自己的应用。通过强大的API从图片中识别和提取文本内容。Tess4J支持主流的图片格式,如TIFF,JPEG,GIF,PNG,BMP,and PDF。 OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
全栈程序员站长
2022/08/31
1.8K0
Tesseract:安装与命令行使用
http://www.zmonster.me/2015/04/17/tesseract-install-usage.html
bear_fish
2018/09/19
2.8K0
Tesseract:安装与命令行使用
Tesseract:训练
http://www.zmonster.me/2015/05/05/tesseract-training.html
bear_fish
2018/09/19
1.8K0
Tesseract:训练
R语言:OCR图文识别,tesseract支持png、pdf转word
https://pan.baidu.com/s/1kNngtcRUXH9J1CEeE2MaVw?pwd=oj5g 提取码:oj5g ##################################
拴小林
2022/04/18
3.8K0
Python Tesseract 图片识别-小操练
but,Tesseract是老外开发的,默认不支持中文,需要我们加个中文语言包 将文件chi_sim.traineddata (密码:nd6p) 放到安装目录:Tesseract-OCR\tessdata文件夹内,再整张图
Mshu
2018/10/31
1.4K0
图像识别 | 使用 Java 实现AI人工智能技术-图像识别功能
说到语音识别、语音翻译、图像识别、人脸识别等等,现在已经非常非常非常普及了,看过‘最强大脑’的朋友,也应该对‘小度’这个机器人有所了解,战胜国际顶尖的‘大脑’- 水哥,(PS:内幕不知),那么今天,我们来看下关于图像识别,是如何做到的,Java又是如何识别图像的?
码神联盟
2018/07/30
12.5K0
图像识别  | 使用 Java 实现AI人工智能技术-图像识别功能
利用tess-two和cv4j实现简单的ocr功能、
Tesseract是Ray Smith于1985到1995年间在惠普布里斯托实验室开发的一个OCR引擎,曾经在1995 UNLV精确度测试中名列前茅。但1996年后基本停止了开发。2006年,Google邀请Smith加盟,重启该项目。目前项目的许可证是Apache 2.0。该项目目前支持Windows、Linux和Mac OS等主流平台。但作为一个引擎,它只提供命令行工具。 现阶段的Tesseract由Google负责维护,是最好的开源OCR Engine之一,并且支持中文。
fengzhizi715
2018/08/24
1.5K0
利用tess-two和cv4j实现简单的ocr功能、
推荐阅读
相关推荐
【docker】PDF编辑、使用神器 | Stirling-PDF的部署与使用
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验