前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【docker】PDF编辑、使用神器 | Stirling-PDF的部署与使用

【docker】PDF编辑、使用神器 | Stirling-PDF的部署与使用

作者头像
夜梦星尘
发布2024-08-20 19:17:50
3540
发布2024-08-20 19:17:50
举报
文章被收录于专栏:夜梦星尘的折腾日记

本文发布于150天前,最后更新于139天前,其中的信息可能有所发展或是发生改变。

1. 简介

有的时候我们需要编辑PDF,但不得不说能处理PDF文件的软件真的很少。因为夜梦最近在弄一些文章,需要处理一些PDF文件,所以就找到了这么一个开源项目Stirling-PDF。试用了一下,真的十分方便!合并、拆分、加水印、加密码、加权限都可以轻松完成!

GitHub:Stirling-Tools/Stirling-PDF

部分功能如下图:

2. 准备

在开始部署之前,你需要安装 docker 和 docker-compose。具体安装见:【docker】在服务器上安装 docker/docker-compose

3. 部署

3.1 基础配置

创建文件夹:

代码语言:javascript
复制
mkdir -p /root/data/docker_data/pdf
cd /root/data/docker_data/pdf

创建配置文件:

代码语言:javascript
复制
vim docker-compose.yml

英文输入法下按 i 进入编辑模式后,在这个配置文件的最后加入:

代码语言:javascript
复制
version: '3.3'

services:
  stirling-pdf:
    image: frooodle/s-pdf:latest
    restart: always
    container_name: stirling-pdf
    ports:
      - '18996:8080'
    volumes:
      - ./data/trainingData:/usr/share/tessdata
      - ./data/extraConfigs:/configs
      - ./data/customFiles:/customFiles/
      - ./data/logs:/logs/
    environment:
      - DOCKER_ENABLE_SECURITY=false
      - INSTALL_BOOK_AND_ADVANCED_HTML_OPS=false

esc 后,输入:wq 保存退出。

运行:

代码语言:javascript
复制
docker-compose up -d

3.2 配置OCR

官方在这篇文章里面介绍了如何添加其他语言的OCR功能(包括docker内和docker外)。

OCRmyPDF adds an OCR text layer to scanned PDF files, allowing them to be searched.

OCRmyPDF可以轻松地将图像处理和OCR应用于现有PDF。通过向PDF文件添加OCR文本层,你可以搜索或复制粘贴它们。

相关项目:

  • OCRmyPDF:Stirling-PDF使用OCRmyPDF进行文字识别,而OCRmyPDF又使用tesseract进行文本识别。
  • Tesseract OCR:支持不同语言的识别。此为高准确度识别包地址。

下载简体中文的训练识别包:

代码语言:javascript
复制
cd /root/data/docker_data/pdf/data/trainingData && wget https://github.com/tesseract-ocr/tessdata/blob/main/chi_sim.traineddata

修改权限:

代码语言:javascript
复制
sudo chown :1000 chi_sim.traineddata # 修改用户组为1000
sudo chmod 755 chi_sim.traineddata # 修改权限为-rwxr-xr-x

然后就可以在OCR识别里面看到中文简体的识别方式了:

4. 反向代理

你需要完成反向代理并开启 SSL,具体为你的域名 -> 服务器IP:18996,反代可以参考下面两篇文章:

【docker】反向代理神器 ——Nginx Proxy Manager 的安装

【docker】Nginx Proxy Manager 的使用

5. 使用

访问你的域名或者是IP:18996就可以进入编辑器(工具箱)了:

可以修改默认语言,这里直接就可以选简体中文

选择完毕,拥有中文界面~(不用管右下角那个蓝色的东西,那是夜梦上传图片用的小软件)

啥都能干,超级好用!

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-3-17 1,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 简介
  • 2. 准备
  • 3. 部署
    • 3.1 基础配置
      • 3.2 配置OCR
      • 4. 反向代理
      • 5. 使用
      相关产品与服务
      容器服务
      腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档