文章/答案/技术大牛

发布

社区首页 >问答首页 >在铬扩展中从pdf中提取文本

问在铬扩展中从pdf中提取文本
EN

Stack Overflow用户

提问于 2014-09-18 04:44:12

回答 1查看 1.9K关注 0票数 1

我正在开发一个镀铬扩展。我想知道的是，弹出窗口可以显示pdf中的文本。我搜索了PDF.js，并在chrome扩展的backgroud.js中编写了以下代码进行测试：

‘use strict’;
var pdf = PDFJS.getDocument('http://www.pacer.gov/documents/pacermanual.pdf');


    var pdf = PDFJS.getDocument('pacermanual.pdf');
    pdf.then(function(pdf) {
     var maxPages = pdf.pdfInfo.numPages;
     for (var j = 1; j <= maxPages; j++) {
        var page = pdf.getPage(j);

        // the callback function - we create one per page
        var processPageText = function processPageText(pageIndex) {
          return function(pageData, content) {
            return function(text) {
              // bidiTexts has a property identifying whether this
              // text is left-to-right or right-to-left
              for (var i = 0; i < text.bidiTexts.length; i++) {
                str += text.bidiTexts[i].str;
              }

              if (pageData.pageInfo.pageIndex === 
                  maxPages - 1) {
                // later this will insert into an index
                console.log(str);
              }
            }
          }
        }(j);

        var processPage = function processPage(pageData) {
          var content = pageData.getTextContent();

          content.then(processPageText(pageData, content));
        }

        page.then(processPage);
     }
    });

清单如下：

{
    "name": "englishhelper",
    "version": "0.0.1",
    "description": "",
    "permissions": [
        "tabs", "http://*/*", "https://*/*"
    ],
    "background":{
       "script":["background.js","PDF.js"]
    },
    "browser_action":{
        "default_icon":"icon_png",
        "default_popup":"popup.html"
    },

    "manifest_version": 2
}

popup.html如下所示：

<!DOCTYPE html>
<html>
<head>
    <link rel="stylesheet" type="text/css" href="popup.css">
    <title></title>
</head>
<body>
<script src="background.js"></script>
<script src="PDF.js"></script>
</body>
</html>

控制台显示"PDFJS未定义“。"PDF.js“已包含在popup.html中。铬扩展是否有可能使用PDF.js？

javascript

pdf

google-chrome-extension

回答 1

Stack Overflow用户

发布于 2014-09-18 05:09:36

错误的加载顺序.(我们有一个规范的问题吗？)

清单中的background.script或content_scripts[i].js键是一个数组，换句话说，是一个有序列表。

脚本是按照在那里定义的顺序加载和执行的；在使用它们之前，需要确保加载了库。

在您的情况下，您需要交换它们：

"background":{
   "script": ["PDF.js", "background.js"]
},

同样适用于<script>标记的顺序，例如在popup.html中。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/25912961

复制

Python批量提取PDF文件中的文本

python

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。 import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_') os.rename(pdf1, pdf

Python小屋屋主

2018/04/16

6K0

Python | 从 PDF 中提取文本内容

python git github https

本来打算推一篇如何使用 Python 从 PDF 中提取文本内容的文章，但是因为审核原因，公众号上发不出来。尝试排查了一个小时，还是没有搞定，索性就放弃挣扎了。我在这里放出来文章的第一部分，如果有兴趣，可以前往我的 Github 或者码云上查看全文。

PyStaData

2020/07/21

3.1K0

R语言提取PDF文件中的文本内容

json bash bash 指令 c#

综上步骤，我们便可以随便获取任意章节的任意内容。那么接下来就是对这些文字的应用，各位集思广益吧。

一粒沙

2019/07/31

9.8K1

在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本

文字识别 linux ubuntu

本上，OCR（光学字符识别）引擎可以让你从图片或文件（PDF）中扫描文本。默认情况下，它可以检测几种语言，还支持通过 Unicode 字符扫描。

用户8639654

2021/09/09

3.1K0

Python截图PDF，在指定区域并提取文本

https 网络安全腾讯云测试服务 github git

试用后发现，pdfplumber提取对这种存在旋转文字的pdf文字提取效果非常糟糕，即使是正常顺序的位置，也出现了交错现象。

快学Python

2021/08/09

4.4K0

python提取pdf文本内容

python

Layout布局分析返回的PDF文档中的每个页面LTPage对象。这个对象和页内包含的子对象，形成一个树结构。如图所示：

周小董

2019/03/25

3.5K0

Python使用pdfminer3k提取PDF文件中的文本

python pdf 程序工作

编写Python程序，提取PDF文件中的文本内容，生成与原PDF文件同名的文本文件。

Python小屋屋主

2022/03/07

3.3K0

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

NLP 服务开源

ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章，它将从文本中提取化学名称、属性和光谱，以便将它们导入数据库或电子表格。

DrugAI

2021/01/28

2.8K0

ChemDataExtractor:从PDF、HTM、文本等中提取化学数据

python NLP 服务开源

DrugAI

2021/01/28

1.7K0

Python提取PDF文件中的表格文本保存为Excel文件

excel pdf word 表格程序

提取PDF文件中的表格文字，保存为Excel文件，PDF中每个表格的文本写入Excel文件中的一个工作表。

Python小屋屋主

2021/01/24

3K0

使用pdfminer提取PDF文件中的文字

数据分析

和word文档一样，pdf文件也拥有强大的排版功能。对于pdf的编程操作而言，分为读和写两大类，其中读是相对简单的一种，比如读出pdf文件中的文字，写是比较难的，除了文字，图片等基本元素，最重要的是排版的样式控制，而编程还无法满足样式的灵活性。

生信修炼手册

2020/12/11

5.4K0

PHP 提取富文本中的全部图片（提取文章中的全部图片）

php 博客

未经允许不得转载：肥猫博客 » PHP 提取富文本中的全部图片（提取文章中的全部图片）

超级小可爱

2023/02/20

2.2K0

如何用Python批量提取PDF文本内容？

python 存储数据分析微信 NLP 服务

本文为你展示，如何用Python把许多PDF文件的文本内容批量提取出来，并且整理存储到数据框中，以便于后续的数据分析。

王树义

2018/08/22

5.7K3

Python | PDF 提取文本的几种方法

python 文字识别 linux

常见的 PDF 文件可以分为两类：一种是文本转化而成（Text-Based），通常可以直接复制和粘贴；另一种是扫描文件而成（Scanned），比如影印书籍、插入图片制成的文件。依据此分类，将 Python 中处理 PDF 文件的第三方库可以简单归类：

PyStaData

2021/05/18

12.5K0

在纯JaveScript中实现报表导出：从“PDF”到“JPG”

php canvas 渲染网站 html

但总有一些实际应用场景，需要的不仅仅是将现有内容导出，还需要我们对一些内容的格式进行转化。

葡萄城控件

2021/11/08

2.1K0

Java 在PDF中添加表格

java maven pdf 编程表格

本文将介绍通过Java编程在PDF文档中添加表格的方法。添加表格时，可设置表格边框、单元格对齐方式、单元格背景色、单元格合并、插入图片、设置行高、列宽、字体、字号等。通过maven导入地址代码如下：

崔笑颜

2020/06/08

4.7K0

python提取pdf文档中的表格数据、svg格式转换为pdf

python https 网络安全 svg

https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf-document-using-camelot-in-python/

用户7010445

2020/08/28

1.2K0

LyScript 从文本中读写ShellCode

网络安全

LyScript 插件通过配合内存读写，可实现对特定位置的ShellCode代码的导出，或者将一段存储在文本中的ShellCode代码插入到程序堆中，此功能可用于快速将自己编写的ShellCode注入到目标进程中，以用于后续测试工作。

微软技术分享

2022/12/22

5650

用 Python 提取 PDF 文本的简单方法

文字识别

你好，我是征哥，一般情况下，Ctrl+C 是最简单的方法，当无法 Ctrl+C 时，我们借助于 Python，以下是具体步骤：

somenzz

2022/05/24

1.1K0

点击加载更多

相似问题

在Python中从pdf中提取文本

在Python中从PDF文件中提取文本

在C#中从PDF中提取文本

从a pdf /a提取文本

在python中从pdf文件对象中提取文本

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

问在铬扩展中从pdf中提取文本
EN

回答 1

Stack Overflow用户

在Python中从pdf中提取文本

在Python中从PDF文件中提取文本

在C#中从PDF中提取文本

从a pdf /a提取文本

在python中从pdf文件对象中提取文本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在铬扩展中从pdf中提取文本EN

回答 1

Stack Overflow用户

在Python中从pdf中提取文本

在Python中从PDF文件中提取文本

在C#中从PDF中提取文本

从a pdf /a提取文本

在python中从pdf文件对象中提取文本

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在铬扩展中从pdf中提取文本
EN