首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >在铬扩展中从pdf中提取文本

在铬扩展中从pdf中提取文本
EN

Stack Overflow用户
提问于 2014-09-18 04:44:12
回答 1查看 1.9K关注 0票数 1

我正在开发一个镀铬扩展。我想知道的是,弹出窗口可以显示pdf中的文本。我搜索了PDF.js,并在chrome扩展的backgroud.js中编写了以下代码进行测试:

代码语言:javascript
运行
AI代码解释
复制
‘use strict’;
var pdf = PDFJS.getDocument('http://www.pacer.gov/documents/pacermanual.pdf');


    var pdf = PDFJS.getDocument('pacermanual.pdf');
    pdf.then(function(pdf) {
     var maxPages = pdf.pdfInfo.numPages;
     for (var j = 1; j <= maxPages; j++) {
        var page = pdf.getPage(j);

        // the callback function - we create one per page
        var processPageText = function processPageText(pageIndex) {
          return function(pageData, content) {
            return function(text) {
              // bidiTexts has a property identifying whether this
              // text is left-to-right or right-to-left
              for (var i = 0; i < text.bidiTexts.length; i++) {
                str += text.bidiTexts[i].str;
              }

              if (pageData.pageInfo.pageIndex === 
                  maxPages - 1) {
                // later this will insert into an index
                console.log(str);
              }
            }
          }
        }(j);

        var processPage = function processPage(pageData) {
          var content = pageData.getTextContent();

          content.then(processPageText(pageData, content));
        }

        page.then(processPage);
     }
    });

清单如下:

代码语言:javascript
运行
AI代码解释
复制
{
    "name": "englishhelper",
    "version": "0.0.1",
    "description": "",
    "permissions": [
        "tabs", "http://*/*", "https://*/*"
    ],
    "background":{
       "script":["background.js","PDF.js"]
    },
    "browser_action":{
        "default_icon":"icon_png",
        "default_popup":"popup.html"
    },

    "manifest_version": 2
}

popup.html如下所示:

代码语言:javascript
运行
AI代码解释
复制
<!DOCTYPE html>
<html>
<head>
    <link rel="stylesheet" type="text/css" href="popup.css">
    <title></title>
</head>
<body>
<script src="background.js"></script>
<script src="PDF.js"></script>
</body>
</html>

控制台显示"PDFJS未定义“。"PDF.js“已包含在popup.html中。铬扩展是否有可能使用PDF.js?

EN

回答 1

Stack Overflow用户

发布于 2014-09-18 05:09:36

错误的加载顺序.(我们有一个规范的问题吗?)

清单中的background.scriptcontent_scripts[i].js键是一个数组,换句话说,是一个有序列表。

脚本是按照在那里定义的顺序加载和执行的;在使用它们之前,需要确保加载了库。

在您的情况下,您需要交换它们:

代码语言:javascript
运行
AI代码解释
复制
"background":{
   "script": ["PDF.js", "background.js"]
},

同样适用于<script>标记的顺序,例如在popup.html中。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25912961

复制
相关文章
Python批量提取PDF文件中的文本
首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。 import os import sys import time pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf')) for pdf1 in pdfs: pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_') os.rename(pdf1, pdf
Python小屋屋主
2018/04/16
6K0
Python | 从 PDF 中提取文本内容
本来打算推一篇如何使用 Python 从 PDF 中提取文本内容的文章,但是因为审核原因,公众号上发不出来。尝试排查了一个小时,还是没有搞定,索性就放弃挣扎了。我在这里放出来文章的第一部分,如果有兴趣,可以前往我的 Github 或者码云上查看全文。
PyStaData
2020/07/21
3.1K0
R语言提取PDF文件中的文本内容
综上步骤,我们便可以随便获取任意章节的任意内容。那么接下来就是对这些文字的应用,各位集思广益吧。
一粒沙
2019/07/31
9.8K1
在 Linux 上使用 gImageReader 从图像和 PDF 中提取文本
本上,OCR(光学字符识别)引擎可以让你从图片或文件(PDF)中扫描文本。默认情况下,它可以检测几种语言,还支持通过 Unicode 字符扫描。
用户8639654
2021/09/09
3.1K0
Python截图PDF,在指定区域并提取文本
试用后发现,pdfplumber提取对这种存在旋转文字的pdf文字提取效果非常糟糕,即使是正常顺序的位置,也出现了交错现象。
快学Python
2021/08/09
4.4K0
python提取pdf文本内容
Layout布局分析返回的PDF文档中的每个页面LTPage对象。这个对象和页内包含的子对象,形成一个树结构。如图所示: 
周小董
2019/03/25
3.5K0
python提取pdf文本内容
Python使用pdfminer3k提取PDF文件中的文本
编写Python程序,提取PDF文件中的文本内容,生成与原PDF文件同名的文本文件。
Python小屋屋主
2022/03/07
3.3K0
Python使用pdfminer3k提取PDF文件中的文本
ChemDataExtractor:从PDF、HTM、文本等中提取化学数据
ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。
DrugAI
2021/01/28
2.8K0
ChemDataExtractor:从PDF、HTM、文本等中提取化学数据
ChemDataExtractor是一种从科学文档中自动提取化学信息的工具。给它一篇期刊文章,它将从文本中提取化学名称、属性和光谱,以便将它们导入数据库或电子表格。
DrugAI
2021/01/28
1.7K0
Python提取PDF文件中的表格文本保存为Excel文件
提取PDF文件中的表格文字,保存为Excel文件,PDF中每个表格的文本写入Excel文件中的一个工作表。
Python小屋屋主
2021/01/24
3K0
使用pdfminer提取PDF文件中的文字
和word文档一样,pdf文件也拥有强大的排版功能。对于pdf的编程操作而言,分为读和写两大类,其中读是相对简单的一种,比如读出pdf文件中的文字,写是比较难的,除了文字,图片等基本元素,最重要的是排版的样式控制,而编程还无法满足样式的灵活性。
生信修炼手册
2020/12/11
5.4K0
PHP 提取富文本中的全部图片(提取文章中的全部图片)
未经允许不得转载:肥猫博客 » PHP 提取富文本中的全部图片(提取文章中的全部图片)
超级小可爱
2023/02/20
2.2K0
如何用Python批量提取PDF文本内容?
本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析。
王树义
2018/08/22
5.7K3
如何用Python批量提取PDF文本内容?
Python | PDF 提取文本的几种方法
常见的 PDF 文件可以分为两类:一种是文本转化而成(Text-Based),通常可以直接复制和粘贴;另一种是扫描文件而成(Scanned),比如影印书籍、插入图片制成的文件。依据此分类,将 Python 中处理 PDF 文件的第三方库可以简单归类:
PyStaData
2021/05/18
12.5K0
Python | PDF 提取文本的几种方法
在纯JaveScript中实现报表导出:从“PDF”到“JPG”
但总有一些实际应用场景,需要的不仅仅是将现有内容导出,还需要我们对一些内容的格式进行转化。
葡萄城控件
2021/11/08
2.1K0
Java 在PDF中添加表格
本文将介绍通过Java编程在PDF文档中添加表格的方法。添加表格时,可设置表格边框、单元格对齐方式、单元格背景色、单元格合并、插入图片、设置行高、列宽、字体、字号等。 通过maven导入 地址 代码如下:
崔笑颜
2020/06/08
4.7K0
python提取pdf文档中的表格数据、svg格式转换为pdf
https://www.analyticsvidhya.com/blog/2020/08/how-to-extract-tabular-data-from-pdf-document-using-camelot-in-python/
用户7010445
2020/08/28
1.2K0
LyScript 从文本中读写ShellCode
LyScript 插件通过配合内存读写,可实现对特定位置的ShellCode代码的导出,或者将一段存储在文本中的ShellCode代码插入到程序堆中,此功能可用于快速将自己编写的ShellCode注入到目标进程中,以用于后续测试工作。
微软技术分享
2022/12/22
5650
LyScript 从文本中读写ShellCode
用 Python 提取 PDF 文本的简单方法
你好,我是征哥,一般情况下,Ctrl+C 是最简单的方法,当无法 Ctrl+C 时,我们借助于 Python,以下是具体步骤:
somenzz
2022/05/24
1.1K0
用 Python 提取 PDF 文本的简单方法
点击加载更多

相似问题

在Python中从pdf中提取文本

10

在Python中从PDF文件中提取文本

20

在C#中从PDF中提取文本

60

从a pdf /a提取文本

12

在python中从pdf文件对象中提取文本

11
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文