如何使用像tika这样的java开源api从docx文件中获取嵌入的图片？

文章/答案/技术大牛

发布

1回答

java、apache-poi、apache-tika

使用Apache POI，使用XWPFRun(获取嵌入图片) .A Word文档也可以嵌入图片。它给了我图像，但不是嵌入的图像。任何实现这一目标的资源都会有所帮助。我正在寻找一个解决方案，可以从任何开源Java API。

浏览 85提问于2020-11-11得票数 0

1回答

通过Apache POI从表格的单元格读取图像数据

apache、apache-poi

我被困在一个地方，我需要立即帮助，下面是我的问题。 System.out.println("Target URI:"

浏览 1提问于2012-04-12得票数 0

回答已采纳

2回答

使用Apache Tika解析HTML问题

java、parsing、html-parsing、apache-tika

我正在抓取一个网页，抓取后，从该网页提取所有的链接，然后我尝试使用Apache Tika和BoilerPipe解析所有的网址，使用下面的代码，所以对于一些网址，它被解析得很好，但对于一些我得到了这样的错误这是HTMLParser.java中的第102行我还提供了HTMLParse代码。org.apache

浏览 1提问于2011-11-30得票数 0

回答已采纳

1回答

不能用Tika得到正确的键值对

java、apache、metadata、key-value、apache-tika

我试图从Office文档中获取元数据值，它显示的所有键值对都是这样的：我就是说不出这个问题。为什么它只显示内容类型？我感兴趣的是像标题这样的钥匙。import java.io.FileInputStream;import java.io.InputS

浏览 3提问于2015-01-27得票数 0

回答已采纳

4回答

使用Apache获取MimeType子类型

java、mime-types、detection、apache-tika

对于odt、ppt、pptx、xlsx等文档，我需要获取应用程序MediaType，而不是应用程序/zip或应用程序/x-tika-msoffice。"/>如何获取iana.org mime类型名称而不是父类型名称？/vnd.openxmlformats-officedocument.wordprocessingml.document", docs/docx/en.<

浏览 0提问于2011-08-21得票数 14

回答已采纳

11回答

从Word文档中提取文本而不使用COM/automation的最好方法？

python、ms-word

有没有一种合理的方法可以从Word文件中提取纯文本，而不依赖于COM自动化？(这是部署在非Windows平台上的web应用程序的一个功能-在这种情况下，这是没有商量余地的。)Antiword似乎是一个合理的选择，但它似乎可能会被放弃。 Python解决方案将是理想的，但似乎不可用。

浏览 1提问于2008-09-04得票数 25

回答已采纳

1回答

如何用Tika从docx中提取文本

java、parsing、docx、apache-tika

我试图从docx中提取文本: tika-app做得很好，但是当我尝试在代码中做同样的事情时，结果就什么都不是了，tika解析器说我docx文件的内容类型是"application/zip“。我应该使用递归方法(如)还是有其他方法？UPDATE:如果我将文件名添加到元数据中，现在将正确地检测到文件内容类型： InputStream is = n

浏览 3提问于2015-07-16得票数 0

3回答

如何使用Apache从MS word文档的文本框中获取文本？

ms-word、document、apache-poi

我想得到信息写在文本框中的MS word文档。我正在使用Apache解析word文档。我想要提取的东西text_box>some information in text bo

浏览 5提问于2011-03-28得票数 2

回答已采纳

1回答

JSoup-在标签之间获取文本如下所示

java、jsoup、apache-tika

场景：使用Apache Tika从DOCX文件中获取XHTML。我需要解析这个XHTML以获得特定标记之间的文本(例如div或p标记)。为此，我使用Jsoup在标记之间获取文本。但有了Jsoup，我得到了这样的信息：因此，标记空格是缺失的，但我需要得到文本的原样，也就是包括tag-spaces。<em

浏览 1提问于2016-05-19得票数 3

回答已采纳

5回答

在Java语言中使用Apache POI和iText从Word创建文档

java、ms-word、pdf-generation、itext、apache-poi

我正在尝试从*.doc文档生成一个PDF文档。到目前为止，多亏了stackoverflow，我已经成功地生成了它，但也存在一些问题。我下面的示例代码生成的pdf没有格式和图像，只生成文本。文档包含PDF中未包含的空格和图像。

浏览 3提问于2011-05-19得票数 6

1回答

TIKA服务器提取嵌入式资源

apache-tika、tika-server

我正在使用TIKA-app (v 1.23)进行一些测试，以便从输入文件中提取嵌入式资源，通过使用app在命令行中指定-z参数，这样做的效果很好。此参数启用嵌入式资源提取，并将资源写入工作目录。现在，我想使用基于TIKA-server的这个功能。但是，我在文档中还没有找到正确的方法，我想知道TIKA的服务器变体

浏览 4提问于2020-01-12得票数 0

4回答

我已经尝试了这些方法来查找文件的MIME类型...如果我使用来自Apache的TIKA API来获取MIME类型，那么它会以text/plain的形式给出它。但是我想要的结果是application/vnd.ms-outlook我还使用了MIME-Util.jar，如下所示…… MimeUtil2 mimeUtil = new MimeUtil2()= MimeUtil2.getMostS

浏览 170提问于2015-06-26得票数 22

回答已采纳

2回答

使用TIKA从嵌入到.docx文件中的图像中获取文本

nlp、apache-poi、apache-tika、text-extraction

我一直致力于文本提取器的工作，在.docx文件使用提卡。它是基本文本和表格和文本框中的文本的工作文件，但它不适用于图像。如何从图像中获取文本，tesseract和tika可以单独用于从图像中获取文本，但为此，我需要从文档中提取图像。我该怎么做呢？如果有人做过这样的事情，请多

浏览 4提问于2015-07-23得票数 0

1回答

如何使用apache-poi获取文件的全部内容？

java、ms-word、apache-poi、docx

我尝试使用help java api Apache POI读取文件.docx。我使用： String text = null; XWPFDocument= new XWPFWordExtractor(docx); we.close(); docx<

浏览 17提问于2016-09-16得票数 1

2回答

urllib3 -使用tika服务器从docx获取文本

python、python-3.x、urllib、apache-tika、urllib3

我使用python3、urllib3和tika-server-1.13从不同类型的文件中获取文本。，但当我试图解析docx文件中的文本时，它不起作用。我从服务器Http错误代码422: Unprocessable Entity返回curl -X PUT --data-b

浏览 0提问于2016-08-01得票数 0

回答已采纳

1回答

使用Tika提取包组件文件的元数据

metadata、apache-tika、text-extraction

我试图在命令行使用Tika提取包组件文件的元数据，但我似乎只能让它输出包含包文件的元数据。示例: test_file.zip包含两个文件: test1.doc和test2.doc。我试着运行这个：但这只输出了test_files.zip的Content-Length、Content-Type我还尝试运行以下代码： ja

浏览 2提问于2014-05-20得票数 0

3回答

Java通过读取前几个字节读取实际文件类型(法医)

java、computer-forensics

你好，我需要一种使用Java读取任何文件前四个字节的方法。为什么是前四个字节？因为它是实际文件类型的法医拇指打印(文件扩展名不可靠，因为它可以被伪造) 现在，以这种方式读取文件(下面是Java代码)将读取文件"content"，我认为它跳过了文件头信息.？我无法获得魔法号(前四个字节)，因此无法识别/确认给定样本的真实文件类型。

浏览 6提问于2015-04-30得票数 3

回答已采纳

2回答

：插入图像"infront the text“

java、ms-word、apache-poi、docx、xwpf

我在docx文件中有一个占位符映像，我想用新图像替换它。问题是-占位符图像有一个属性“在文本前面”，但新的图像没有。结果，对齐中断了。下面是我的代码片段和带有占位符的docx以及由此产生的docx。

浏览 16提问于2022-02-20得票数 0

2回答

如何在DOCX4J中保存word文档中的图像

java、docx、docx4j

我正在尝试遍历word文档并保存在word文档中找到的所有图像。rId5 image/png/word/media/image3.jpg rId5 image/jpeg WordprocessingMLPackage wordMLPackage = W

浏览 13提问于2014-10-28得票数 4

4回答

如何管理Word和HTML之间的文档？

html、ms-word

我已经写了一些文件在微软Word，我也需要在网站上显示为HTML。为此，我需要将这些文档的内容输入带有HTML标记的数据库中。例如，这就是我需要放在数据库中的内容：<p>This is the introduction paragraph for the document</pHTML结构中，如上面的示例所示。那么，如何保持离线和在线内容同步

浏览 3提问于2013-10-05得票数 0

回答已采纳

点击加载更多