从PDF上的Google Vision API OCR获取线条和段落，而不是符号

文章/答案/技术大牛

发布

1回答

python、google-cloud-platform、google-cloud-vision

我正在尝试使用Google Cloud Vision API现在支持的PDF/TIFF文档文本检测。使用他们的示例代码，我可以提交PDF并接收包含提取文本的JSON对象。我的问题是，保存到GCS的JSON文件只包含“符号”的边界框和文本，即每个单词中的每个字符。这使得JSON对象非常笨拙和难以使用。我希望能够获得“线”、“段落<

浏览 2提问于2018-08-23得票数 21

回答已采纳

1回答

如何限制对Google* Vision进行TEXT_DETECTION调用返回的文本？*

ios、google-cloud-platform、ocr、google-cloud-vision

我目前正在尝试使用Google Vision API for OCR。当我上传图像时，我看到返回给我的JSON有效负载相当大。我在响应中看到了两个主要的存储桶: 1) "textAnnotations“2) "fullTextAnnotation” 我只对"textAnnotations“返回的JSON感兴趣，我不关心fullTextAnnotation本质上，我只对单个单词和它们对应的边界框感兴趣，我不

浏览 9提问于2017-03-08得票数 1

4回答

工具包无法加载OCR模块

android、firebase、gradle、google-play-services、firebase-mlkit

我正在开发一个涉及ML工具包的android应用程序。我研究了一下如何设置Android来使用Firebase的。然后我开始使用文本识别API。令我惊讶的是，当我对它进行API调用时，成功列表被击中，出现了以下日志： I/DynamiteModule: Considering local module com.google.firebase.ml.vision.dynamite.barcodeI/native: barcode_detector_cl

浏览 40提问于2019-10-20得票数 13

回答已采纳

1回答

从Google* Vision API OCR获取线条和相应的坐标*

python、google-cloud-vision

我目前正在使用google OCR Api。我可以得到每个区块的坐标点。下面的链接描述了如何从段落中提取行。

浏览 17提问于2019-07-31得票数 1

1回答

google cloud vision api( source path- gcsSource)是否支持图像检测(图像包含文本)？

google-cloud-platform、google-api、google-cloud-vision、google-apis-explorer

我正在使用TEXT_DETECTION和DOCUMENT_TEXT_DETECTION的OCR来处理pdf文件(InputConfig file类型-“应用程序/pdf”)。当前图像在处理时被跳过。有没有可能的方法来处理PDF文件中的图像(有文本)？

浏览 3提问于2021-10-06得票数 1

2回答

Firebase ML工具包无法准确识别语言(英语或其他)

android、google-vision、firebase-mlkit、text-recognition、google-mlkit

我正在开发一个使用firebase ML Kit的android文本识别器应用程序。当我捕获文本图像时，问题是没有获得图像的实际结果，为什么？？我认为我的应用程序不能很好地识别语言。我使用过的依赖项 implementation 'com.google.firebase:firebase-ml-vision:20.0.0' 识别文本和处理文本代码 /**

浏览 23提问于2020-10-26得票数 0

回答已采纳

1回答

限制的响应

google-cloud-vision

目前使用从文档图像中提取文本。当前情况- API工作得很好，并返回大量数据，包括单词所在位置的边框。想要的结果--只查询从图像中提取的单词，而不是所有元数据，询问单词的边界框和顶点在哪里(这相当于响应的99%，结果大约为250 K，这在我只想要单词的情况下是巨大的浪费)。const vision = require('@goo

浏览 2提问于2018-10-30得票数 0

回答已采纳

1回答

从PDF中获取树的文件(最好使用Python)

python、pdf、tree、nlp、extraction

我想制作一系列文件，其中包含了这个PDF ()中的树。文件的名称将是左边对应的树号(t0、t1等)。我试图使用python提取相关信息和树，但我遇到了麻烦。具体来说，当我尝试将树提取为图像(使用)时，没有出现任何树(大概是因为树不是正确的格式)。然而，当我尝试将其全部提取为文本(如)时，树会丢失它们的所有格式(以及它们的一些信息，我认为)。我怎样才能从这个PDF中获取我想要的文件

浏览 0提问于2018-09-20得票数 0

回答已采纳

6回答

谷歌云视觉API* "PERMISSION_DENIED“*

google-cloud-platform、google-cloud-vision

但是“云视觉API”是为项目启用的。任何帮助都是非常感谢的。来自Google资源管理器的错误详细信息 "error": { "message": "Project hasnot activated the vision.googleapis.com API.Please enable the API</

浏览 4提问于2016-02-21得票数 6

回答已采纳

2回答

GCP OCR服务-将扫描的PDF或图像转换为可搜索的PDF

google-cloud-platform、ocr

是否可以使用Google平台的OCR将扫描的PDF转换为新的可搜索PDF文件？

浏览 2提问于2018-01-24得票数 0

3回答

google-cloud-vision如何读取pdf文件

google-cloud-vision

我正在使用谷歌OCR API，我正在阅读图像和PDF文件，我能够读取和处理图像文件，但是，对于PDF文件，根据，他们已经提到，我们需要将我们的文档存储到谷歌云服务。话虽如此，由于数据的保密性，我不能将我的数据存储到Google Cloud中，我想从我的本地系统上传我的PDF，以便从PDF文件中读取文本。是否可以从</em

浏览 7提问于2018-08-24得票数 6

1回答

使用Firebase ml视觉条码模型获得较少的条形码值

android、firebase、firebase-mlkit、google-mlkit

我在build.gradle中添加了下面的依赖项 implementation 'com.google.firebase:firebase-ml-visionimplementation 'com.google.firebase:firebase-ml-vision-barcode-model:16.1.1' <meta-dataandroid:name="

浏览 0提问于2020-07-16得票数 1

3回答

用于检测钞票的OCR

ocr、text-classification

我正计划创建一个移动应用程序，它可以扫描商店生成的账单/发票，并从中提取关键特征，如店铺名称、地址、购买的物品、账单价值等。我知道我可以使用OCR从账单中提取文本(扫描的账单或账单的照片)，但我如何提取所有这些详细信息？使用什么方法？

浏览 1提问于2017-05-22得票数 3

1回答

从Python中的Google中获取行和边界框坐标

python、google-vision

W (线的边框宽度) 用于OCR的Google不按行对内容进行分组，只按段落进行分组。API确实返回符号级别的数据，该符号级别指示符号后面是空格或行间隔。使用来表示断续类型，似乎‘EOL_ seems _SPACE’、‘连字符’、'LINE_BREAK‘的值表示换行符，而’未知的‘、’空格‘、'SURE_SPACE’的值应该表示空格。对

浏览 0提问于2021-11-08得票数 2

1回答

使用Google* Vision *Api结合信用卡扫描仪提取文本？

android、opencv、ocr、text-recognition

我正在尝试了解Android中的文本识别是如何工作的，所以我决定创建一个可以扫描信用卡并提取信息(卡号和到期日期)的应用程序。现在，我知道Google Vision Api可以让我的手机识别卡片上的印刷数字，但不能识别浮雕数字。不幸的</e

浏览 0提问于2018-09-22得票数 2

3回答

使用Google应用脚本将PDF中的文本转换为文本

javascript、pdf、google-apps-script、ocr、google-drive-api

我有一个脚本，从某些Gmail邮件中获取(可搜索的) PDF附件。现在我需要从这些pdf中提取一些字符串数据。有没有办法在启用OCR转换的情况下将其添加到Google Drive，并从该文件中提取文本？或者有没有更好的方法来解决我的问题？

浏览 2提问于2013-11-28得票数 2

3回答

使用firebase_ml_vision时出现颤动错误

flutter、firebase-mlkit

当我在pubspec.yaml文件中使用或添加firebase_ml_vision时，我的应用程序显示这些错误。我只是遵循了从集成firebase到将implementation 'com.google.android.gms:play-services-mlkit-text-recognition:16.1.1'添加到app/build.gradle的所有过程。Dependency failing: com.google.android.gms:play-

浏览 57提问于2020-11-03得票数 1

1回答

使用microsoft认知的OCR

microsoft-cognitive

如果我只想处理磁盘中的图像，以便从其中读取文本并将其存储在文本文件中，该怎么办？因为它既适用于json，也适用于数据。我想做的工作只与数据。如何做到这一点？/vision/v1/analyses'_maxNumRetries = 10 data: Used when pro

浏览 3提问于2016-07-03得票数 0

4回答

用于从雪松/护照C#中提取文本的OCR

c#、asp.net-mvc、image-processing、ocr

我正在寻找一个Tesseract或谷歌的Vision API类型的OCR，它可以帮助提取护照/身份证图像中的文本信息(这些信息可以从移动设备中获取，也可以被扫描)。因此，帧大小可能略有变化)。我已经浏览过几篇文章，并发现是首选的解决方案。问题 Tesser

浏览 6提问于2016-08-17得票数 6

2回答

Google vision API响应中的更新

google-cloud-vision、vision-api

在过去的几个月里，我一直在使用Google的vision API来检测文本。API返回特定图像/文档中出现的单词的“映射”。"map“(JSON)中的每个元素都有一个单词的文本及其在文档中的坐标早期的映射用于根据空格和特殊字符将文本分解为单词.现在看来，这篇文章似乎只是以空格为基础的文字。例如，一个文本为"Foo.

浏览 7提问于2020-05-17得票数 1

回答已采纳

点击加载更多