Google Vision文本检测返回太多不必要的数据

Google Cloud Vision API 的文本检测功能非常强大，但有时它可能会返回大量不必要的数据。如果你只需要特定的信息，可以通过以下几种方法来过滤和提取你需要的数据。

1. 使用适当的 API 请求

首先，确保你使用的是适当的 API 请求。Google Cloud Vision API 提供了多种功能，包括文本检测、面部检测、标签检测等。确保你只请求了文本检测功能。

from google.cloud import vision

client = vision.ImageAnnotatorClient()

# 加载图像
with open('path/to/your/image.jpg', 'rb') as image_file:
    content = image_file.read()

image = vision.Image(content=content)

# 进行文本检测
response = client.text_detection(image=image)

# 获取检测结果
texts = response.text_annotations

2. 过滤不必要的数据

text_annotations 返回的结果中，第一个元素通常是整个检测到的文本块，后续的元素是每个单独的文本片段。你可以根据需要过滤这些数据。

# 获取整个文本块
full_text = texts[0].description if texts else ""

# 获取单独的文本片段
individual_texts = [text.description for text in texts[1:]]

3. 提取特定信息

如果你只需要特定的信息，可以进一步处理和过滤数据。例如，如果你只需要提取特定格式的文本（如电子邮件地址、电话号码等），可以使用正则表达式来匹配和提取这些信息。

import re

# 示例：提取电子邮件地址
email_pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
emails = email_pattern.findall(full_text)

# 示例：提取电话号码
phone_pattern = re.compile(r'\b\d{3}[-.\s]??\d{3}[-.\s]??\d{4}\b')
phone_numbers = phone_pattern.findall(full_text)

print("Emails:", emails)
print("Phone Numbers:", phone_numbers)

4. 处理多语言文本

如果你的图像中包含多种语言的文本，你可以使用 locale 参数来指定检测的语言，从而减少不必要的数据。

image_context = vision.ImageContext(language_hints=['en'])

response = client.text_detection(image=image, image_context=image_context)
texts = response.text_annotations

5. 错误处理

确保你处理了可能的错误和异常情况，例如 API 请求失败或返回空结果。

if response.error.message:
    raise Exception(f'{response.error.message}')
else:
    texts = response.text_annotations
    if texts:
        full_text = texts[0].description
        individual_texts = [text.description for text in texts[1:]]
    else:
        full_text = ""
        individual_texts = []

完整示例

以下是一个完整的示例代码，展示了如何使用 Google Cloud Vision API 进行文本检测，并提取特定的信息。

from google.cloud import vision
import re

def detect_text(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)
    response = client.text_detection(image=image)

    if response.error.message:
        raise Exception(f'{response.error.message}')
    
    texts = response.text_annotations
    if not texts:
        return "", []

    full_text = texts[0].description
    individual_texts = [text.description for text in texts[1:]]

    return full_text, individual_texts

def extract_emails_and_phones(text):
    email_pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
    phone_pattern = re.compile(r'\b\d{3}[-.\s]??\d{3}[-.\s]??\d{4}\b')

    emails = email_pattern.findall(text)
    phone_numbers = phone_pattern.findall(text)

    return emails, phone_numbers

# 使用示例
image_path = 'path/to/your/image.jpg'
full_text, individual_texts = detect_text(image_path)
emails, phone_numbers = extract_emails_and_phones(full_text)

print("Full Text:", full_text)
print("Individual Texts:", individual_texts)
print("Emails:", emails)
print("Phone Numbers:", phone_numbers)

通过这些步骤，你可以有效地过滤和提取 Google Cloud Vision API 返回的文本检测结果中的特定信息。

Google Vision文本检测返回太多不必要的数据

、、

当使用Google Vision在菜单上运行文本检测时，他们的API返回的响应太大，返回了太多我不需要的数据。我只想要菜单中的文本，而不是响应中的所有坐标。在我读过的任何文档中，我都找不到任何关于缩小响应范围的内容。有人知道如何指定在响应中返回哪些字段吗？以下是我的请求： P

浏览 30提问于2019-02-01得票数 1

回答已采纳

1回答

在Java中如何在Google Vision API的标签检测中返回标签的像素坐标(或位置)？

、、、

我可以使用Vision API在图像上运行标签检测。但是，我想知道检测到该标签的位置的坐标。例如，如果在图像中的某处检测到一个圆，如何在Vision API中返回该圆的中心？以下是我在椭圆的本地图像上运行标签检测时返回的内容。返回的内容不包括检测到的对象的x

浏览 3提问于2019-12-11得票数 2

2回答

在numpy矩阵上调用Google云视觉API

、、、、

我使用Google文本检测API对图像执行OCR。我发现当我使用opencv对图像进行预处理时，我的OCR结果要好得多。我的问题是--我怎么能把我记忆中的图像上的Google云视觉API称为Numpy数组呢？Google的官方文档只显示vision api，该api接受磁盘中的图像作为输入。我想避免不必要的磁盘写入。

浏览 0提问于2018-05-18得票数 5

回答已采纳

2回答

如何有效地处理Google客户端Lib响应？

、、、、

我是Google Vision客户端Lib的新手<?phpfunction object_to_array($object> 我所需要

浏览 0提问于2018-08-25得票数 1

2回答

对从Google Vision API提取为完整单词的文本进行分组

、、

我正在尝试通过Google Vision API重现“文档文本检测”示例UI上载程序的输出。但是，当我需要将单词组合在一起时，我从得到的输出只提供单个字符作为输出。我并不是在寻找全文提取，因为我的.jpg文件在视觉上的结构不符合image.detect_text()函数的要求。Google的示例代码： """

浏览 0提问于2017-06-26得票数 3

2回答

来自Google cloud vision API OCR的逐行数据

、、、

我已经扫描了银行对帐单的PDF(基于图像)。Google vision API能够非常准确地检测文本，但它返回文本块，我需要逐行文本(银行交易)。你知道该怎么做吗？

浏览 2提问于2018-06-04得票数 2

2回答

使用谷歌的移动视觉api仅检测数字？

我想知道如何过滤以仅检测数字(整数)？例如: 1,2，....,10，目前接口检测到所有的文本格式。

浏览 2提问于2016-11-07得票数 5

1回答

使用Google Cloud Vision查找图像中特定类型的每个对象

、

我想使用Google Vision和Nodejs来检测大型照片中的每个车牌，这样我就可以模糊它们，使它们变得不可读，以保护隐私。);问题:这并不能返回图像中的所有对象。它只返回几个。因此，如果我过滤“车牌”，我不会找到图片中的每一个车牌。我尝试过像这样使用文本检测： const client = new Vision</em

浏览 5提问于2021-10-12得票数 0

1回答

为什么EntityAnnotation类的getScore()接口总是返回零？

、、、

我正在使用google vision api进行图像的文本检测，它以JSON格式给出响应。因此此响应属于com.google.cloud.vision.v1.EntityAnnotation.From EntityAnnotation对象，我正在尝试使用EntityAnnotation的getScore但每次它返回0，我期望的是某个浮点值，而不只是0。有没有人遇到过类似的问题？要理解谷歌视觉文本<e

浏览 12提问于2019-06-24得票数 0

4回答

云视觉API - PDF OCR

我刚刚测试了，如果存在的话，可以在图像中读取文本。java -cp target/text-1.0-SNAPSHOT-jar-with-dependencies.jar com.google.cloud.vision.samples.text.TextApp/data/text/ 在文本目录中，我有jpg格式的文件。然后

浏览 5提问于2016-04-19得票数 10

回答已采纳

1回答

如何使用Google的Vision* API将PDF (不可搜索的)转换为可搜索的PDF？*

、、、

据我所见，Google的Vision API允许您在PDF上执行OCR，但它只返回JSON格式的检测到的文本。我需要的是一个可搜索(OCR的) PDF文件作为回报。这个是可能的吗？

浏览 4提问于2020-07-26得票数 3

回答已采纳

1回答

对象本地化-可识别对象数量

、、

我使用下面的python代码来使用检测车牌。'image': {'source': {'image_uri': uri}}, {'max_results': 1000, 'type_': vision.Feature.Type.TEXT_DETECTION}, {'max_results': 1000, 'type_': vi

浏览 3提问于2021-12-06得票数 0

1回答

Google Vision object_localization是否有可能搜索特定的Google Grpah对象？

、

我正在尝试使用Google的机器视觉API来搜索Google Graph对象的特定匹配项。这是API的一部分吗？我在文档里找不到任何东西。谢谢!"@id"："kg:/m/06_fw“

浏览 0提问于2020-02-02得票数 0

1回答

Google Vision API文本检测按块显示单词

、、

有没有办法按块对Google的文档文本检测API的文本响应进行分组？如果有提供的解决方案，我可能在文档中忽略了这一点。我目前正在使用node.js从用户提供的图像中获取文本。下面是我的代码：const client = new v

浏览 5提问于2019-07-17得票数 0

回答已采纳

2回答

解析来自Google* Cloud Vision API Python客户端的响应*

、

我正在使用Python Client for Google Cloud Vision API，代码与文档中的代码基本相同>>>'features': [{'type': vision.enums.Feature.Type.FACE_DETECTOIN}],问题是响应没有字段“注解”(因为它是文档)，但基于文档的</e

浏览 4提问于2017-08-01得票数 3

1回答

如何使用神经网络检测和识别文档上的信息？

、

我面临以下问题：我扫描了一些文档，其中包括我想要检测的部分数据和一些我们不感兴趣的其他数据。文档可能如下所示： ? 现在，我只想知道一个人的名字和姓氏以及他的地址。所有其他信息都不重要。因此，YOLO网络应该使用如图所示的边界框来本地化此信息： ? 提取信息后，需要对其进行识别。所以，我认为这可能是一种类似于车牌识别的方法，首先定位车牌，然后识别车牌，对吗？我认为这种方法与发票处理的一些方法非常相似。或者有一种完全不同<e

浏览 12提问于2020-09-11得票数 0

回答已采纳

2回答

谷歌视觉重音字符集NodeJs

、、、

我正在尝试将Google Vision服务与NodeJs结合使用。但是，当我请求图像的文本检测时，它只给出英文字母表字符(没有重音的字符)，这对我来说是不够的。如何获取UTF-32字符？例如:真实文本"öğrenci“，但服务返回"ogrenci”

浏览 22提问于2016-08-10得票数 0

1回答

Google Vision API可以检测图像中人脸的轮廓吗？

、

我可以使用Google Vision API来实现我的目标吗？我测试了Google Vision API来检测一些图像中的面部，它只返回面部周围的边界多边形(矩形区域)、地标和面部表情。它不能检测出人脸周围的轮廓坐标。如何使用Vision API做到这一点？如果Vision API不能做到这一点，那么我应该使用什么库？

浏览 0提问于2018-11-13得票数 0

1回答

在google-vision文本检测api中哪里可以使用语言提示？

、、、

所以我知道google-vision api支持多种语言的文本检测。通过使用下面的代码，我可以从图像中检测英语语言。但是根据google的说法，我可以使用参数language hints来检测其他语言。那么，在下面的代码中，我到底应该把这个参数放在哪里呢？from google.cloud import vision cli

浏览 8提问于2019-03-27得票数 6

回答已采纳

1回答

Google Cloud Vision API -它可以离线运行吗？

、、

我正在开发一个项目，使用OCR来检测医疗报告中的文本。医疗报告包含敏感数据，需要在我们的系统中离线执行OCR，而不是发送到google服务器在云中执行OCR。这样就可以使用Google Cloud Vision API了吗？

浏览 46提问于2020-08-08得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Google Vision文本检测返回太多不必要的数据

1. 使用适当的 API 请求

2. 过滤不必要的数据

3. 提取特定信息

4. 处理多语言文本

5. 错误处理

完整示例

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐