开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Google Vision文本检测返回太多不必要的数据

Google Cloud Vision API 的文本检测功能非常强大，但有时它可能会返回大量不必要的数据。如果你只需要特定的信息，可以通过以下几种方法来过滤和提取你需要的数据。

1. 使用适当的 API 请求

首先，确保你使用的是适当的 API 请求。Google Cloud Vision API 提供了多种功能，包括文本检测、面部检测、标签检测等。确保你只请求了文本检测功能。

from google.cloud import vision

client = vision.ImageAnnotatorClient()

# 加载图像
with open('path/to/your/image.jpg', 'rb') as image_file:
    content = image_file.read()

image = vision.Image(content=content)

# 进行文本检测
response = client.text_detection(image=image)

# 获取检测结果
texts = response.text_annotations

2. 过滤不必要的数据

text_annotations 返回的结果中，第一个元素通常是整个检测到的文本块，后续的元素是每个单独的文本片段。你可以根据需要过滤这些数据。

# 获取整个文本块
full_text = texts[0].description if texts else ""

# 获取单独的文本片段
individual_texts = [text.description for text in texts[1:]]

3. 提取特定信息

如果你只需要特定的信息，可以进一步处理和过滤数据。例如，如果你只需要提取特定格式的文本（如电子邮件地址、电话号码等），可以使用正则表达式来匹配和提取这些信息。

import re

# 示例：提取电子邮件地址
email_pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
emails = email_pattern.findall(full_text)

# 示例：提取电话号码
phone_pattern = re.compile(r'\b\d{3}[-.\s]??\d{3}[-.\s]??\d{4}\b')
phone_numbers = phone_pattern.findall(full_text)

print("Emails:", emails)
print("Phone Numbers:", phone_numbers)

4. 处理多语言文本

如果你的图像中包含多种语言的文本，你可以使用 locale 参数来指定检测的语言，从而减少不必要的数据。

image_context = vision.ImageContext(language_hints=['en'])

response = client.text_detection(image=image, image_context=image_context)
texts = response.text_annotations

5. 错误处理

确保你处理了可能的错误和异常情况，例如 API 请求失败或返回空结果。

if response.error.message:
    raise Exception(f'{response.error.message}')
else:
    texts = response.text_annotations
    if texts:
        full_text = texts[0].description
        individual_texts = [text.description for text in texts[1:]]
    else:
        full_text = ""
        individual_texts = []

完整示例

以下是一个完整的示例代码，展示了如何使用 Google Cloud Vision API 进行文本检测，并提取特定的信息。

from google.cloud import vision
import re

def detect_text(image_path):
    client = vision.ImageAnnotatorClient()

    with open(image_path, 'rb') as image_file:
        content = image_file.read()

    image = vision.Image(content=content)
    response = client.text_detection(image=image)

    if response.error.message:
        raise Exception(f'{response.error.message}')
    
    texts = response.text_annotations
    if not texts:
        return "", []

    full_text = texts[0].description
    individual_texts = [text.description for text in texts[1:]]

    return full_text, individual_texts

def extract_emails_and_phones(text):
    email_pattern = re.compile(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b')
    phone_pattern = re.compile(r'\b\d{3}[-.\s]??\d{3}[-.\s]??\d{4}\b')

    emails = email_pattern.findall(text)
    phone_numbers = phone_pattern.findall(text)

    return emails, phone_numbers

# 使用示例
image_path = 'path/to/your/image.jpg'
full_text, individual_texts = detect_text(image_path)
emails, phone_numbers = extract_emails_and_phones(full_text)

print("Full Text:", full_text)
print("Individual Texts:", individual_texts)
print("Emails:", emails)
print("Phone Numbers:", phone_numbers)

通过这些步骤，你可以有效地过滤和提取 Google Cloud Vision API 返回的文本检测结果中的特定信息。

相关搜索:android中的Google vision API食品标签检测 express.js返回不必要的数据 Google Cloud Vision API的Web检测功能中缺少描述？Google Cloud Vision能返回更多的标签语言吗？Google Mobile Vision API无法在纵向模式下检测文本 Google Vision API -我们是否可以在检测文档文本时包含自定义预处理逻辑，并将其直接用作Vision API Google Vision API文本检测按块显示单词 google vision OCR文本检测 Google Vision检测文本是否保留格式信息？使用.HEIC图像类型时，Google Vision OCR无法检测文本或图像

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

机器学习要警惕的4个常见陷阱！

在一场科技会议上，演讲者询问观众，“有谁为自己的业务开发过机器学习或者人工智能模型？”80%到90%的人都举起了手。

03

计算机视觉研究入门全指南

后台有很多人问如何入门CV，这篇是旧文重发，文章很长，翻译自某外文博客，时间有点久，但道理是相通的，非常值得一读！这篇文章从一个刚刚开始计算机视觉研究的初学者的角度，详细探讨了这个领域的文献、专家学者、研究组、博客，并重点说明了如何开始研究，如何选择方向，如何看论文、实现代码、调试代码等，并详细说明了研究计算机视觉应该如何学习机器学习等。是初入该领域的博士、学者、欲深入研究的开发者的非常值得详细考察和收藏的参考。顶级会议和期刊第一梯队顶级会议: CVPR, ECCV, ICCV, NIPS, IJCA

01

机器学习转化为生产力，警惕这4个常见陷阱！

在一场科技会议上，演讲者询问观众，“有谁为自己的业务开发过机器学习或者人工智能模型？”80%到90%的人都举起了手。

02

机器学习转化为生产力，警惕这4个常见陷阱！

在一场科技会议上，演讲者询问观众，“有谁为自己的业务开发过机器学习或者人工智能模型？”80%到90%的人都举起了手。

02

教程 | 如何使用谷歌Mobile Vision API 开发手机应用

机器之心原创参与：QW、李亚洲一年一度的谷歌开发者大会 Google I/O 昨日在山景城开幕，在首日的 Keynote 中，谷歌宣布了一系列新的硬件、应用、基础研究等。而在下午面向开发者的 se

05

图像识别的工作原理是什么？商业上如何使用它？

图像识别市场估计将从2016年的159.5亿美元增长到2021年的389.2亿美元，在2016年至2021年之间的复合年增长率为19.5％。机器学习和高带宽数据服务的使用进步推动了这项技术的发展。。电子商务，汽车，医疗保健和游戏等不同领域的公司正在迅速采用图像识别。根据MarketsandMarkets的报告，图像识别市场分为硬件，软件和服务。以智能手机和扫描仪为主的硬件部分可以在图像识别市场的增长中发挥巨大作用。越来越需要具有创新技术（例如监控摄像头和面部识别）的安全应用程序和产品。

02

用苹果官方 API 实现 iOS 备忘录的扫描文稿功能

iOS 系统自带的备忘录（Notes）在其质朴名称下提供了众多强大的功能，扫描文稿是我使用较多的功能之一。很早前便想在【健康笔记[2]】之中提供类似的功能，但考虑到其涉及的知识点较多，迟迟没有下手。最近在空闲时，将近年 WWDC 中涉及该功能实现的专题梳理、学习了一遍，受益匪浅。苹果官方早已为我们准备了所需的一切工具。本文将介绍如何通过 VisionKit、Vision、NaturalLanguage、CoreSpotlight 等系统框架实现与备忘录扫描文稿类似的功能。

01

回顾2022年计算机视觉领域最激动人心的进展

过去 12 个月见证了计算机视觉的快速发展，从支持基础设施到跨行业的新应用，再到研究中的算法突破，再到 AI 生成艺术的爆炸式增长。本篇文章带大家一起回顾一下这些令人兴奋的发展。本文将通过五个部分来回顾计算机视觉领域在2022年的发展。

02

教程 | 如何使用Swift在iOS 11中加入原生机器学习视觉模型

选自Hackernoon 机器之心编译作者：Alex Wulff 参与：侯韵楚、李泽南随着 WWDC 大会上 iOS 11 的发布，苹果终于推出了原生机器学习和机器视觉框架，由此开启了许多崭新的可能性，使所有性质的应用程序和游戏有望取得显著进步，本文作者 Alex Wulff 将对在 iOS 11 中加入机器学习模型的方法进行简要介绍。机器学习解决方案在云端的应用已有一些时日，但这类系统需要不间断的网络连接，并且很明显，它通常在 iOS 上会存在显著延迟，也为敏感数据带来了安全隐患。一些第三方的 Sw

05

2018 最新机器学习 API 推荐清单，快给 APP 加点智能

本篇基于 2017 年的推荐清单做了一些改进——去除了一些不再进行维护的 API，并且更新了一些新的 API。主要覆盖如下方向：

03

想快速部署机器学习项目？来看看几大主流机器学习服务平台对比吧

日前，kdnuggets 上的一篇文章对比了三大公司（谷歌、微软和亚马逊）提供的机器学习服务平台，对于想要启动机器学习项目的公司或是数据科学新手来说，提供了非常多的指导和建议。 AI 研习社将原文编译整理如下：对于大多数企业来说，机器学习就像航空航天一样遥远，听起来既昂贵，还需要高科技人才。从某种角度来说，如果你想建立一个像 Netflix 一样好的推荐系统，那确实是昂贵且困难。但是，目前这个复杂的领域有一个趋势：一切皆服务（everything-as-a-service)——无需太多投资，即可快速启动机

干货 | OCR技术在携程业务中的应用

袁秋龙，携程度假大数据AI研发团队实习生，专注于计算机视觉的研究和应用。在实习期间致力于度假图像智能化工作，OCR问题为实习期主要做的研究。

05

52 个有用的机器学习与预测API

随着基于人工智能与机器学习的应用如雨后春笋般不断涌现，我们也看到有很多提供类似功能的 API 悄悄登上了舞台。 API 是用于构建软件应用的程序、协议以及工具的组合；本文是对2015 中这个列表的修正与完善，移除了部分被废弃的 API ；我们也添加了最近由 IBM、Google、Microsoft 这些大厂发布的 API 。所有的 API 可以根据应用场景进行分组：人脸与图片识别。文本分析，自然语言处理以及情感分析。语言翻译。预测以及其他的机器学习算法。在具体的每个分组内，我们根据首字母顺序排序；

移动深度学习：人工智能的深水区

随着5G商用大规模落地，以及智能手机硬件性能越来越强、AIoT设备的快速普及，基于云-边缘-端算法和算力结构的移动端人工智能，仍有非常大的发展空间，亟待我们快速理解移动端深度学习的原理，掌握如何将其应用到实际业务中。

04

从人脸识别到机器翻译：52个有用的机器学习和预测API

人工智能正在成为新一代技术变革的基础技术，但从头开始为自己的应用和业务开发人工智能程序既成本高昂，且往往很难达到自己想要的性能表现，但好在我们有大量现成可用的 API 可以使用。开发者可以通过这些 API 将其它公司提供的智能识别、媒体监测和定向广告等人工智能服务集成到自己的产品中。机器之心在 2015 年底就曾经编译过一篇介绍当前优质人工智能和机器学习 API 的文章《技术 | 50 个常用的人工智能和机器学习 API》，列举了 50 个较为常用的涉及到机器学习、推理预测、文本分析及归类、人脸识别、语言翻译等多个方面的 API。一年多过去了，好用的 API 也出现了一些新旧更迭，现在是时候对这篇文章进行更新了。

01

计算机视觉史上激动人心的2022年

计算机视觉在过去的一年中迅速发展，涵盖了从基础设施支持到跨行业应用的全方位领域，同时也在算法研究和AI生成艺术领域取得了突破性进展。虽然无法在一篇博文中详细介绍所有这些发展，但有几个最大和最令人兴奋的进展值得回顾。

03

新手必备 | 史上最全的PyTorch学习资源汇总

（1）PyTorch英文版官方手册：https://pytorch.org/tutorials/。对于英文比较好的同学，非常推荐该PyTorch官方文档，一步步带你从入门到精通。该文档详细的介绍了从基础知识到如何使用PyTorch构建深层神经网络，以及PyTorch语法和一些高质量的案例。

03

59个 CVPR 2023 workshop 论文已出，CV前沿都在这里了！

一般认为workshop的文章没有主会的更有含金量，但其实也有一些workshop的影响力很大，如关注低层计算机视觉的NTIRE,。

02

超全的PyTorch学习资源汇总

收集整理了大量的PyTorch相关教程，从博客教程，视频教程到出版书籍，开源书籍甚至PyTorch相关论文，应有尽有，号称史上最全的PyTorch学习资源汇总，大家一起来看看吧。

01

50多种适合机器学习和预测应用的API，你的选择是？（2018年版本）

对于做工程项目和搞科研的人来说，有现成的模块或工具使用是一件多么美妙的事情啊，无需访问源码或理解内部工作机制的细节即可完成相应的任务。常用的方法是调用一些API，即一些预先定义的函数，目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力。本文总结对于机器学习行业者有用的50多个API，主要涉及的领域如下：

01

人脸识别、情感分析，开发者必备50个机器学习API|值得收藏

该清单按照字母排序，对 API 的概述是基于对应官网所提供的信息整合而成。要是大家发现该清单中错过了某些当前流行的 API，可以在评论中告知。

03

豪取4个SOTA，谷歌魔改Transformer登NeurIPS 2021！一层8个token比1024个还好用

目前，Transformer模型在计算机视觉任务（包括目标检测和视频分类等任务）中获得了最先进的结果。

03

从人脸识别到情感分析，50个机器学习实用API

API是一套用于构建应用软件程序的规范，协议和工具。在本文中，我们从2017年的清单中删除了停用的API，并利用新元素对其进行了更新。并且，所有的API被归类到以下几个领域：

01

三个自动化深度学习平台比较和盘点

数据科学领域有一部分研究者和开发者已经选择学习这些新技术了，但在预测性和规范性建模的问题类型和技术方面（我们 90% 的工作就是这些），学习深度学习技术却与我们的大部分工作方向背道而驰。

02

留住老照片，谷歌用AI帮纽约时报讲了500万个故事

纸质老照片记录下了当时的珍贵时刻，其中的历史意义也更为重要，但纸质极容易损坏，人类该怎么保存它们，让它们恒久远永流传？

04

业界 | 人人都能用的深度学习：当前三大自动化深度学习平台简介

选自DataScienceCentral 作者：William Vorhies 机器之心编译参与：Panda 深度学习技术往往比较复杂，从头开发的难度较大，但现在有一些公司提供了能帮助开发者轻松使用深度学习的自动化深度学习（ADL）平台，比如微软的 CustomVision.AI、谷歌的 Cloud AutoML、OneClick.AI。Data Science Central 近日发文对这三个平台进行了比较和盘点，机器之心对该文做了编译介绍。阻碍我们使用深度学习方法的原因有很多，其中最主要的是深度学习

04

业界 | 人人都能用的深度学习：当前三大自动化深度学习平台简介

数据科学领域有一部分研究者和开发者已经选择学习这些新技术了，但在预测性和规范性建模的问题类型和技术方面（我们 90% 的工作就是这些），学习深度学习技术却与我们的大部分工作方向背道而驰。

03

50种机器学习和预测应用的API，你想要的全都有

API 是一套用于构建软件程序的协议和工具。对于应用开发者而言，有了开放的 API，就可以直接调用其他公司做好的功能为我所用，这在很大程度上提升了工作效率。

02

50种机器学习和预测应用的API，你想要的全都有

翻译 | Drei 编辑 | Just 出品 | 人工智能头条（公众号ID：AI_Thinker） API 是一套用于构建软件程序的协议和工具。对于应用开发者而言，有了开放的 API，就可以直接调用其他公司做好的功能为我所用，这在很大程度上提升了工作效率。本文整理了以下四大类共 50 种 API，为你节省了寻找资源的时间。总之，你所需要的可能基本都在下面了：人脸和图像识别（Face Image Recognition）文本分析，自然语言处理，情感分析（Text Analysis, NLP, Senti

07

50种机器学习和人脸识别API，收藏好！以后开发不用找啦

API 是一套用于构建软件程序的协议和工具。对于应用开发者而言，有了开放的 API，就可以直接调用其他公司做好的功能为我所用，这在很大程度上提升了工作效率。本文整理了以下四大类共 50 种 API，为你节省了寻找资源的时间。

04

TensorFlow Lite，ML Kit 和 Flutter 移动深度学习：1~5

在本章中，我们将探索移动设备上深度学习的新兴途径。我们将简要讨论机器学习和深度学习的基本概念，并将介绍可用于将深度学习与 Android 和 iOS 集成的各种选项。本章还介绍了使用本机和基于云的学习方法进行深度学习项目的实现。

01

从人脸识别到情感分析，这有50个机器学习实用API！

大数据文摘作品编译：大茜、Shan LIU、云舟还在为找不到机器学习的API而烦恼吗？本篇文章将介绍一个包含50+关于人脸和图像识别，文本分析，NLP，情感分析，语言翻译，机器学习和预测的API列表，快快收藏吧~ API是一套用于构建应用软件程序的规范，协议和工具。在本文中，我们从2017年的清单中删除了停用的API，并利用新元素对其进行了更新。并且，所有的API被归类到以下几个领域：人脸和图像识别文本分析，NLP，情感分析语言翻译机器学习和预测在每组应用中，列表中的元素按字母顺序排列。相

05

一文告诉你，如何使用Python构建一个“谷歌搜索”系统 | 内附代码

在这篇文章中，我将向您展示如何使用Python构建自己的答案查找系统。基本上，这种自动化可以从图片中找到多项选择题的答案。

01

i-am-a-bot：一款基于多个大语言模型的验证码系统安全评估工具

i-am-a-bot是一款基于多个大语言模型的验证码安全评估工具，该工具提供了一个使用了多模态大语言模型（LLM）的自动化解决方案，可以帮助广大研究人员测试各种类型验证码机制的安全性。

01

推出 TF Lite Task Library 接口，简化 ML移动端开发流程

作者 | Lu Wang、Chen Cen、Arun Venkatesan 和 Khanh LeViet

04

基于谷歌街景多位数字识别技术：TensorFlow的车牌号识别系统

开发该项目的环境要求有Python,Tensorflow,OpenCV和NumPy等软件。源代码在这里。

03

Google AI 的“TokenLearner”可以提高 Vision Transformer 的效率和准确性

Transformer 模型始终如一地获得最先进的计算机视觉任务，包括对象检测和视频分类。在标准卷积方法中，图像是逐像素处理的。为了获得视觉标记，该方法使用手工设计的分割算法。它需要处理大量密集采样的补丁。

03

脑洞清奇的日本人，连搞 AI 都不正经

不得不承认，日本人的脑洞发达程度应该是世界第一，几乎整个主流社会都沉浸在各种二次元、恶搞整蛊、宅基腐的奇特氛围里。

01

移动深度学习：人工智能的深水区

在互联网行业中，在移动端应用深度学习技术的案例越来越多。从深度学习技术的运行端来看，主要可以分为下面两种。

02

NeurIPS 2022 | 开放域检测新方法DetCLIP，推理效率提升20倍

开放域检测问题，指的是在上游利用大量网上爬取的图文对或一定类别的人工标注数据进行训练，如何在下游场景上实现任意类别检测的问题。开放域检测方法在产业界的应用主要包括自动驾驶系统路面物体检测，云端全场景检测等。

01

AI 开发者看过来，主流移动端深度学习框架大盘点

AI 研习社按：移动设备相较于 PC ，携带便携，普及率高。近年来，随着移动设备的广泛普及与应用，在移动设备上使用深度学习技术的需求开始涌现。

03

揭秘 CVPR 2024 Workshop 新兴技术与研究方向（上）

本文汇总了 CVPR 2024 所有的研讨会（上篇），会议中既有延续举办的经典研讨会，也有首次举办的全新研讨会。大部分研讨会的论文征稿已经截止，部分接收的论文也已经公布，欢迎感兴趣的伙伴先行查阅。

01

资深程序员带你解锁Android性能优化五大误区和两大疑点！（附333页性能优化PDF宝典）

近年来，社区充斥着关于 Android 性能优化的各种误区，本文本着误区终结者的精神，使用具体的性能检测工具，结合真实案例仔细分析这些情况，并对比它们的测试结果，也会聚焦 Android 开发者平时在编码过程的实际场景，用实际数据告诉你在实际编码之前请，一定要进行必要的性能检测。

02

小白系列（2）| 图像识别中的Vision Transformers

2022 年，Vision Transformers（ViT）已经成为了卷积神经网络（CNN）的最具有竞争力替代品。虽然卷积神经网络目前在计算机视觉中处于领先地位，被广泛用于不同的图像识别任务。但是ViT 模型在计算效率和准确性方面比当前的 SOTA算法（CNN）高出了近 4 倍。

03

ECCV 2024 Workshop | 一文了解多元化议题、前沿技术与全球研究动向

欧洲计算机视觉会议（ECCV）是由欧洲计算机视觉协会（ECVA）主办的双年度顶级计算机视觉和机器学习研究会议。该会议汇集了这一领域的科学和工业界的专业人士。每两年举办一次，今年的会议定于 9 月 29日（星期日）至 10 月 4 日（星期五）在米兰 MiCo 举行。

01

苹果新推出的CoreML怎么用？有哪些bug？这里有一份教程

安妮编译自 Hackernoon 量子位出品 | 公众号 QbitAI 昨天，年仅18岁的iOS app开发者Alex Wulff在Hackrnoon上发布了一篇教程，手把手教你如何将苹果在WWDC上发布的众多API应用到你的电脑上。量子位全文编译如下： △ Alex Wulff iOS 11真的来了。苹果在iOS 11里引入了本地机器学习和机器视觉框架，承诺这将促进app和游戏的一大飞跃性进步，也解锁了一大堆可能性。目前机器学习解决方案已经可以在云端实现了。但这些系统不仅需要持续连网，经常在

07

使用图神经网络优化信息提取的流程概述

在这篇文章中，我们将介绍票据数字化的问题，即从纸制收据（如医疗发票、门票等）中以标签的形式提取必要和重要的信息。这些类型的模型在现实生活中非常有用，可以帮助用户，为了更好地理解数据，我们日常工作的很大一部分仍然是处理纸制收据（扫描件）。在自然语言处理领域，这项任务称为序列标记，因为我们以某种形式的预定义类标记每个输入实体，例如杂货店购物的正常收据，标签可以是 TOTAL_KEY、SUBTOTAL_KEY、COMPANY_NAME、COMPANY_ADDRESS、DATE、下图描述了这些工作的一般流程，将在接下来的部分中一一描述。

02

PaLI-3：5B参数视觉语言模型，1/10体量达到SOTA！谷歌发布

最近，堪称改变游戏规则的视觉语言模型（VLM）PaLI-3问世，引得大量科研人员关注。

02

1/10体量达到SOTA！谷歌发布5B参数视觉语言模型PaLI-3，更小更快却更强

最近，堪称改变游戏规则的视觉语言模型（VLM）PaLI-3问世，引得大量科研人员关注。

06

All Things ViTs：在视觉中理解和解释注意力

地址：https://github.com/all-things-vits/code-samples

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭