要从Google Vision API OCR中获取文本行及其相应的坐标,您需要进行几个步骤
pip install google-cloud-vision
from google.cloud import vision
import io
# 设置您的Google Cloud凭据环境变量
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = 'path/to/your/credentials.json'
client = vision.ImageAnnotatorClient()
# 读取图像文件
with io.open('path/to/your/image.jpg', 'rb') as image_file:
content = image_file.read()
image = vision.Image(content=content)
# 调用OCR API
response = client.text_detection(image=image)
texts = response.text_annotations
# 输出文本行及其坐标
for text in texts:
print(f"Text: {text.description}")
vertices = (['({},{})'.format(vertex.x, vertex.y) for vertex in text.bounding_poly.vertices])
print(f"Coordinates: {','.join(vertices)}\n")
# 处理错误
if response.error.message:
raise Exception(f"{response.error.message}")
替换代码中的path/to/your/image.jpg
和path/to/your/credentials.json
为实际的图片路径和凭据文件路径。
这个脚本会输出每个检测到的文本行及其边界多边形的坐标。请注意,这个例子仅适用于Python,并使用了Google Cloud Vision客户端库。如果您使用的是其他编程语言,请查阅官方文档以获取相应的客户端库和示例代码。
领取专属 10元无门槛券
手把手带您无忧上云