前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >实战 | 红酒瓶标签曲面展平+文字识别(附源码)

实战 | 红酒瓶标签曲面展平+文字识别(附源码)

作者头像
Color Space
发布于 2022-09-26 02:38:21
发布于 2022-09-26 02:38:21
1.5K00
代码可运行
举报
运行总次数:0
代码可运行

导读

本文将详细介绍如何将红酒瓶上的曲面标签展平并做文字识别。(公众号:OpenCV与AI深度学习

背景介绍 本文的目标是让计算机从一张简单的照片中读取一瓶红酒上标签文字的内容。因为酒瓶标签上的文本在圆柱体上是扭曲的,我们无法直接提取并识别字符,所以一般都会将曲面标签展平之后再做识别,以提升准确率。

第一部分:传统方法提取标签 以上图为例,先尝试使用传统图像处理方法提取标签轮廓。 【1】转为灰度图 + 自适应二值化

【2】高斯滤波平滑 + 固定阈值二值化

【3】轮廓提取排序,查找最大面积轮廓

【4】批量测试,检测算法稳定性

批量测试后发现在其他图片上并不能很好的提取标签轮廓,所以我们需要考虑其他方法来解决。

第二部分:使用深度学习图像分割网络(U-Net)提取标签 【1】准备数据集(图像 + mask标签)

【2】训练U-Net网络模型 U-Net网络代码(TensorFlow实现):

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制

def build_model(self, Config):
        
  inputs = tf.keras.layers.Input((256,256,3))
  s = tf.keras.layers.Lambda(lambda x: x / 255)(inputs)

  #Contraction path
  c1 = tf.keras.layers.Conv2D(16, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(s)
  c1 = tf.keras.layers.Dropout(Config['contraction_1_dropout'])(c1)
  c1 = tf.keras.layers.Conv2D(16, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c1)
  p1 = tf.keras.layers.MaxPooling2D((2, 2))(c1)

  c2 = tf.keras.layers.Conv2D(32, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(p1)
  c2 = tf.keras.layers.Dropout(Config['contraction_2_dropout'])(c2)
  c2 = tf.keras.layers.Conv2D(32, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c2)
  p2 = tf.keras.layers.MaxPooling2D((2, 2))(c2)

  c3 = tf.keras.layers.Conv2D(64, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(p2)
  c3 = tf.keras.layers.Dropout(Config['contraction_3_dropout'])(c3)
  c3 = tf.keras.layers.Conv2D(64, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c3)
  p3 = tf.keras.layers.MaxPooling2D((2, 2))(c3)

  c4 = tf.keras.layers.Conv2D(128, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(p3)
  c4 = tf.keras.layers.Dropout(Config['contraction_4_dropout'])(c4)
  c4 = tf.keras.layers.Conv2D(128, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c4)
  p4 = tf.keras.layers.MaxPooling2D(pool_size=(2, 2))(c4)

  c5 = tf.keras.layers.Conv2D(256, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(p4)
  c5 = tf.keras.layers.Dropout(Config['contraction_5_dropout'])(c5)
  c5 = tf.keras.layers.Conv2D(256, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c5)

  #Expansive path 
  u6 = tf.keras.layers.Conv2DTranspose(128, (2, 2), strides=(2, 2), padding='same')(c5)
  u6 = tf.keras.layers.concatenate([u6, c4])
  c6 = tf.keras.layers.Conv2D(128, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(u6)
  c6 = tf.keras.layers.Dropout(Config['expansive_1_dropout'])(c6)
  c6 = tf.keras.layers.Conv2D(128, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c6)

  u7 = tf.keras.layers.Conv2DTranspose(64, (2, 2), strides=(2, 2), padding='same')(c6)
  u7 = tf.keras.layers.concatenate([u7, c3])
  c7 = tf.keras.layers.Conv2D(64, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(u7)
  c7 = tf.keras.layers.Dropout(Config['expansive_2_dropout'])(c7)
  c7 = tf.keras.layers.Conv2D(64, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c7)

  u8 = tf.keras.layers.Conv2DTranspose(32, (2, 2), strides=(2, 2), padding='same')(c7)
  u8 = tf.keras.layers.concatenate([u8, c2])
  c8 = tf.keras.layers.Conv2D(32, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(u8)
  c8 = tf.keras.layers.Dropout(Config['expansive_3_dropout'])(c8)
  c8 = tf.keras.layers.Conv2D(32, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c8)

  u9 = tf.keras.layers.Conv2DTranspose(16, (2, 2), strides=(2, 2), padding='same')(c8)
  u9 = tf.keras.layers.concatenate([u9, c1], axis=3)
  c9 = tf.keras.layers.Conv2D(16, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(u9)
  c9 = tf.keras.layers.Dropout(Config['expansive_4_dropout'])(c9)
  c9 = tf.keras.layers.Conv2D(16, (3, 3), activation='relu', kernel_initializer='he_normal', padding='same')(c9)

  outputs = tf.keras.layers.Conv2D(1, (1, 1), activation='sigmoid')(c9)

  model = tf.keras.Model(inputs=[inputs], outputs=[outputs])
  return model

【3】图像推理验证

个别因干扰而分割失败的情况(暂时忽略):

第三部分:曲面标签展平与文字识别 【1】根据分割结果提取6个特征点

调整图像大小、二值化、对齐U-Net预测: # mask is the U-net output image # src is the source image # self is the parent class labelVision mask = cv2.cvtColor(mask,cv2.COLOR_GRAY2RGB) mask=cv2.resize(mask,(src.shape[1],src.shape[0])) mask = np.round(mask) #binary transform r_src, r_mask = self.align_vertically(src, mask)

如下方法先找到对角线的 A、C、D 和 F 坐标点,并通过计算简单距离计算找到 B 坐标:

其中 XB 是 B 点的 X 坐标。我们现在可以选择与该 XB 位置对应的图像的列向量 (lambda):

我们在向量中从上到下迭代以找到第一个白色像素以减去 B 点的 Y 坐标。

E 点的逻辑是相同的:我们在 D 和 F 点的中间找到列向量,这次我们从下到上迭代,直到找到第一个白色像素。 要获取实现的详细代码,请查看文末代码中的getCylinderPoints方法。 【2】根据6个特征点做曲面展平 网格圆柱投影:

标签展平:

【3】OCR文字识别 原始图像 OCR结果:

展平图像 OCR结果:

虽然展平图像 OCR结果不一定完美,但相比原始图像OCR结果要好很多。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 OpenCV与AI深度学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
【哈工大版】Dynamic ReLU:Adaptively Parametric ReLU及Keras代码(调参记录15)
训练集上还没拟合得很好,测试集准确率已经低于训练集准确率大约2.5%了。这是同时存在欠拟合和过拟合呀!
用户7368967
2020/05/27
4450
【哈工大版】Dynamic ReLU:Adaptively Parametric ReLU及Keras代码(调参记录15)
医学图像分割模型U-Net介绍和Kaggle的Top1解决方案源码解析
计算机视觉是人工智能的一个领域,训练计算机解释和理解视觉世界。利用来自相机、视频和深度学习模型的数字图像,机器可以准确地识别和分类物体,然后对它们看到的东西做出反应。
deephub
2020/08/31
1.5K0
医学图像分割模型U-Net介绍和Kaggle的Top1解决方案源码解析
深度残差收缩网络:一种新的深度注意力机制算法(附代码)
本文简介了一种新的深度注意力算法,即深度残差收缩网络(Deep Residual Shrinkage Network)。从功能上讲,深度残差收缩网络是一种面向强噪声或者高度冗余数据的特征学习方法。本文首先回顾了相关基础知识,然后介绍了深度残差收缩网络的动机和具体实现,希望对大家有所帮助。
用户7107719
2020/03/21
7K0
深度残差收缩网络:一种新的深度注意力机制算法(附代码)
Alexnet论文解读及代码实现
ImageNet classification with deep revolutional Neural Networks(也就是经典的Alexnet网络)
墨明棋妙27
2022/08/24
6750
Alexnet论文解读及代码实现
[深度概念]·Keras实现DenseNet
先来一张图,便于理解网络结构,推荐的dense_block一般是3。两个dense_block之间的就是过渡层。每个dense_block内部都使用密集连接。
小宋是呢
2019/06/27
1.6K0
[深度概念]·Keras实现DenseNet
【连载19】GoogLeNet Inception V4/ResNet V1/V2-3.9
这三种结构在《Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning》一文中提出,论文的亮点
lujohn3li
2020/03/11
6430
【连载18】GoogLeNet Inception V3
GoogLeNet Inception V3在《Rethinking the Inception Architecture for Computer Vision》中提出(注意,在这篇论文中作者把该网络结构叫做v2版,我们以最终的v4版论文的划分为标准),该论文的亮点在于:
lujohn3li
2020/03/09
4590
【连载18】GoogLeNet Inception V3
深度残差网络+自适应参数化ReLU激活函数(调参记录15)
训练集上还没拟合得很好,测试集准确率已经低于训练集准确率大约2.5%了。这是同时存在欠拟合和过拟合呀!
用户6915903
2020/05/04
3320
深度残差网络+自适应参数化ReLU激活函数(调参记录15)
生成型对抗性网络介绍与实现原理
如何无中生有是AI领域研究的重点。原有神经网络大多是对已有问题的识别和研究,例如让神经网络学会识别图片中的动物是猫还是狗,随着研究的进一步深入,目前能够做到让网络不但能识别图片中的物体,还能让它学会如何创造图片中的物体,具备”创造性“让AI技术的应用价值大大提升。
望月从良
2020/02/26
3700
使用腾讯云 GPU 学习深度学习系列之五:文字的识别与定位
本文探讨了使用深度学习技术进行文本摘要的方法和系统。文章首先介绍了基于序列到序列(seq2seq)的文本摘要模型,然后详细阐述了使用该模型进行摘要的步骤。最后,文章探讨了该方法的优缺点以及可能的改进方向。
集智
2017/06/06
8.3K5
使用腾讯云 GPU 学习深度学习系列之五:文字的识别与定位
TensorFlow2.0 实战强化专栏(一):Chars74项目
字符识别是一种经典的模式识别问题,字符识别在现实生活中也有着非常广泛的应用,目前对于特定环境下的拉丁字符识别已经取得了很好的效果,但是对于一些复杂场景下的字符识别依然还有很多困难,例如通过手持设备拍摄以及自然场景中的图片等,Chars74K正是针对这些困难点搜集的数据集(http://www.ee.surrey.ac.uk/CVSSP/demos/chars74k/)
磐创AI
2020/03/04
2K1
深度残差网络+自适应参数化ReLU激活函数(调参记录18)Cifar10~94.28%
本文将残差模块的数量增加到27个。其实之前也这样做过,现在的区别在于,自适应参数化ReLU激活函数中第一个全连接层中的神经元个数设置成了特征通道数量的1/16。同样是在Cifar10数据集上进行测试。
用户6915903
2020/05/09
3650
深度残差网络+自适应参数化ReLU激活函数(调参记录18)Cifar10~94.28%
百度魅族深度学习大赛初赛冠军作品(图像识别.源码)
赛题以识别类似手写体的四则运算式为主题,参赛者需要在充满干扰信息的10万张图片中,设计算法识别图片上数学运算式并计算结果。决赛在初赛的基础上,引入分数和更加复杂的运算,同样以最终的识别率来评判算法。 本节会详细介绍我在进行四则混合运算识别竞赛初赛时的所有思路。 问题描述 本次竞赛目的是为了解决一个 OCR 问题,通俗地讲就是实现图像到文字的转换过程。 数据集 初赛数据集一共包含10万张180*60的图片和一个labels.txt的文本文件。每张图片包含一个数学运算式,运算式包含: 3个运算数:3个0到9的整
机器学习AI算法工程
2018/03/15
1.3K0
百度魅族深度学习大赛初赛冠军作品(图像识别.源码)
Lenet神经网络解读及其代码实现
  手写字体识别模型LeNet5诞生于1994年,是最早的卷积神经网络之一。LeNet5通过巧妙的设计,利用卷积、参数共享、池化等操作提取特征,避免了大量的计算成本,最后再使用全连接神经网络进行分类识别,这个网络也是最近大量神经网络架构的起点。虽然现在看来Lenet基本实际用处不大,而且架构现在基本也没人用了,但是可以作为神经网络架构的一个很好的入门基础。
墨明棋妙27
2022/08/24
3810
Lenet神经网络解读及其代码实现
一种基于图像分割实现焊件缺陷检测的方法 | 附源码
焊接缺陷是指焊接零件表面出现不规则、不连续的现象。焊接接头的缺陷可能会导致组件报废、维修成本高昂,在工作条件下的组件的性能显着下降,在极端情况下还会导致灾难性故障,并造成财产和生命损失。此外,由于焊接技术固有的弱点和金属特性,在焊接中总是存在某些缺陷。不可能获得完美的焊接,因此评估焊接质量非常重要。
AI算法与图像处理
2020/12/17
1.3K0
keras里ConvLSTM2D的实现
https://github.com/keras-team/keras/blob/master/keras/layers/convolutional_recurrent.py
1nsights
2022/02/23
1.5K0
【深度残差收缩网络】超简单Keras代码
从本质上讲,深度残差收缩网络属于卷积神经网络,是深度残差网络(deep residual network, ResNet)的一个变种。它的核心思想在于,在深度学习进行特征学习的过程中,剔除冗余信息是非常重要的;软阈值化是一种非常灵活的、删除冗余信息的方式。
用户6831054
2019/12/31
2.3K0
【深度残差收缩网络】超简单Keras代码
扩展之Tensorflow2.0 | 21 Keras的API详解(上)卷积、激活、初始化、正则
我们对Keras应该已经有了一个直观、宏观的认识了。现在,我们来系统的学习一下Keras的一些关于网络层的API,本文的主要内容是围绕卷积展开的,包含以下的内容:
机器学习炼丹术
2020/10/15
1.8K0
毕业设计之「测试实验及结果分析」(一)
在毕设系列推文的第二章中我们详细介绍了TensorFlow的一些基础知识(TensorFlow 2.0 概述);在第三章(毕业设计之「神经网络与深度学习概述」 (一)、毕业设计之「神经网络与深度学习概述」(二))中对神经网络与深度学习做了简单的概述(主要介绍本章节中完成两个项目所用的一些基础概念)包括激活函数、梯度下降、损失函数、softmax算法等;并且通过简单描述全连接神经网络的不足,详细介绍了卷积神经网络的相关概念。
石璞东
2020/07/29
8680
毕业设计之「测试实验及结果分析」(一)
教你如何使用GAN为口袋妖怪上色
在之前的Demo中,我们使用了条件GAN来生成了手写数字图像。那么除了生成数字图像以外我们还能用神经网络来干些什么呢?
矩池云
2020/03/13
7920
教你如何使用GAN为口袋妖怪上色
推荐阅读
相关推荐
【哈工大版】Dynamic ReLU:Adaptively Parametric ReLU及Keras代码(调参记录15)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验