开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >带轮廓的文本区域检测后图像中的文本提取

问带轮廓的文本区域检测后图像中的文本提取
EN

Stack Overflow用户

提问于 2018-02-03 11:57:43

回答 1查看 7K关注 0票数 6

我想在python中使用机器学习为图像构建一个OCR。我已经对图像进行了预处理，将其转换为灰度，应用了otsu阈值。然后，我使用轮廓线找到文本区域，并在其上绘制矩形框。但是，在此之后如何提取检测到的文本呢？我不想使用pytesseract。我想使用knn或SVM或CNN进行预测，但我面临的主要问题是如何使用轮廓从图像中获取检测到的文本。

Image=cv2.imread('DL.png')
I=Image.copy()
i=Image.copy()
G_Image=cv2.cvtColor(Image,cv2.COLOR_BGR2GRAY)

#Otsu Thresholding
blur = cv2.GaussianBlur(G_Image,(1,1),0)
ret,th = cv2.threshold(blur,0,255,cv2.THRESH_BINARY_INV+cv2.THRESH_OTSU)
image, contours, hierarchy = cv2.findContours(th,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)
#img = cv2.drawContours(Image, contours, -1, (0,255,0), 3)

for contour in contours:
        # get rectangle bounding contour
        [x, y, w, h] = cv2.boundingRect(contour)

        if h>20:
            continue

        # draw rectangle around contour on original image
        cv2.rectangle(I, (x, y), (x + w, y + h), (255, 0, 255), 0)

上面是我写的代码。This is the output image after contour rectangles are formed on detected text

现在，我如何只使用这些检测到的区域，并将它们发送到我的机器学习算法(KNN，SVM或CNN)，以便从图像中获取文本。

image-processing

machine-learning

computer-vision

DNS解析特惠

DNS解析提供智能解析、流量调度、安全防护等服务

EN

回答 1

Stack Overflow用户

发布于 2018-02-03 12:46:08

要裁剪文本区域，可以使用numpy切片(因为图像实际上是一个numpy数组)：

letter = Iy:y+h，x:x+w

在您的循环中，可以为每个字母创建一个新的numpy数组(裁剪后的图像)。将它们的大小调整为28x28，您就拥有了流行的MNIST示例的正确形状。

对于进一步的想法，我可以推荐下面的git-repo，它为手写字母创建了一个ML模型：EMNIST

如何处理不正确/太粗粒度的文本检测，比如DEPARTMENT中的"DE“或"RT”，这将是很有趣的。Andrew NG在他的机器学习Coursera课程中建议使用ML模型来检测字母之间的间隔并按这些间隔进行拆分。

票数 6

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48597099

复制

相关文章

11.22 访问日志不记录静态文件

访问日志不记录指定类型的文件目录概要网站大多元素为静态文件，如图片、css、js等，这些元素可以不用记录把虚拟主机配置文件改成如下： <VirtualHost *:80> DocumentRoot "/data/wwwroot/www.123.com" ServerName www.123.com ServerAlias 123.com SetEnvIf Request_URI ".*\.gif$" img SetEnvIf Request_URI ".*\.j

运维小白

2018/02/06

1.1K0

11.22 访问日志不记录静态文件

Apache访问日志+不记录静态文件

Apache访问日志 : 访问日志：顾名思义就是当有人访问咱们的站点，就会被记录些信息！其实这个还是蛮重要，尤其是站点受到攻击，直接命令的日志可以让我们迅速找到攻击者IP的规律！根据咱们之前的配置，访问日志如下： <VirtualHost *:80> DocumentRoot "/data/wwwroot/test3.com" ServerName www.test3.com ServerAlias www.haha.com #<Directory /data/wwwroot

老七Linux

2018/05/09

1.8K0

docker exec和docker attach

容器镜像服务

Docker是一种流行的容器化技术，它可以轻松地在一个容器中封装应用程序和它们的依赖项，以便在不同的环境中运行。Docker提供了许多命令行工具来管理Docker容器，其中包括docker exec和docker attach命令，这些命令用于与正在运行的Docker容器交互。

玖叁叁

2023/04/26

7370

docker exec 与 docker attach 区别

容器镜像服务 bash bash 指令容器 ssh

不论是开发者是运维人员，都经常有需要进入容器的诉求。目前看，主要的方法不外乎以下几种： 1. 使用ssh登陆进容器 2. 使用nsenter、nsinit等第三方工具 3. 使用Docker本身提供的工具

拓荒者

2019/03/11

3.5K0

Nginx访问日志，Nginx日志切割，静态文件不记录日志和过期时间

ide nginx javascript bash

其中的combined_realip是日志的名称，这个名称可以自定义，但是你定义了什么名称，后面你操作日志的时候也要使用这个名称。就像你给一个人起名叫李四，你就得用李四这个名字去叫他干活。剩下的字符串含义在上面的图片已经介绍了，就不赘述了。

端碗吹水

2020/09/23

5.4K0

Nginx访问日志，Nginx日志切割，静态文件不记录日志和过期时间

docker attach 和 exec 的区别

一个好习惯是使用 run 启动容器，用 exec 运行容器，用 Ctrl+P+Q 退出容器。

看、未来

2022/05/17

1.5K0

Nginx访问日志，Nginx日志切割，静态文件不记录日志和过期时间

Nginx访问日志： vim /usr/local/nginx/conf/nginx.conf //搜索log_format = 配置文件里面可以查找到日志格式定义访问日志定义日志是需要在

叶瑾

2018/06/14

1.2K0

12.12 静态文件不记录日志和过期时间

静态文件不记录日志和过期时间目录概要配置如下 location ~ .*\.(gif|jpg|jpeg|png|bmp|swf)$ { expires 7d; access_log off; } location ~ .*\.(js|css)$ { expires 12h; access_log off; } 静态文件不记录日志和过期时间在配置文件中添加 location

运维小白

2018/02/06

1.1K0

Nginx日志过滤使用ngx_log_if不记录特定日志

nginx git github c++html

ngx_log_if是Nginx的一个第三方模块。它在Github上的描述是这样介绍的：ngx_log_if是一个独立的模块,允许您控制不要写的访问日志,类似于Apache的"CustomLog env = XXX"

星哥玩云

2022/07/01

1.3K0

访问日志不记录静态文件，访问日志切割，静态元素过期时间

使用浏览器打开一个网站时，我们可以按F12打开控制台，在Network中可以看到许多在访问时下载的静态文件，这些对静态文件的请求都会记录到访问日志里面的：

端碗吹水

2020/09/23

1.3K0

访问日志不记录静态文件，访问日志切割，静态元素过期时间

Nginx访问日志+日志切割+静态文件不记录和过期时间设置

一、 Nginx访问日志 1.1 打开配置文件： vim /usr/local/nginx/conf/vhost/../nginx.conf 找到如下，是定义日志格式： log_format combined_realip '$remote_addr $http_x_forwarded_for [$time_local]' ' $host "$request_uri" $status' ' "$http_referer" "$http_user_agent"'; combined_real

老七Linux

2018/05/09

1.1K0

访问日志不记录静态文件，访问日志切割，静态元素过期时间

访问日志不记录静态文件：配置文件：（红色img后缀的拷贝到服务器里面） <VirtualHost *:80> DocumentRoot "/data/wwwroot/www.123.com

叶瑾

2018/06/14

9810

docker exec 进入容器报错 is not running

容器镜像服务 exec

Error response from daemon: Container 1d7dd0a4a999bb6346c58b0eed286573e8139cca1d2854c543f713c2fea220c7 is not running 分析： Docker容器后台运行,就必须有一个前台进程。主线程结束，容器会退出。所以就加上了 dit 参数，再次运行即可。 docker ps -a # 查看正在运行的镜像 docker rm -

eisc

2021/05/10

10.2K0

debug error 配置日志

日志级别：debug<info<warn<error application.yml配置日志 logging: file: target/app.log level: ROOT: WARN cn.devmar: TRACE import org.apache.commons.logging.Log; import org.apache.commons.logging.LogFactory; public class SampleClass{ private static

华创信息技术

2019/11/08

7970

API 网关 api 缓存腾讯云测试服务

访问应用服务器的请求都需要拥有一定权限，如果说每访问一个服务都需要验证一次权限，这个对效率是很大的影响。可以把权限认证放到 API 网关来进行。目前比较常见的做法是，用户通过登录服务获取 Token，把它存放到客户端，在每次请求的时候把这个 Token 放入请求头，一起发送给服务器。API 网关要做的事情就是解析这个 Token，知道访问者是谁（鉴定），他能做什么/访问什么（权限）。说白了就是看访问者能够访问哪些 URL，这里根据权限/角色定义一个访问列表。如果要实现多个系统的 OSS（Single Sign On 单点登录），API 网关需要和 CAS（Central Authentication Service 中心鉴权服务）做连接，来确定请求者的身份和权限。

用户1880875

2021/09/07

1.2K0

docker exec执行多个命令详解原

容器镜像服务 git bash ssh bash 指令

docker exec命令能够在运行着的容器中执行命令。docker exec命令的使用格式：

拓荒者

2019/03/11

6.5K0

docker 创建容器,端口映射(docker exec 进入容器)

容器 java https 网络安全容器镜像服务

今天用docker的swarm搭建了一个集群，在启动主节点的swarm的时候出错了，报的错误是：

全栈程序员站长

2022/07/31

1.1K0

MongoDB日志记录

mac os mongodb 数据库 sql 云数据库 MongoDB

为了在发生故障时提供持久性，MongoDB使用预写日志记录到磁盘journal文件中。

MongoDB中文社区

2020/11/11

2.8K0

Python记录日志的方法

python 日志服务

日志不管对于开发或者运维都是一项非常重要的东西，它可以用来排错，解决故障，统计分析等。

py3study

2020/01/07

2K0

mysql日志记录

云数据库 SQL Server 数据库 sql

log-bin = /path/mysql-bin #其记录日志文件名为mysql-bin.index,mysql-bin.000001(注:重启或者单个文件超出限制会+1)

93年的老男孩

2019/12/18

4.8K0

相似问题

调整R中levelplot函数中轴标签的字体大小

30

海运中轴标签的字体大小

11

热图调整

11

在热图中调整热图大小和调整热图。2

23

如何调整热图的轴？

124

活动推荐

图片生成与编辑，新用户19.9元起！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例