首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

金鸣识别数据集构建技术的大致步骤

之前我们介绍了一些OCR前期图片处理的技术,其实要将图片上的表格识别出来,前期的图片处理和OCR技术是远远不够的,我们还需要用到数据集构建技术,那么,它的实现大致步骤是怎样的呢?

1. 收集数据:收集包含表格的图像或PDF文件(图片型PDF)。我们会首先从公共数据集中获取,如ICDAR产生的和COCO-Text等,其次也会自行收集大量的不同类型的带表格的图片,包括有表格线和无表格线的。

2. 标注数据:对于每个图像或PDF文件,需要手动标注表格的位置和单元格的边界框,这个过程可能会比较繁琐,但为了获得更准确的识别率和更好的表格识别效果,这一步又是必不可少的。可以使用的标注工具有LabelImg、VGG Image Annotator等。

3. 数据清洗:对标注不准确或不完整的数据进行清洗,以确保数据集的质量,为后面的处理提供高质量的数据支撑。

4. 数据划分:将数据集分为训练集、验证集和测试集。通常采用80/10/10的比例。

5. 数据增强:我们对于训练集进行数据增强,会使用旋转、翻转、缩放等技术,以增加数据集的多样性和数量。

6. 数据格式转换:将数据集转换为模型所需的格式,如TFRecord、COCO等。

7. 数据集评估:使用评估指标,如准确率、召回率、F1值等,对模型进行评估。

以上是我们的构建数据集的大致步骤,由于数据集的质量对训练模型的性能有很大影响,因此我们每天都需要花费了大量时间和精力去不断地完善。

#excel技巧#

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230625A016OK00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券