训练集文字图像,文本标注-
提供了与单词的轴向包围框相对应的~4468个切出的单词图像,并提供了单个文本文件,其中包含每个单词图像内包围形状的相对坐标。在一个单一的文本文件中提供的真实值。...但是对于训练识别模型,我使用了数据的增广,从合成的文本数据中提取了近15万幅文本图像。
在合成数据中,我们有文本图像,而在图像中写入的文本就是图像的名称,因此我们可以从图像的名称中提取图像名称。...如果我们的批大小是32,那么输入形状将是(32,512,512,3),输出形状将是(32,512,512,6)。...在我的例子中,我将所有图像的大小调整为(15,64,3)。我对所有与图像对应的文本进行了编码,并在Keras预处理库的帮助下依次进行了转换。...因此,在编码之后,我们的输出将是(1,15)的形状,这15从哪里来,我将所有编码的文本填充为15个长度。
如果批大小为32,则输入形状为(32,15,64,3),输出形状为(32,1,15)。