我想训练一个CNN,它可以实时地对大分辨率图像进行推理。CNN必须阅读由5位数字组成的手写数字。LeNet-5给了我一个很好的精度,但是通过一种简单的滑动窗口方法,我在FullHD图像上得到了4000个窗口(虽然有很大的进步),这还不够快。(CPU上的一个窗口为10 on >40 per每幅图像)
所以我研究了一些更有效的滑动窗口的方法,并遇到了Overfeat。它将整个图像转换为类维输出数组windowsX、windowsY和类.这里的好处是,不需要多次计算重叠区域。现在,我正试图在slim的帮助下训练