为了让大家更好的理解检测在整个识图算法架构中的作用, 我们这里将微信识图的整体框架展示在图 1.2 中, 大家对细节感兴趣的话可以, 可以浏览我们组之前的文章《微信扫一扫识物技术解析》[1]....比如图 1.1 中百度识万物的检测器就因为将耳机+键盘+鼠标垫一起检测出来, 而导致后续将其误识别为办公桌....其中(1)和(3)是不可或缺的, 我们发现缺少任何一个模块, 都无法让模型有效的进行收敛....对于离线入库模式来说, 视觉中心的定义是根据商家售卖商品的品牌来确定的, 比如图中是售卖百褶裙, 那么百褶裙就是需要检测的框, 而上衣/鞋子就是需要去除的干扰框, 如何将文本标题和检测框进行匹配起来,...后续我们将重点在如何快速拓展新垂类检测, 如何进一步加速模型并提升精度, 如何进一步端到端学习选框策略等问题上进行发力.
五. 参考文献
[1] 微信扫一扫识物技术解析
[2] R.