每个单元格会预测 B 个边界框(bounding box)以及边界框的置信度(confidence score)。 ...所以,最后网络的输出维度为S×S×(B×5+C)
详细解释如下图:
将图片分为S×S个单元格(原文中S=7),之后的输出是以单元格为单位进行的:对于每一个单元格,前20个元素是类别概率值,然后2个元素是边界框置信度...对于边界框为什么把置信度 c 和 (x, y, w, h) 都分开排列,而不是按照 (x, y, w, h, c) 这样排列,其实纯粹是为了计算方便,因为实际上这30个元素都是对应一个单元格,其排列是可以任意的..._{[:,0:7*7*20]} \) 就是类别概率部分,而 \( P_{[:,7*7*20:7*7*(20+2)]} \) 是置信度部分,最后剩余部分\( P_{[:,7*7*(20+2):]}\)是边界框的预测结果...这样,提取每个部分是非常方便的,这会方面后面的训练及预测时的计算。
输出维度各个参数计算方式
1.