大多数现代对象检测算法依赖于神经网络,并为每个对象输出边界框和置信度(或者更准确地说,对于所考虑的每个可能的对象类的置信度,其中最高的被认为是真实的对象置信度并定义该对象的预测类)。除了给出“对象性”的相对可能性(置信度为0.9的预测边界框比置信度为0.1的预测边界框更有可能包含对象)之外,这些预测是否具有统计意义?例如,我们是否应该能够说,预测置信度为0.1表示在此置信度下大约10%的预测实际上是对象?有没有另一个有统计学意义的定义?
我理解,这充其量是一个松散的统计意义,因为神经网络将使用损失函数进行训练,这些损失函数将此统计分布编码为损失,然后网络将仅近似此统计分布。因此,分布还将取决于用于训练神经网络的分类部分的损失函数。尽管存在这些问题,但置信度度量是否存在或在某种程度上存在内在含义,或者它纯粹是一个相对量?
发布于 2021-11-06 12:00:10
这在文献中被称为“校准”。当分布也是置信度的良好度量时,神经网络得到了很好的校准。
例如,参见论文Your classifier is secretly an energy based model and you should treat it like one和关于校准的第5.2节。
https://stackoverflow.com/questions/66106388
复制