YOLO(You Only Look Once)的工作方式与传统的对象检测方法有所不同。传统的对象检测方法通常会首先在图像中选择候选区域,然后对这些区域进行分类。而YOLO则是将对象检测视为一个回归问题,直接在单个网络中预测边界框和类别概率。
以下是YOLO的工作流程:
YOLO首先将输入图像划分为SxS的网格。
每个网格预测B个边界框和对应的类别概率。每个边界框包含5个元素:x, y, w, h和置信度。x, y是边界框的中心坐标,w和h是边界框的宽度和高度,置信度是网格中包含对象的概率和预测边界框准确度的乘积。同时,每个网格还预测C个条件类别概率(C是类别的数量)。
在预测结束后,YOLO会使用非极大值抑制(Non-Maximum Suppression,NMS)来过滤和选择最终的边界框。NMS首先将所有置信度低于某个阈值的边界框去除,然后从剩下的边界框中选择置信度最高的边界框,将与它有高度重叠并且置信度较低的边界框去除。重复这个过程,直到所有的边界框都被检查过。