首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >降低AI系统评估标注成本的新方法

降低AI系统评估标注成本的新方法

原创
作者头像
用户11764306
发布2025-10-25 13:01:35
发布2025-10-25 13:01:35
1250
举报

降低AI系统评估中的标注需求

商业机器学习系统需要在真实世界数据上进行训练,但世界在不断变化,已部署的机器学习系统需要定期重新评估,以确保其性能没有下降。

评估已部署的AI系统意味着需要手动标注系统已分类的数据,以确定这些分类是否准确。但标注工作劳动密集,因此需要尽量减少评估系统性能所需的样本数量。

许多商业机器学习系统实际上是二元分类器的集成;每个分类器对输入是否属于特定类别进行"投票",然后将投票结果汇总以产生最终决策。

在一篇提交至欧洲机器学习会议的论文中,我们展示了如何通过利用用于评估单个组件的样本集之间的重叠,来减少评估二元分类器集成所需的随机样本数量。

例如,假设一个集成有三个分类器,我们需要各10个样本来评估这三个分类器的性能。评估该集成需要40个样本——每个单独分类器10个,完整集成10个。如果40个样本中有10个是重复的,我们只需要30个标注。我们的论文基于这种直觉。

在使用真实数据的实验中,我们的方法将评估集成所需的样本数量减少了超过89%,同时保持了评估的准确性。

我们还使用模拟数据进行了实验,改变了单个分类器样本集之间的重叠程度。在这些实验中,平均节省了33%的样本。

最后,在论文中,我们证明了我们的抽样程序相对于随机抽样不会给结果样本集带来任何偏差。

共同基础

直观上,为集成的各个组件随机选择的样本不可避免地会包含一些重复项。大多数用于评估一个模型的有用样本也应该对评估其他模型有用。目标是仅添加足够多的额外样本来能够评估所有模型。

我们首先为整个集成选择一个样本集,我们称之为"父级";集成的单个模型相对地称为"子级"。在找到足够评估父级的样本集后,我们扩展它以包含第一个子级,然后重复该过程,直到样本集覆盖所有子级。

我们的通用方法适用于评估集成性能的任何标准,但在论文中,我们使用精确度(即分类器正确识别的真阳性百分比)作为运行示例。

在此图中,父级分类为阳性的输入集(右圆,AP)与子级分类为阳性的输入集(左圆,AC)相交。父级阳性集的随机样本(橙色曲线,SP)与AC之间的交集(橙色阴影区域)代表S+,即来自父级阳性集且被子级分类为阳性的样本。绿色阴影区域代表S-,来自被子级分类为阳性但父级未分类为阳性的输入集的样本。散布的x代表Sremain,被子级分类为阳性的输入的额外样本,需要提供足够样本以获得高度准确的精确度估计。

我们首先从父级判断属于目标类别的总输入集和子级判断为阳性的总输入集开始。这两个集合之间通常有相当大的重叠;例如,在由三个分类器组成的多数投票集成中,只要有两个组件(子级)将输入分类为阳性,集成(父级)就会将输入分类为阳性。

从父级集合中,我们选择足够多的随机样本来评估父级。然后我们找到该样本集与子级阳性分类总集之间的交集(上图中的S+)。这成为我们用于子级的基线样本集。

接下来,我们随机抽取被子级分类为阳性但父级未分类为阳性的输入样本(上图中的S-)。该样本大小与基线样本集大小之间的比率应与被子级(而非父级)标记为阳性的输入数量与两者都标记为阳性的输入数量之间的比率相同。

当我们将这些样本添加到基线样本集时,我们得到的组合样本集可能不够大以准确估计精确度。如果需要,我们从被子级分类为阳性的输入中选择更多样本。这些样本可能也被父级分类为阳性(上图中的Sremain)。

回想一下,我们首先从子级和父级一致的集合中选择样本,然后从子级和父级不一致的集合中选择样本。这意味着我们构建的样本集不是真正随机的,因此下一步是将组合集中的样本混合在一起。

重新洗牌或重新采样?

我们尝试了两种不同的混合方式。一种是我们简单地将组合集中的所有样本重新洗牌。另一种是我们从组合集中随机抽取样本并将它们添加到新的混合集中,直到混合集与组合集大小相同。在这两种方法中,最终结果是当我们从样本中挑选任何元素时,我们不会知道它是来自父级和子级一致的集合还是不一致的集合。

此图可视化了我们改变父级和子级判断之间重叠量时,我们的方法提供的平均样本节省。

在我们的实验中,我们发现当使用重新洗牌产生混合样本集和使用重新采样时,我们的算法结果之间存在轻微的权衡。由于重新采样在混合集中引入了一些冗余,它比重新洗牌需要更少的样本,从而增加了相对于随机抽样的样本大小节省。

然而,与此同时,它略微降低了精确度估计的准确性。使用重新洗牌时,我们的算法在三个测试数据集上平均略微优于随机抽样,而使用重新采样时,其准确性略低于随机抽样。

总体而言,我们开发的抽样程序减少了样本大小。当然,节省的量取决于父级和子级判断之间的重叠程度。重叠越大,样本节省越多。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 降低AI系统评估中的标注需求
  • 共同基础
  • 重新洗牌或重新采样?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档