当AI系统变得越来越益复杂,它的可解释性通常会变得越来越差。不过业内已经涌现了不少研究成果来挑战这个难题,比如Facebook的研究人员推出了Captum库,该库可以解释基于深度学习框架PyTorch的神经网络是如何做决定的,同类型的研究还有IBM的AI Explainability 360工具包和Microsoft的InterpretML。为了使AI的决策更加透明,来自Google和Stanford的团队最近开发了一种新的机器学习模型:Automated Concept-based Explanation(ACE),该模型可以自动提取用来预测模型且“对人类有意义”的视觉概念。
Google的ACE模型能够区分出影响图像分类器决策的不同特征。
研究人员在近日发布的论文中对这项工作进行了详细的说明。他们认为,当前大多数机器学习解释方法为了评估不同特征(例如像素、超像素、词向量)对目标模型的重要性,会对各个特征做一些修改。这种方法并不完善,即使输入出现非常微小的变化,它也很容易受到攻击。
相比之下,ACE在提取概念并确定每个概念的重要性之前,通过将经过训练的分类器和同一分类中的一组图像作为输入来识别更高级别的概念。具体来说,ACE将具不同分辨率的图像进行分割,从而捕获不同的纹理、物体部分和物体,然后再将相似的分割片段分组,作为同一概念的示例,最终返回对决策最重要的概念。
对于三种不同的ImageNet分类,ACE的输出结果。
为了测试ACE的鲁棒性,该团队使用Google的Inception-V3图像分类器模型在ImageNet数据集上进行训练,并从数据集的1,000个类别中选择了100个类别的子集来应用ACE。
测试结果表明,被ACE模型标记为重要的概念倾向于遵循人类的直觉,例如,对于警车的图像分类器来说,执法徽标比地面上的沥青更重要。但是,情况并非总是如此。在另一个例子里,对于预测篮球图像的分类器来说,最重要的概念是球员的球衣而不是篮球本身;而当对旋转木马做分类的时候,木马上的灯光比座位和竖杆更可能影响分类的结果。
当然,目前ACE还远远不够完美,它难以有效地提取异常复杂或困难的概念。但是研究人员认为,这一研究提出了模型学习关联性的新方法,可能会让机器学习的使用变得更加安全。
“我们通过人类实验验证了这个方法的意义和一致性,并进一步验证了它确实对于模型预测有重要意义。[我们的]方法能够自动将输入的特征分组为高级概念;这些概念作为连续的示例出现,对于正确预测图像中存在的物体非常重要。”研究人员表示。
领取专属 10元无门槛券
私享最新 技术干货