可解释AI(XAI)指的是一系列旨在推理和理解模型行为、提供洞见以纠正模型错误/偏见,并最终使用户接受并信任模型预测的技术。...事后解释可以进一步分为模型解释 [13, 45]、结果解释 [70, 84] 和模型检查 [18, 23]。模型解释涉及使用在全局级别上可解释和透明的模型来近似黑盒模型的整体逻辑。...在谷歌学术上搜索“可解释AI”关键词会得到超过200,000个结果,这给在单一出版物内全面阐述XAI的所有方面带来了巨大挑战。...基于不同的方法论途径,特征归因包含以下研究分支:基于扰动的方法 [16, 17, 95]、基于替代的方法 [25, 70]、基于分解的方法 [6, 8, 59, 60] 以及基于梯度的方法 [79, 81...然而,在本文中,我们专注于基于梯度的方法,出于以下考虑。
梯度的直觉。梯度量化了输入特征中的无穷小变化如何影响模型预测。因此,我们可以利用梯度及其变体有效地分析特征修改对模型预测结果的影响。