可解释人工智能(XAI)方法被视作调试和信任统计与深度学习模型、解释其预测的重要工具。然而,对抗机器学习(AdvML)的最新进展揭示了最先进解释方法的局限性和脆弱性,使其安全性和可信度受到质疑。当应用于高风险决策和知识发现时,操纵、欺骗或漂白模型推理证据的可能性将产生严重后果。
本综述全面概述了针对机器学习模型解释及公平性指标的对抗攻击研究,建立了统一的符号体系和分类方法,为来自AdvML和XAI交叉研究领域的研究人员和实践者提供共同基础。探讨了如何防御攻击并设计鲁棒的解释方法,贡献了XAI现有安全漏洞清单,并勾勒出对抗性XAI(AdvXAI)的新兴研究方向。
未来工作应致力于改进解释方法和评估协议,以考虑已报告的安全问题。本研究已被《Information Fusion》期刊接收,涉及密码学与安全(cs.CR)、人工智能(cs.AI)、计算机视觉与模式识别(cs.CV)以及机器学习(cs.LG)等多个学科领域。
文献编号:arXiv:2306.06123v4 cs.CR
DOI:10.1016/j.inffus.2024.102303
最新修订日期:2025年7月28日
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。