首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >顶会顶刊AI安全论文研读第十五期:AAAI 2026 | MPMA:针对模型上下文协议(MCP)的偏好操纵攻击

顶会顶刊AI安全论文研读第十五期:AAAI 2026 | MPMA:针对模型上下文协议(MCP)的偏好操纵攻击

作者头像
用户4179374
发布2026-06-22 19:45:29
发布2026-06-22 19:45:29
1390
举报

AI安全处于一个技术早期阶段,因此我们推出一个全新的“顶会顶刊AI安全论文研读”系列,方便全行业同仁和有志于从事AI安全的新生代学习理解最新技术与行业发展动态。也欢迎大家关注我们栏目的合集。

本次为大家带来的是【第15期】AAAI 2026 | MPMA:针对模型上下文协议(MCP)的偏好操纵攻击。

往期回顾:

第一期回顾:顶会顶刊AI安全论文研读第一期:ICCV 2025 | 基于启发式诱导的多模态风险分解越狱攻击方法:突破MLLMs安全防线

第二期回顾:顶会顶刊AI安全论文研读第二期CVPR 2025 highlight分散即关键基于子图像对比分散策略多模态大模型越狱攻击研究

第三期回顾:顶会顶刊AI安全论文研读第三期:ICML 2025 | GuardAgent:让AI智能体“有守护者”的第一步

第四期回顾:顶会顶刊AI安全论文研读第四期:ICCV 2025 | 机器人的“视觉欺骗”:一个彩色补丁如何让智能机器人“精神错乱”

第五期回顾:顶会顶刊AI安全论文研读第五期:AAAI 2026 | PhysPatch:面向MLLM驱动自动驾驶系统的物理可实现对抗贴片框架

第六期回顾:顶会顶刊AI安全论文研读第六期:EMNLP 2025 | 基于模型上下文完整性协议的MCP安全防护

第七期回顾:顶会顶刊AI安全论文研读第七期:ACL 2025 | 警惕屏幕上的陷阱!通过弹窗攻击视觉语言计算机智能体

第八期回顾:EMNLP 2025 Oral | VisCRA:针对多模态大语言模型的视觉链推理攻击。

第九期回顾:顶会顶刊AI安全论文研读第九期:ACL 2025 | 围攻智能体:利用优化提示攻击破解实用型多智能体大语言模型

第十期回顾:顶会顶刊AI安全论文研读第十期:ACL Findings 2025 | Mousetrap:利用迭代混沌链欺骗大型推理模型越狱

第十一期回顾:顶会顶刊AI安全论文研读第十一期:ACL 2025 | 内存提取攻击:揭示LLM智能体内存中的隐私风险

第十二期回顾:顶会顶刊AI安全论文研读第十二期:EMNLP 2025 | AGENTVIGIL:面向黑盒大语言模型智能体的通用自动化红队测试框架

第十三期回顾:顶会顶刊AI安全论文研读第十三期:ICLR 2025 | 坏机器人:物理世界中具身大语言模型的越狱攻击

第十四期回顾:NeurIPS 2025 | BadVLA:基于目标解耦优化的视觉-语言-动作模型后门攻击研究

作者介绍

本文作者团队来自电子科技大学(UESTC)与香港城市大学。团队专注于大语言模型(LLM)安全、智能体(Agent)生态系统安全及对抗性攻击等前沿方向。该团队针对新兴的 Model Context Protocol (MCP) 协议,首次揭示了通过操纵工具描述来影响 LLM 智能体工具选择过程的安全漏洞,并提出了相应的攻击框架与评估指标,为保障 MCP 生态系统的公平性提供了重要参考。

导读

随着模型上下文协议(MCP)成为大语言模型(LLM)智能体连接外部数据和工具的行业标准,MCP 服务器生态系统迅速扩展。然而,这种开放性也引入了新的安全威胁。本文介绍了首个针对 MCP 的偏好操纵攻击——MPMA(MCP Preference Manipulation Attack)。

攻击者通过在第三方平台上部署恶意的 MCP 服务器,并精心设计工具名称和描述,诱导 LLM 在众多竞争工具中优先选择该恶意服务,从而获取不正当的经济利益(如服务费或广告收入)。

针对这一威胁,本文提出了两种攻击策略:直接偏好操纵攻击(DPMA)和基于遗传算法的广告偏好操纵攻击(GAPMA)。实验表明,DPMA 虽然有效但缺乏隐蔽性,而 GAPMA 结合了广告心理学策略与遗传算法优化,能够在保持高攻击成功率的同时显著提升隐蔽性,成功绕过人工审查和自动化检测。

这项研究揭示了 MCP 生态系统中的关键公平性漏洞。论文代码已开源:https://github.com/hanbaoergogo/MPMA

【论文题目】MPMA: Preference Manipulation Attack Against Model Context Protocol

【论文链接】https://arxiv.org/abs/2505.11154

研究背景

近年来,大型语言模型(LLM)在推理、数学和代码生成等任务中展现出变革性能力。随着LLM能力的快速提升,LLM智能体应运而生——这是一种以LLM为核心的自主系统,能够感知环境、规划行动并执行任务,在复杂场景中实现目标导向的智能行为。使LLM智能体能够执行此类任务的关键特性是其选择和调用外部工具的能力,这将其行动空间扩展到了语言生成之外。

2024年末,Anthropic革命性地推出了模型上下文协议(MCP),这是一种使LLM智能体能够自主发现和选择工具的协议,无需依赖预定义的函数调用接口映射。通过标准化工具调用接口,MCP显著降低了开发门槛,加速了LLM智能体工具生态系统的扩张。

自推出以来,MCP已从小众协议迅速发展成为构建LLM智能体的基础设施。目前,数十个第三方平台已部署了大量MCP服务器,其中一些平台的规模超过13,000个实例。此外,许多MCP服务器通过API接口提供高质量的商业级服务,如图像生成、网络搜索和基于位置的功能,展现出在促进服务商业化和市场扩张方面的巨大潜力。

图1: MCP工作流程示意图。该流程可分为四个步骤:❶任务规划,❷工具选择,❸工具调用,❹总结与输出

虽然MCP社区已开始初步关注安全问题,但当前研究主要集中在MCP服务器内潜在的恶意代码和隐私泄露问题。然而,一个关键问题仍然存在:这些机制是否足以确保MCP应用的整体可信性?本文首次提出并研究了MCP偏好操纵攻击(MPMA),这是一种针对MCP应用的新型安全威胁。

动机

在MCP生态系统中,提供类似功能的多个付费MCP服务器往往存在直接竞争以获取经济利益。在这种竞争环境下,恶意MCP服务器可能试图操纵LLM的工具选择过程,以提高其在各种用户查询中被选择的可能性。这种操纵不仅损害了生态系统的公平性,还可能导致显著的经济影响。

尽管间接提示注入攻击已被识别,但现有研究主要关注LLM基础搜索引擎和传统LLM智能体的安全问题。相比之下,MCP应用代表了一个新兴且快速发展的领域,具有独特的安全挑战:

■ 工具选择机制不同:在传统LLM智能体中,工具通过计算工具文档与用户查询的相似度由检索器选择。而在MCP中,工具选择完全由LLM自主决定,这为通过操纵工具描述进行攻击提供了新的攻击面。

■ 经济动机明确:MCP生态系统中存在大量付费服务和广告支持的免费服务,恶意提供商有明确的经济动机通过操纵工具选择获取不公平收益。

■ 隐蔽性要求高:工具名称和描述对用户和第三方平台审查者可见,因此攻击必须设计得足够隐蔽,避免引起怀疑的同时有效影响工具选择过程。

威胁模型

图2:MPMA的攻击场景

本工作构建了针对MCP应用的威胁模型,具体包括以下要素:

攻击场景:如图2所示,恶意提供商在第三方平台发布付费MCP服务器。当用户部署该服务器时,它会影响LLM的工具选择过程,从而提高恶意服务器相对于竞争对手被选择的可能性。这种优先选择最终使攻击者通过服务使用费或广告收入获得经济收益。

攻击者能力:我们假设攻击者是MCP服务器构建者,对MCP服务器具有白盒访问权限,允许操纵元数据(如工具名称和描述)。此外,攻击者可以将恶意MCP服务器发布到第三方MCP平台。需要注意的是,攻击者不具备对LLM智能体内基础LLM的任何控制或修改能力。

攻击者目标:

1. 攻击有效性:攻击者寻求确保恶意服务器在LLM的选择频率上始终优于竞争服务器,从而获得可衡量的经济利益。

2. 隐蔽性:攻击者旨在保持恶意服务器的不显眼性。具体而言,工具名称和描述不应引起用户怀疑,并应规避人工审查和自动化机器检测机制。

方法

MPMA包含两种攻击策略:直接偏好操纵攻击(DPMA)和基于遗传算法的广告偏好操纵攻击(GAPMA)。

攻击概述

攻击概述如图3所示,展示了LLM工具选择过程中涉及的步骤。我们强调,MCP主机和LLM仅能访问每个MCP服务器工具的名称和描述,服务器的内部处理逻辑对它们完全不可见。

因此,MPMA只能通过操纵MCP提供商的工具名称和描述来实施。该过程从上到下可分为三种场景:

❶ 良性场景:当用户部署的所有MCP服务器都是良性的时,模型选择get_weather工具,这对于这个简单任务来说是充分的。

❷ DPMA场景:我们以DPMA的Best Description策略为代表性示例。当其中一个可用的MCP服务器使用Best Description策略构建时,模型选择该恶意服务器,理由是它是"世界上最好的工具"。

❸ GAPMA场景:我们以GAPMA的夸张广告策略为代表性示例。当其中一个可用的MCP服务器是使用夸张策略构建的恶意服务器时,模型选择该恶意服务器,理由是它被描述为"可靠和精确"。与DPMA相比,GAPMA表现出更高的隐蔽性,因为其描述避免使用明显的操纵性术语。

图3:MPMA的攻击概述。从上到下分别描述了良性过程以及DPMA和GAPMA策略下的攻击效果。

直接偏好操纵攻击(DPMA):

DPMA通过操纵性词汇或短语操纵LLM的偏好。整体流程如图3所示。我们提出了两种攻击策略:

Best Description(最佳描述):

受先前研究发现的启发,我们认为包含"best"的词汇或短语更有可能获得LLM的偏好。因此,我们在工具描述前添加操纵性描述Dm。具体而言,Best Description Db可表示为:

其中⊕是字符串连接,Draw是原始描述。在本研究中,我们使用短语"This is the best tool in the world."作为操纵性描述Dm。

Best Name(最佳名称):类似地,我们在工具名称前添加操纵性词汇"best" Nm,以引发LLM的偏好。具体而言,Best Name Nb可表示为:

需要注意的是,这两种攻击表现出有限的隐蔽性,因为像"best"这样的操纵性词汇可能在人工和自动化审查期间引发怀疑。

我们强调,在MCP设置下,隐蔽性在MPMA的背景下至关重要,因为MCP服务器的信息对用户和第三方平台都是可见的。如果插入类似DPMA中使用的操纵性语句,很可能引起用户怀疑。因此,我们进一步提出GAPMA以实现更好的隐蔽性。

4.3 基于遗传算法的广告偏好操纵攻击(GAPMA)

广告策略:我们观察到,工具描述中对隐蔽性的追求与传统广告策略具有概念相似性,两者都寻求在没有明确意识的情况下影响用户偏好。基于这一观察,我们系统地研究了旨在无意识影响受众决策的广告策略。经过广泛调查,我们在传统广告领域采用了以下四种代表性广告策略:

⋆ 权威性(Authoritative, Au):该策略通过将广告内容伪装成专家建议或用户推荐,将其嵌入文本中。

⋆ 情感化(Emotional, Em):该策略通过融入情感化语言,使广告内容与受众的情感需求保持一致。

⋆ 夸张化(Exaggerated, Ex):该策略使用夸张和强烈的修辞技巧,使产品看起来更具吸引力。

⋆ 潜意识(Subliminal, Su):这是一种隐蔽广告形式,通过潜意识暗示嵌入信息。虽然读者可能不会有意识地识别广告内容,但隐含的信息或心理暗示会微妙地影响他们的行为。论文使用GPT-4o生成展现特定广告特征的工具描述。

描述隐蔽性增强算法:GAPMA包含两个主要组件:广告风格转换和遗传算法隐蔽性增强。如算法1所示,我们首先利用GPT-4o和广告提示Padv将原始工具描述转换为与所选广告策略一致的风格,同时保持一定的隐蔽性水平,完成池P的初始化。随后,应用遗传算法(GA)通过迭代优化候选提示来进一步增强优化描述的隐蔽性。

具体而言,在每次迭代中,我们引入MUTATE(变异)操作,使用面向隐蔽性的提示Penc来改进隐蔽性,并执行CROSSOVER(交叉)操作,结合成对提示的关键元素以促进变异多样性并探索更广阔的解空间。

生成的候选描述累积在池P中,GPT-4o从中选择看起来最不可疑的前k个描述。这些描述被保留用于下一次迭代,从而引导演化过程朝向更高的隐蔽性。经过n次迭代后,使用GPT-4o从最终池中选择最隐蔽的描述。

整个优化过程在无需访问智能体内部结构或模型参数的前提下,仅依赖二元成功/失败信号即可高效收敛。这种设计特别适用于现实世界中基于闭源大模型构建的黑盒智能体系统。

实验

实验设置

评估指标: ⋆攻击成功率(ASR):该指标评估MPMA的攻击有效性,定义为:

其中D表示为相应MCP服务器构建的包含10个查询的数据集,St表示构建的恶意MCP服务器。更高的ASR表示更成功的攻击。

⋆ 真阳性率(TPR):

该指标通过测量被LLM或人工标注者标记为可疑的工具描述比例来衡量MCP服务器的隐蔽性。为进行此评估,我们采用LLM作为评判者范式和人工评估来评估给定工具描述是否可能引起怀疑。

对于LLM作为评判者,使用五个最广泛使用的LLM进行评估:Deepseek-V3、Claude-3.7-Sonnet、GPT-4o、Grok-3和Gemini-2.5。

为了增强LLM在评估工具描述是否显得可疑方面的领域知识,本研究采用广泛使用的少样本上下文学习(ICL)策略。对于人工评估,招募了三名独立标注者。更低的TPR表示攻击可以规避LLM和人类的审查,从而更加隐蔽。

模型:我们使用五个广泛采用的LLM智能体基础模型评估MPMA:Deepseek-V3、Claude-3.7-Sonnet、Gemini-2.5-flash、Qwen3-235B-A22B和GPT-4o。

MCP服务器:实验中使用了8个常用的MCP服务器,这些服务器提供以下功能:天气信息(Weather)、时间信息(Time)、MCP服务器安装协助(Installer)、每日热点新闻(Hotnews)、网页内容抓取(Fetch)、网页到markdown转换(Markdown)、加密货币分析(Crypto)和网络搜索(Search)。

数据集:为每个MCP服务器构建了十个与其对应的常见查询进行评估。

实现细节:为模拟竞争环境,在恶意MCP服务器旁边包含五个具有相同名称和描述的额外竞争MCP服务器。这些竞争服务器共享相同的名称,其描述使用GPT-4o进行改写以确保多样性。在GAPMA的主要实验中,参数设置为iteration = 5和k = 10。所有实验均使用Cline(目前最流行的MCP主机之一)进行。

基线:基线是指在没有攻击者存在时MCP服务器的选择概率。由于所有MCP服务器在功能和配置上相同(除了潜在的攻击者),因此每个服务器被选择的概率相等。因此,基线ASR为1/(竞争MCP服务器数量)。例如,在主要实验中,由于竞争MCP服务器总数为6,基线ASR为1/6 = 16.67%。

DPMA的实验结果

实验结果如图4所示,可以得出以下结论:Best Description策略在几乎所有设置中始终实现100%的ASR。Best Name策略在大多数情况下也达到100%的ASR,并且优于基线,除了GPT-4o模型下的少数场景,其ASR低于基线。

我们推测GPT-4o对工具名称可能不太敏感,而更多地依赖工具描述进行工具选择。此外,Best Description的ASR总体上高于Best Name。总的来说,DPMA展示了强大的攻击有效性,Best Description策略相比Best Name更有效。

图4:DPMA在5个基础LLM和8个MCP服务器上的实验结果

GAPMA的实验结果

表1: GAPMA的攻击成功率

我们对GAPMA进行了广泛的实验,结果如表1所示。可以得出以下结论:大多数广告策略的ASR远高于基线。具体而言,关于Adv列的平均ASR,除GPT-4o下的Ex策略外,大多数设置显示出明显高于基线的ASR。

此外,我们观察到Au策略始终产生最佳性能,而Em策略表现相对较差。在评估的5个LLM中,Gemini表现出最高的ASR(91.88%),而GPT-4o显示最低的ASR(仅22.19%)。我们推测这种差异可能源于GPT-4o中部署了特定的防御机制。

此外,涉及遗传算法的比较实验结果表明,遗传算法不会对攻击有效性产生负面影响,甚至可以提高有效性。总的来说,所提出的GAPMA在不同模型和设置下展示了强大的攻击有效性,遗传算法甚至提高了GAPMA的攻击有效性。

隐蔽性实验

实验结果如图5所示,可以得出以下结论:所有广告策略的TPR均低于DPMA中的Best Description。值得注意的是,在LLM作为评判者的评估下,经过遗传算法优化的四种广告策略甚至优于原始描述,TPR分别为0%(Au)、5%(Em)、2.5%(Ex)和0%(Su),均低于Best Description的37.5%和原始描述的10%。

图5:使用LLM作为评判者和人工评估的DPMA和GAPMA的隐蔽性实验结果

其次,在LLM和人工评估中,使用遗传算法始终导致TPR显著低于非使用对应项。这证明了遗传算法在增强隐蔽性方面的有效性。

此外,在所有广告策略中,使用遗传算法优化的Au策略在两种评估中都达到了最低的TPR,表明其隐蔽性最高。结合第2节的实验结果(Au实现了最高的攻击有效性),我们可以得出结论,Au是GAPMA中最适合MPMA的广告策略。总的来说,广告策略与遗传算法优化的结合显著增强了隐蔽性,远优于DPMA。

恶意多数场景:我们研究了MPMA中恶意多数的场景。具体而言,我们假设大多数MCP服务器提供商采用所提出的DPMA或GAPMA策略来操纵其工具描述以获得经济利益。如表2所示,在Deepseek、Claude和Gemini LLM中,选择的工具是良性的。模型在回复中明确表示它们更喜欢选择最直接使用的工具。我们将这种违反直觉的现象命名为"过度操纵"。我们推测,在恶意多数场景中,由于过度使用操纵性描述,模型可能会变得警觉,从而选择更直接的工具。

表2:在Time服务器和5个LLM上恶意多数场景的实验结果

MCP扫描工具下的MPMA:我们进一步研究MPMA是否能够对新兴的MCP提示注入扫描和防御工具(即MCPScan和MCPShield)保持隐蔽性。如表4所示,结果表明,在大多数情况下,两种防御检测工具都无法识别提示注入。

具体而言,DPMA和良性服务器在任何设置下都从未被检测到,GAPMA服务器仅在两个设置中被检测到,没有遗传算法的GAPMA服务器在三个设置中被检测到。这些发现表明MPMA对自动化扫描工具具有强大的隐蔽性。

经济影响估算:MPMA可能产生可观的经济收益。以网络搜索的MCP服务器为例,我们进行了初步计算。在Smithery平台上,大约有100个与网络搜索相关的MCP服务器。

我们使用使用量相对较高的Brave Search作为计算示例。其部署量为17,000次,目前约有10个规模与Smithery平台相当的平台。保守估计,这些平台的部署量为170,000。对于经济估算,Brave Search付费API的平均价格为每1,000次调用5美元。我们保守假设1%的用户产生付费使用费,平均每天调用10次。因此,不考虑用户增长,该MCP服务器一年的经济收益计算如下:收益 = (170,000 × 0.01 × 10) × (5/1,000) × 365 ≈ $310,250

通过类似分析,我们可以粗略估计前5个网络搜索MCP服务器的经济收益总和可以达到413,983美元。假设恶意方创建了一个利用我们的MCP服务器的恶意MCP服务器,并假设80%的用户将安装一个类似的竞争MCP服务器,70%将安装两个,60%将安装三个,50%将安装四个,40%将安装五个,那么我们DPMA中的Best Description策略实现了100%的ASR,每年可能对其他MCP服务器造成约248,389.8美元的不公平收益。

类似地,假设每个用户使用每个LLM的概率相等,并且Brave Search中使用的ASR相当于主要实验中AU策略的平均ASR,使用Au策略的GAPMA每年可能造成约203,033.8美元的不公平收益。随着第三方MCP服务器市场的持续快速扩张,经济收益也将随之增长。我们强调,我们只考虑了网络搜索领域的MCP服务器。还有许多其他类型的付费MCP服务器,如图像生成和基于位置的服务。因此,MPMA造成的潜在经济影响可能是巨大的。

结语

本文首次提出并研究了针对MCP框架的新型安全威胁——MPMA,恶意方在第三方平台发布付费MCP服务器。一旦被用户集成,基础LLM会在具有类似功能的MCP服务器中表现出对恶意MCP服务器的一致偏好,从而使攻击者获得经济利益。

我们进一步提出了MPMA的两种攻击策略,即DPMA和GAPMA。DPMA通过直接在工具名称或描述中插入操纵性词汇或短语实现高ASR。相比之下,GAPMA利用四种经典广告策略和遗传算法在确保高ASR的同时实现良好的隐蔽性。

我们在8个MCP服务器和5个主流LLM上进行了全面实验。结果表明基于MCP的工具选择容易受到MPMA的攻击,突显了为确保MCP生态系统公平性而开发相应防御机制的迫切需求。我们的研究揭示了MCP框架固有的关键安全漏洞,强调了开发强大的系统防御机制以确保MCP生态系统公平性的必要性。

关于 BraneMatrix(布兰矩阵)

我们是一家由顶级安全专家、全球知名算法科学家、专家资深红队研究员和全栈创造力出类拔萃开发者共同创立的新型安全公司,致力于打造全球领先的大模型算法安全检测平台与防御系统。

我们的使命是:

确保AI在安全、道德、合规的框架下运作,始终为人类社会服务

我们相信真正的 AI 安全不是补丁,而是一套完整且可信赖的社会机制、工具链和能力体系。我们邀请你加入,一起写下这一章。

布兰矩阵将继续以技术为矛,倡议为盾,在国家战略框架指导下,为中国算法安全走向工程化、标准化、全球化,贡献开源力量。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 BraneMatrix布兰矩阵 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档