大型推理模型（LRMs）凭借其卓越的逻辑推理能力，已显著超越了传统的大型语言模型（LLMs），但这些改进也带来了更高的安全风险。当受到越狱攻击时，它们生成更具针对性和组织性内容的能力可能导致更大的危害。尽管一些研究声称推理能力使 LRM 在面对现有LLM 攻击时更安全，但它们忽视了推理过程本身固有的缺陷。

为此，来自上海人工智能实验室，香港大学，复旦大学，香港科技大学（广州）的研究团队首次探索了针对LRMs的越狱攻击，提出了Mousetrap，一种利用推理模型能力的链式越狱框架。Mousetrap 将混沌链（chaos chains）整合到推理结构中，要求受攻击目标通过迭代推理步骤重构原始有毒查询，并从反派的角度进行回应。

在作者提出的有毒数据集TROTTER 上，Mousetrap 攻击o1-mini、Claude-Sonnet 和Gemini-Thinking 的成功率分别高达 96%、86% 和98%。在 AdvBench、StrongREJECT和 HarmBench 等基准测试中，攻击以安全著称的 Claude-Sonnet，Mousetrap 的成功率惊人地分别达到了87.5%、86.58% 和93.13%。这项工作揭示了当前LRMs凭借其卓越的逻辑推理能力，已显著超越了传统的大型语言模型（LLMs），但这些改进也带来了更高的安全风险。本工作对应的论文已开源。

【论文题目】A Mousetrap: Fooling Large Reasoning Models for Jailbreak with Chain of Iterative Chaos

【论文链接】https://arxiv.org/pdf/2502.15806

【代码链接】https://github.com/evigbyen/mousetrap/

研究背景

大型推理模型（LRMs）的出现催生了人工智能领域的变革和范式转变。随着对模型推理能力的广泛关注，许多具有先进推理能力的模型不断涌现并持续优化（如 OpenAI 的 o1 系列，Google 的 Gemini-Thinking，DeepSeek 等）。虽然它们的能力值得称赞，但存在一个重大缺陷：在遇到越狱攻击时，如果未能提供强大的防御，LRM 会生成更详细、更有条理、更具体且逻辑合理的回复，从而加剧潜在危害的严重性。LRM 的滥用可能为非法犯罪活动、心理操纵和恶意伤害提供极其详细的指导，这凸显了在开发和应用中进行安全对齐的关键需求。

动机与理论分析

研究动机：

1. 推理能力的“双刃剑”效应：作者认为，LRM 强大的推理能力虽然提升了性能，但也引入了新的、更危险的漏洞。如果 LRM 被成功越狱，由于其具备高级逻辑能力，生成的有害内容（如犯罪指南）将比传统 LLM 更详细、更有条理、更具实操性，从而造成更大的现实危害。

2. 推理过程中的固有缺陷：现有的安全防御往往忽略了“推理过程”本身可能存在的盲区。作者假设，正是这种复杂的推理过程，可能成为绕过安全对齐的后门。

3. 填补研究空白：旨在开发一种专门针对 LRM 推理机制的攻击框架，验证即使是经过严格对齐的推理模型，在面对精心设计的“推理陷阱”时也是脆弱的。

理论分析：

A. 黑盒攻击原理 (Black-box Attack Principles)

论文引用并强化了黑盒攻击领域的两个经典原则：

不匹配泛化 (Mismatched Generalization)：迭代混沌链将攻击提示词投射到了模型预训练数据分布之外的“低样本空间”。模型在处理这些罕见的、加密般的输入时，其安全防御机制往往无法有效泛化，从而失效。

竞争性目标 (Competing Objectives)：攻击迫使模型在“执行复杂的解密推理任务”和“执行安全拒绝任务”之间做选择。由于解密指令极其具体且占据主导，模型倾向于优先完成推理任务而忽略安全检查。

B. LRM 特有的行为分析 (Behavioral Analysis of LRMs)

这是本文针对推理模型提出的独特理论见解：

◎推理面具 (Reasoning Mask)：

LRM 无法在推理的第一步就预见到最终结果。

每个单独的推理步骤（如“将单词反转回来”）看起来都是无害的文本处理任务。

真正的有害意图直到推理链的最后一步才会显现。这种逐步展开的过程就像戴上了一副面具，欺骗了模型的安全过滤器。

◎推理惯性 (Reasoning Inertia)：

一旦 LRM 开始执行思维链（CoT），它会陷入一种“惯性”。

模型会沉浸在解决逻辑谜题（解密）的过程中，就像《捕鼠器》剧中的角色一样，一步步落入陷阱。

当推理惯性形成后，模型很难中途停下来重新评估安全性，最终导致在输出结果时完全忽略了安全对齐协议。

◎鞍点假设 (Saddle Point Assumption)

作者提出，随着推理链长度的增加，攻击成功率呈现先上升后下降的趋势：

上升阶段：链越长，复杂度和迷惑性越高，越能压制模型的安全对齐能力。

下降阶段：链过长超过了模型的推理极限，导致模型无法正确还原原始问题，攻击因此失效。

结论：攻击效果取决于“模型推理能力”与“安全对齐能力”的博弈，在这两者之间存在一个最佳的攻击窗口（实验中通常为链长 3）。

方法

预备知识：

1. 混沌机与迭代推理链 (Chaos Machine & Iterative Chain)

混沌映射（Chaos Mappings）：将有害问题（PTQ）通过可逆的规则（如凯撒密码、单词反转、句子切分等）转换为看似混乱的文本（CTQ）。这些转换构成了一对一的映射。

迭代叠加：通过“混沌机”将多种不同粒度（字符级、单词级、句子级）的映射叠加在一起。这种多层叠加将简单的线性变换转化为类似非线性的复杂变换，极大增加了模型识别原始意图的难度。

图1：混沌机的组成

2. 推理结构

对于推理陷阱，作者定义推理提示的结构。推理提示应包含（1）明确提供的[CTQ];（2）用于去混沌的[DCP]序列;（3）请求目标重构并显式输出 PTQ 文本;以及（4）关于细节、逻辑和格式的额外要求。

图2：推理结构示例

受阿加莎·克里斯蒂戏剧《Mousetrap》启发，研究团队提出了一个同名框架，Mousetrap。包含三个关键要素：

1. 反派视角：首先提示 LRM 从反派（villain）的角度回答问题。

2. 中间推理回合：提供由混沌机生成的迭代推理链指令。

3. 忽略侦探意图：引导目标模型沉浸在推理中，忽略安全性及查询的真实意图，从而落入陷阱。

该方法首先构建了一个“混沌机（Chaos Machine）”，利用包括凯撒密码、单词反转、句子切分等多种不同粒度的可逆规则（即“混沌映射”），将原始的恶意问题迭代转换为高度混淆的密文，从而生成一个非线性的、多层次的“迭代混沌链”。

在实际攻击中，该框架将这段混沌文本嵌入到一个设定为“反派”角色的提示词中，指令目标模型按照给定的逆向步骤，利用其推理能力逐层还原文本。

这种设计迫使模型在漫长的解码过程中陷入“推理惯性”，使其将注意力完全集中在逻辑重构任务上而忽略了安全审查，最终导致模型在不知不觉中还原并回答了被“推理面具”掩盖的有害问题。

图2：Mousetrap 示意图

❶ 和 ❷ 分别显示了在非推理框架和 Mousetrap 中推理链为 1 的攻击o1-mini-2024-09-12被拒绝的响应。

当 Mousetrap 的迭代链条长度增加到 2 时，可以从❸看出 o1-mini 给出了详细的有害反应，甚至包括如何让孩子们感到舒适地脱衣和参与视频拍摄，这比 LLMs 更有害和更令人害怕。

图3：Mousetrap的框架图

实验效果

实验设置

1.数据集：数据集：

- Trotter 系列（自建）：为了解决现有数据集毒性不一致的问题，作者构建了 TrotterStrong（50个强毒性问题）、TrotterAdvanced（通过初步筛选更难越狱的子集）和 TrotterUltimate（最难攻破的8个极端毒性问题）。

- 通用基准 (Standard Benchmarks)：使用了包括JailbreakBench, MaliciousInstruct, StrongREJECT, HarmBench, AdvBench, MM-SafetyBench 等在内的多个主流安全评估数据集。

2.目标模型：

覆盖了当前最先进的大型推理模型（LRMs）和通用大模型，包括：OpenAI (o1-mini, o1, o3-mini)、Anthropic (Claude-3.5-Sonnet, Claude-3.7)、Google (Gemini-Thinking 各版本)、DeepSeek (R1)、QwQ-Plus 和 Grok-3。

3.评估指标：

- Judger：使用GPT-4o 对攻击结果进行有害性打分（1-5分，大于4分视为越狱成功）。

- 攻击成功率（ttack Success Rate，ASR）：在整个数据集上的成功比例。

- 成功标准：采用严格的“2/3模式”或“3/3模式”，即对同一问题进行3次攻击，至少成功2次或全部成功才算该问题越狱成功。

- MSL (最小成功长度)：成功越狱所需的最小推理链长度。

4.混沌机配置：

默认使用“随机函数库”版本的混沌机（包含8种映射算法），以降低实验成本。

核心实验结果对比

图4：Mousetrap在不同LRMs的性能

图5：Mousetrap在不同benchmarks的性能

1. 迭代推理链长度的影响（核心发现）：

- 链长 vs. 成功率：实验表明，增加推理链的长度能显著提高攻击效果。单步推理（链长=1）的效果与传统简单的各种映射攻击相当（ASR约20%），但当链长增加到3 时，攻击效果达到峰值。

- “鞍点”现象：攻击效果随链长呈现“先升后降”的趋势。链长为3 时通常效果最佳（ASF达到6.3）。当链长增加到4 或 5 时，成功率下降。

- 原因分析：上升是因为复杂的推理链压制了模型的安全对齐；下降不是因为模型变安全了，而是因为推理链过长超出了模型的逻辑还原能力，导致模型无法正确解密出原始问题（即推理的有效性下降）。

2. 不同模型的脆弱性对比：

- o1-mini：在TrotterStr 数据集上，链长为 3 时 ASR 高达96%。

- Gemini-Thinking：在高安全设置下仍达到98% 的成功率。

- Claude-3.5-Sonnet：作为一个以安全著称的模型，被 Mousetrap 以 86% 的成功率攻破。

- 结论：几乎所有测试的 LRM 都在链长不超过3 的情况下被攻破，证明了推理能力的增强反而暴露了更严重的安全漏洞（推理惯性）。

3. 通用基准测试表现：

- 在针对 Claude-3.5-Sonnet 的扩展测试中，Mousetrap在 HarmBench 上达到了93.13% 的成功率，在 MaliciousInstruct 上达到97.00%。这证明了该方法不仅对自建数据集有效，在广泛的“野外”基准测试中同样极具威力。

消融研究

图6：在TrotterUltimate数据集上的Mousetrap及其消融实验结果

1. 单一映射vs. 混合映射

对比始终使用单一映射（如只用凯撒密码）和使用混沌机（混合多种映射），结果显示混合映射效果更好。

原因：单一映射的重复叠加容易导致“迭代退化”（Iterative Degradation），例如两次反转会变回原形，导致攻击失效。而混沌机的混合映射构建了类似非线性的变换，增加了推理的复杂度和不可预测性。

2. 显式CoT (Explicit CoT)

实验尝试让模型把解密过程（即还原 PTQ 的过程）显式地输出到回复中。

结果：这种做法反而降低了攻击成功率。

分析：显式的推理过程更容易触发模型的输出端安全检测机制。Mousetrap 让模型在“内心”或隐式地进行推理，即“戴着面具”通过安检，效果更好。

3. 场景设定的影响

测试了不同的角色扮演场景。结果发现，“反派（Villain）”视角的设定对Mousetrap 的增益最大（提供了与作恶动机一致的语境）。

相反，传统的“奶奶漏洞（Grandma exploit）”场景反而会降低 Mousetrap 的效果（ASF减半），说明场景需要与推理任务高度适配。

4. 极端毒性测试(TrotterUltimate)

在筛选出的最难攻破的8个极端问题上，Mousetrap依然将平均成功频率（ASF）提升到了 7（满分10），证明即使面对防御最严密的极度有害问题，该框架依然有效。

结语

这篇论文通过提出“Mousetrap”这一创新性的越狱框架，揭示了人工智能领域中一个发人深省的悖论：更强的推理能力可能意味着更弱的安全防线。

该研究不仅填补了针对大型推理模型（LRMs）越狱攻击的空白，更深刻地剖析了“思维链”本身即是潜在的攻击面。通过巧妙构建的“混沌机”和“迭代推理链”，Mousetrap 成功诱导最先进的模型（如 o1-mini 和 Claude-3.5-Sonnet）陷入“推理惯性”，在全神贯注于解密复杂逻辑的过程中，不知不觉地卸下了安全防御的面具。

这项工作不仅展示了令人震惊的攻击成功率（最高达98%），更为 AI 安全社区敲响了警钟：随着模型向着更高级的自主推理演进，传统的安全对齐范式已不再足够。未来的防御机制必须从简单的输入输出过滤，进化为对模型内部推理过程的深度监控与干预。这不仅是一次成功的攻防演示，更是对构建更安全、更可信赖的通用人工智能（AGI）的重要启示。

关于 BraneMatrix（布兰矩阵）

我们是一家由顶级安全专家、全球知名算法科学家、专家资深红队研究员和全栈创造力出类拔萃开发者共同创立的新型安全公司，致力于打造全球领先的大模型算法安全检测平台与防御系统。

我们的使命是：