本文由 Paul Burchard 和 Igor Halperin 代表“人工天才”公司共同撰写。
大语言模型的激增为金融服务和医疗等高度监管行业带来了一个显著悖论。这些模型处理复杂非结构化信息的能力为分析、合规和风险管理带来了变革潜力。然而,其固有的概率性本质会导致“幻觉”——即看似合理但实际错误的信息。
在要求可审计性和准确性严格的行业中,标准生成式AI的非确定性行为是其应用于关键任务系统的障碍。对于银行或医院而言,确定性不仅是一个目标,更要求输出结果必须准确、相关且可复现。
在本文中,我们将展示某机构ISV合作伙伴“人工天才”公司如何使用 Amazon SageMaker AI 和 Amazon Nova 来解决这一挑战。通过引入第三代语言模型,他们提供了一个在输入上具有概率性、但在输出上具有确定性的解决方案,助力实现安全的企业级应用。
要理解此解决方案,让我们先回顾AI的演进:
从数学上讲,很难防止标准生成模型产生幻觉,因为外推式的生成过程本身就是导致错误的原因。“人工天才”通过严格以非生成式方式使用模型来解决此问题。在这种模式下,模型学习到的大量概率信息仅用于对输入进行内插式处理。这使得模型能够理解信息或问题可以表达的无数种方式,而无需依赖概率来生成答案。为了创造这种第三代能力,“人工天才”使用 SageMaker AI 对 Amazon Nova 基础模型进行了一种特定形式的指令微调。
这种专利方法有效地消除了输出概率。标准解决方案试图通过将温度参数降至零来确保确定性(这通常无法解决核心的幻觉问题),而“人工天才”则对模型进行后训练,将下一词元预测的对数概率推向绝对的一或零。这种微调迫使模型遵循一个单一的系统指令:不要编造不存在的答案。
这创造了一个数学上的“漏洞”,使得模型在保留其对数据的卓越理解能力的同时,具备了金融和医疗领域所需的安全性。
检索增强生成常被提及作为解决准确性问题的方案,但它仍然是一个生成过程,并且会创建固定的向量嵌入,这些嵌入可能与后续查询无关。第三代方法改进了RAG,通过将输入文本和用户查询有效嵌入到一个统一的嵌入空间中。这有助于确保数据处理本质上与所提出的具体问题相关,从而比标准向量检索方法提供更高的保真度和相关性。
为了帮助企业最大化其非结构化数据的价值,“人工天才”将此模型封装到一个符合行业标准的智能体客户端-服务器平台中,该平台可通过某机构的云市场获取。
与第二代智能体(在工作流中串联时可能会累积错误)不同,此第三代模型固有的可靠性支持复杂、高保真度的自动化。用于创建这些工作流的提示遵循产品需求文档的结构。通过这种结构,非AI工程师的领域专家可以用自然语言制定查询,同时保持对输出的严格把控。
该产品还支持对工作流规范进行自由形式的提示。为此,使用了 Amazon Nova Premier 模型,该模型特别擅长将自由形式的提示转换为PRD格式。尽管 Nova Premier 是一个生成式模型,需要人工介入检查其输出,但这却是智能体工作流中唯一的人工检查点。
此处使用的核心数学“漏洞”是严格以非生成式方式使用生成式模型。这意味着模型不依赖概率来猜测答案的下一个词元,而是仅基于输入上下文来提取或验证信息。虽然短答案(如日期或名称)显然是非生成式的,但也可以确定性地输出长序列。例如,要求从文档中直接引用一句话来证明之前的答案,就是一个非生成式任务。以下是“人工天才”如何构建这些交互的示例(包含反幻觉指令的系统提示未在这些JSON交互中显示):
可回答的非生成式短答案:
[
{
"role": "user",
"content": [{"text": "文档:第三季度财务表现依然强劲。我们的收入同比增长15%... 问题:年度收入增长率是多少?答案:"}],
},
{
"role": "assistant",
"content": [{"text": "15%"}]
}
]可回答的非生成式长答案(追问):
[
{
“role”: “user”,
“content”: [{“text”: “文档:第三季度财务表现依然强劲。我们的收入同比增长15%,这得益于企业部门的强劲销售。问题:请提供文档中的一句话,证明年度收入增长率是15%。答案:”}],
},
{
“role”: “assistant”,
“content”: [{“text”: “\”我们的收入同比增长15%,这得益于企业部门的强劲销售。\“”}],
}
]不可回答的短答案问题示例:
[
{
“role”: “user”,
“content”: [{“text”: “文档:第三季度财务表现依然强劲。我们的收入同比增长15%,这得益于企业部门的强劲销售。问题:CEO今年的奖金是多少?答案:”}],
},
{
“role”: “assistant”,
“content”: [{“text”: “未知”}],
}
]这些仅为说明性示例。第三代语言模型产品将附带“配方”,以帮助理解如何构建非生成式查询来满足所有实际的自然语言处理需求。在此基础上,让我们探讨使用 Amazon Nova 在 SageMaker AI 上构建非生成式微调管道的技术实现。
上图所示的架构采用了一种精简的方法来定制基础模型。它使用 SageMaker 训练作业进行模型训练,并使用 Amazon Bedrock 进行部署。
这种设计将开发关注点与生产推理分离,同时保持了清晰的数据血缘——这对金融服务的审计追踪至关重要。
如前所述,构建第三代语言模型涉及以下步骤:
在构建第三代语言模型时,我们希望专注于可靠性和安全性。一些为不同用例构建的基础模型拥有其他能力,这些能力会分散注意力,使其不太适合非生成式使用。
一个重要的例子是,某些基础模型被优化为聊天助手,这可能导致难以说服它们提供简洁而非冗长、散漫的答案。纠正这种倾向可能需要额外的后训练,而不仅仅是遵循反幻觉指令。Amazon Nova 系列模型旨在实现性能、成本效益和速度的强劲平衡,使其成为企业应用的理想选择。在 Nova 系列中,Nova Lite 模型自然倾向于提供清晰简洁的答案。因此,Nova Lite 是此目的的绝佳基础模型。
另一个相关的最新发展是向第二代语言模型添加推理后功能,通常基于思维链或强化学习方法。这些功能虽然有用,但会干扰非生成式第三代模型的创建。例如,当将此方法应用于包含思维链的 DeepSeek/Llama3 模型时,需要通过将模型内部的 </think> 标记直接包含在训练数据中来进行提示注入,以关闭这些额外功能。幸运的是,Amazon Nova Lite 没有任何推理后功能。
然后可以对基础模型应用后训练(如 SFT),以训练其遵循系统提示中包含的反幻觉指令。例如,该指令可以是:如果问题无法从文档中回答,则回答“未知”。
如果这听起来显而易见——并且之前已被多次尝试——请记住,这个看似明显的想法只有与“以严格非生成式方式使用生成式模型”这一非显而易见、反直觉的数学原理相结合才能奏效。
“人工天才”创建了一个专有的合成非生成式问答生成器,旨在锻炼模型正确回答或拒绝回答各种非生成式问题的能力。“人工天才”的合成问答生成器建立在先前关于金融领域合成问答生成的研究基础上,但侧重于产生最多样化的纯非生成式问答,并在输入文本、问题和答案的多样性维度上进行成倍扩展。为此任务构建一个合适的合成问答生成器是一项重大的工程。但以“人工天才”的合成问答生成器为基础,可以将其与特定客户的后训练任务相结合,以创建定制的第三代语言模型。
思维链是一种提示技术,通过鼓励模型在给出最终答案之前生成中间的分步推理,来提升大语言模型在复杂推理任务上的性能。虽然通常有益,但我们发现初始的 deepseek-ai/DeepSeek-R1-Distill-Llama-8B 模型中一种与生俱来的类似思维链的行为却适得其反。它生成了冗长、非确定性的推理步骤,而不是所需的简洁、事实性输出,并导致模型试图为每个问题(即使是那些无法回答的问题)进行长篇推理。为了解决这个问题,该团队开发了一种新颖的提示元注入技术。该方法涉及重新格式化训练数据,以提前终止模型的思维链过程。使用与先前示例相同的 JSON 格式,数据结构如下:
// 绕过思维链的提示注入示例
[
{
“role”: “user”,
“content”: [{“text”: “文档:第三季度财务表现依然强劲。我们的收入同比增长15%,这得益于企业部门的强劲销售。问题:年度收入增长率是多少?答案:</think>”}],
},
{
“role”: “assistant”,
“content”: [{“text”: “15%”}],
}
]通过在每一个训练示例的真实答案之前注入 </think> 标记(该标记本仅供模型内部使用),模型学会了将其内部过程的完成与最终正确输出的开始直接关联起来。这实际上在推理时短路了不需要的冗长推理,迫使模型只产生所需的确定性答案。
这种技术是一个强有力的例子,展示了如何使用数据格式作为工具来控制和塑造模型的内在行为。
为反幻觉任务选择的 SFT 技术是低秩适配,因为它能最忠实地保留基础模型的语言理解能力,仅在其上添加一个参数化的适配器。其他直接更改基础模型参数的微调方法可能会削弱这种能力。正如关于 SFT 的研究文献所公认的,需要克服的最大障碍是避免过拟合。有许多技术可以避免基于 LoRA 的 SFT 出现过拟合,SageMaker AI 内的微调“配方”均支持这些技术:
综合运用所有这些技术——50% LoRA dropout 正则化、最大化而非最小化 LoRA 参数数量以避免意外欠拟合、基于跟踪更长运行中验证指标的手动早停,以及将合成训练数据集的大小增加到 30,000 个样本——我们能够为“人工天才”定制版 Nova Lite 实现 0.03% 的幻觉率。
为了帮助您了解各种超参数选择的影响,这可能对其他使用 SageMaker 进行微调的客户有所帮助,下表展示了为此任务探索超参数空间的一些定量结果。每种情况下的重要超参数选择以粗体突出显示。使用了相同的 10,000 个样本测试数据集(独立于训练样本数)来测量显示该数字时的真实最终幻觉率。对于其他因停止过晚而过拟合的情况,仅显示验证误差检查点。
LoRA dropout | LoRA alpha | 训练轮数 (或验证检查点) | 训练样本数 | LoRA 学习率 | 幻觉率 (或验证误差) |
|---|---|---|---|---|---|
50% | 128 | 3 | 10,000 | 32 | 7.5% |
50% | 192 | 2–4 | 10,000 | 28 | 1.0%–3.9% |
50% | 32 | 2–4 | 10,000 | 24 | 1.5%–2.6% |
1% | 32 | 2–4 | 10,000 | 24 | 1.6%–4.0% |
50% | 192 | 2 | 2,500 | 28 | 3.3% |
50% | 192 | 2 | 10,000 | 28 | 0.17% |
50% | 192 | 2 | 30,000 | 16 | 0.03% |
从这些实证结果中可以明显看出,训练数据的数量和多样性,加上早停法,是克服过拟合的最重要因素。
AWS 拥有解释如何利用 SageMaker 进行微调的资源,例如技术博客文章《Amazon SageMaker AI 上的高级微调方法》。
对于希望将其领域特定的微调与“人工天才”的反幻觉技术相结合的企业,可根据咨询,与 AWS 和“人工天才”合作提供定制化微调。
非生成式微调方法的成功通过一个严格的评估框架得到了验证,该框架产生了清晰、定量的结果。
建立了一个多方面的评估框架来衡量项目核心目标的绩效:
以下是在受监管环境中实施可信赖人工智能的几个关键见解,可作为最佳实践:
本文详述的方法代表了一个可行且数据高效的框架,用于为关键企业任务创建确定性的、不产生幻觉的大语言模型。通过在 Amazon SageMaker 训练作业中对像 Amazon Nova 这样强大的基础模型使用非生成式微调,组织可以构建出满足准确性、可审计性和可靠性严格需求的人工智能系统。这项工作不仅为金融服务提供了解决方案,还为任何受监管行业(包括法律、医疗和保险)提供了一个可迁移的蓝图,在这些行业中,人工智能驱动的洞察必须是可验证真实且完全可追溯的。前进的道路包括将此解决方案扩展到更广泛的用例,探索更复杂的非生成式任务类型,以及研究模型蒸馏等技术,以创建高度优化、成本效益高的“工作模型”,作为智能体工作负载的“大脑”。通过将工程化的信任置于无约束的生成之上,这种方法为人工智能在全球最关键领域的负责任和有影响力的应用铺平了道路。
贡献:特别感谢 Ilan Gleiser,他曾是 AWS WWSO Frameworks 团队的首席生成式人工智能专家,为此用例提供了帮助。
Paul Burchard 是“人工天才”公司的创始人与合伙人,这是一家专注于超越现有技术水平的人工智能进展的创新公司。Paul 于 2023 年从高盛董事总经理职位上退休,在其二十年的职业生涯中,最后六年作为内部研发初创公司的联合创始人。在加入高盛之前,Paul 是学术界的一名创新者,在微芯片技术、几何非线性偏微分方程、万维网的早期开发和标准化、近似字符串匹配等领域取得了突破性成果。Paul 是多个技术领域(如人工智能、数据隐私和数字资产)众多基础专利的发明者。
Igor Halperin 是富达投资生成式人工智能集团的副总裁。在加入富达之前,Igor 曾在纽约大学坦登工程学院担任金融机器学习研究教授。此前,Igor 是摩根大通的量化研究执行董事,以及彭博有限合伙企业的量化研究员。Igor 在金融和物理学期刊上发表了大量文章,并经常在金融会议上发言。他合著了《金融机器学习:从理论到实践》(Springer,2020 年)和《信用风险前沿》(Bloomberg LP,2012 年)等书籍。Igor 拥有特拉维夫大学理论高能物理博士学位和圣彼得堡国立技术大学核物理硕士学位。2022 年 2 月,Igor 被《RISK》杂志评为年度买方量化分析师。
Mona Mona 目前在亚马逊担任资深人工智能/机器学习专家解决方案架构师。她曾在谷歌担任首席生成式人工智能专家。她是两本书的作者,分别是《使用 AWS AI 服务进行自然语言处理:通过 Amazon Textract 和 Amazon Comprehend 从非结构化数据中获取战略见解》和《谷歌云认证专业机器学习学习指南》。她撰写了 19 篇关于人工智能/机器学习和云技术的博客,并作为合著者参与了一篇关于 CORD19 神经搜索的研究论文,该论文在著名的 AAAI(人工智能促进协会)会议上荣获最佳研究论文奖。
Amin Dashti 是 AWS 的高级数据科学家和研究员,他将深厚的理论洞察与实践机器学习专业知识相结合。凭借理论物理背景和超过七年的经验,他设计并部署了跨领域的可扩展模型——从预测分析和金融系统中的统计推断,到计算机视觉和自然语言处理的前沿应用。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。