
过去,IT基础设施的可靠性工程已经形成了一套相对成熟的方法论:通过冗余设计、故障隔离和自动恢复,系统可以在硬件失效或软件异常时保持稳定运行。
然而,随着AI基础设施的兴起,大规模模型训练和推理系统的普及,这一范式正面临根本性的挑战。
与传统计算系统不同,AI基础设施不仅要应对超大规模分布式集群带来的硬件和系统故障,还必须处理模型计算的概率性、数据分布的动态变化,以及结果正确性难以直接验证等问题。更关键的是,大量故障不再以“宕机”或“报错”的形式出现,而是以性能退化、数值偏移甚至静默数据损坏(SDC)的方式隐性存在,对最终模型质量产生深远影响。
在这样的背景下,可靠性不再只是保证系统运行,而是需要扩展为一个跨硬件、系统、训练过程乃至模型输出的全链路可靠性体系。下面我们就一起理解下AI基础设施中的可靠性挑战吧!
一、总体框架
如下图所示,AI基础设施的可靠性是一个贯穿硬件、系统、训练过程、模型行为直至用户结果的多层次、跨域耦合问题。
底层硬件与系统的微小异常,可能通过分布式训练过程被放大,进而影响模型参数与行为,并最终在推理服务与用户交互中表现为结果偏差甚至错误。
因此,AI基础设施的可靠性必须从传统的“系统可用性”扩展为“端到端结果可信性”,其目标不仅是保证各层独立运行稳定,更是确保跨层故障不会在传播过程中累积并影响最终输出。
在这一框架下,可靠性工程需要引入跨层观测与验证机制,将硬件遥测、系统指标、训练信号、模型评估以及用户反馈统一纳入同一闭环控制体系,实现从异常检测、根因定位到自动修复与持续验证的全链路能力。
这种“分层建模 + 跨层闭环”的方法论,标志着AI基础设施从以资源与服务为中心的传统SRE范式,演进为以结果质量与业务可信性为核心的新一代可靠性工程体系。

二、硬件可靠性
以Meta在Llama 3 405B模型预训练中的经验为例,在一个由16,384块GPU组成的集群中,54天训练期间共发生419次意外中断,平均每约3小时即出现一次故障,其中约78%的中断可归因于已确认或疑似的硬件问题,而其中由GPU及其HBM导致的约占58.7%。
这一结果从实证层面揭示了AI基础设施可靠性的一个核心特征:故障并非异常事件,而是大规模系统中的常态背景噪声。

绝大多数中断起源于L0硬件层,但其影响却通过系统与训练过程逐层放大。具体而言,底层GPU或互连(如NVLink)故障往往首先表现为分布式通信阻塞或“慢节点”(straggler)现象,进而影响梯度同步与训练收敛路径,最终可能导致模型质量退化或结果偏移。更为关键的是,这类故障在多数情况下不会触发显式错误,而是以性能退化或静默数据损坏(SDC)的形式存在,使得问题检测与根因定位极为困难。
从工程上看,硬件可靠性的增强大致有五条主线。
1.提升器件级容错能力。
这包括ECC、Error Containment、坏页/坏行隔离、HBM 修复、行重映射等。NVIDIA 公开文档显示,A100 等 GPU 的内存错误管理已经不只停留在“发现错误”,还包括 dynamic page offlining、row remapping、HBM channel repair 等机制;
其中row remapping 是在硬件层用备用行替换劣化存储单元,减少软件可见的地址空间缺口,并把相关健康统计暴露出来供运维使用。换句话说,现代 GPU 已经在向“可自修复内存子系统”演进。
2.把“被动告警”升级为“主动验证”。
Microsoft 的 SuperBench 论文指出,AI 基础设施中大量冗余机制会引入灰故障,系统未必会宕机,但性能和端到端表现会悄悄退化。
为此,他们提出用代表性基准做持续、主动的硬件与节点验证,而不是等业务报障后再排查;论文报告称,该方法在Azure 生产环境验证了数十万块 GPU,并把平均事故间隔时间提升到原来的 22.61 倍。这个思路对硬件可靠性非常关键,因为很多故障不是“坏”,而是“变差”。
3.车队级遥测、分诊与隔离。
Meta 的公开经验说明,单卡或单节点视角已经不够,必须做 fleet-level reliability:持续收集 XPU、HBM、互连、交换机等遥测信号,对节点做分级、筛查和准入控制,把“高风险但尚未彻底损坏”的节点提前隔离。
Meta 在文章中把重点放在 fault categorization、device triage、node selection、cluster validation 和 checkpoint restore 上,本质上就是把硬件可靠性做成“统计筛查 + 自动隔离”的系统能力。
4.围绕SDC 和灰故障建立更强的观测与验证链路。
AI 时代最危险的不一定是 fail-stop,而是 SDC:硬件层的小错误不一定导致程序崩溃,却可能悄悄改变训练轨迹或推理输出。因此,增强硬件可靠性不能只看 ECC 计数、掉卡率、链路 flap 这些传统信号,还要引入 fault injection、stress testing、运行时诊断以及与训练/模型指标联动的验证手段,去判断“这些低层错误是否已经影响结果”。
5.让系统具备硬件故障下的快速恢复能力。
在超大规模训练里,不可能指望“零故障运行”。Meta 明确提到,他们在实践中需要把节点选择、集群验证和 checkpoint 恢复一起优化;这说明增强硬件可靠性的目标已经从“让硬件永不出错”转向“硬件出错时,把影响范围压小、恢复时间缩短”。这也是为什么今天的硬件可靠性越来越依赖于调度器、训练框架、checkpoint 机制联动,而不只是硬件团队单独负责。

三、系统可靠性
系统层是“承上启下”的关键层,它向下屏蔽硬件的不稳定(GPU/NIC/存储),向上为为训练和推理提供稳定运行环境。
AI训练的特点是大规模同步以及强一致性依赖,因此一个节点坏掉或者慢则会导致全局训练被卡住,单节点问题会放大为全局问题。
AI系统可靠性需要应对四大核心问题:慢节点、节点故障/调度问题、NCCL等通信问题以及存储IO瓶颈、可观测性不足,通过“检测—隔离—容错—优化通信”四大机制,防止局部问题演化为全局系统失效。

四、模型可靠性
模型层级的可靠性是其在真实环境中持续输出“正确、稳定、可控结果”的能力。
模型会出现幻觉,自信地输出错误内容;模型在训练时很好,但上线后表现变差;模型还会退化,随时间性能下降;模型还不稳定,相同的输入会得到不同的输出;模型还有鲁棒性不足,在边界条件下失效的情况……
如何评估模型的可靠性呢?可结合离线、在线与人类反馈三类机制,构建多维度评价体系。常见的评估方法有:
1. 离线评估(Offline Evaluation)
基于标准数据集或构造测试集,对模型进行批量评估。该方法具有可重复性强、成本低的优势,但难以覆盖真实世界复杂场景。
2. 在线评估(Online Evaluation)
通过A/B测试、影子流量(shadow traffic)等方式,在真实用户环境中评估模型表现。其优势在于贴近实际应用,但反馈周期较长,且难以精确归因。
3. 自动评估(LLM-as-a-judge)
利用大模型对模型输出进行自动评分或对比评估,能够在规模上替代部分人工评估,但其评估本身也存在偏差问题。
4. 人工评估(Human-in-the-loop)
通过专家标注或用户反馈对模型输出进行质量判断,是当前最可靠的评估方式,但成本高、难以规模化。
提升模型可靠性的工程化方法有哪些呢?
1. 检索增强生成(RAG)
通过引入外部知识库,将生成过程约束在可验证信息范围内,从而显著降低幻觉风险。
2. 安全与约束机制(Guardrails)
包括输入过滤、输出检测以及策略约束等,用于控制模型行为边界,防止产生有害或违规内容。
3. 多模型协同(Ensemble / Routing)
通过模型投票、交叉验证或分层路由,提高输出稳定性与正确性。
4. 置信度校准(Calibration)
提升模型输出概率与真实正确率之间的一致性,使系统能够更好地评估自身不确定性。
5. 持续学习与反馈闭环(Continuous Learning)
通过用户反馈、在线数据和周期性再训练,实现模型的持续优化与适应。
模型可靠性是AI基础设施中最具挑战性的环节之一,其本质在于:
在不确定性与动态变化环境中,通过评估、约束与反馈机制的协同作用,持续保证模型输出的可信性与可控性。
这一问题的解决,不仅依赖算法与模型本身的改进,更需要与系统可靠性、数据治理以及应用层策略形成紧密协同,从而构建端到端的AI可靠性闭环。

五、推理和编排的可靠性
这层级的可靠性指的是在复杂推理与多组件编排流程中,系统能够以可预测的性能、正确的流程执行顺序以及受控的错误传播方式,将模型能力稳定转化为用户可用结果的能力。
这一层不仅是AI系统的执行核心,也是连接模型能力与用户体验的关键桥梁,其可靠性水平直接决定了AI系统的工程可用性与商业价值。
这一层的核心挑战有:
1. 多组件耦合与级联失败(Cascading Failure)
现代AI服务通常由多个子系统组成,例如:
用户请求→ 路由 → 检索(RAG) → 模型推理 → 工具调用 → 聚合输出
在该链路中,任一组件的失败或性能退化,都可能通过调用链传播并放大。例如,检索阶段返回低质量结果,将直接影响生成质量;工具调用失败则可能导致整个任务中断。
2. 多步推理中的误差累积(Error Accumulation)
在Agent或复杂workflow中,系统往往需要执行多轮决策:Step1 → Step2 → Step3 → ... → 输出,每一步的小误差都会被后续步骤放大,最终导致显著偏差。这种“误差链式传播”是Serving层特有的问题。
3. 不确定性放大(Uncertainty Amplification)
模型输出本身具有概率性,当该输出作为后续步骤的输入时,不确定性会逐步放大。
4. 性能抖动与尾延迟(Tail Latency)
在多组件系统中,总延迟通常由最慢组件决定。因此单个组件的延迟波动(尤其是p95/p99)会显著影响整体服务稳定性。
5. 可观测性与调试困难
Serving层问题通常横跨多个服务与组件、难以复现(非确定性)、缺乏明确的错误信号。因此,传统的日志与指标体系难以支持有效诊断。
这一层级的可靠性也需要建立自己的评估体系,多维度评估:
1. 可用性指标(Availability)
request success rate
error rate
timeout rate
2. 性能指标(Performance)
p50 / p95 / p99 latency
throughput(tokens/sec)
queue time
3. 流程指标(Workflow Metrics)
tool invocation success rate
retrieval success rate
step completion rate
4. 质量代理指标(Quality Proxy)
fallback rate
retry rate
user abandonment rate
可通过以下技术手段提升其可靠性:
1.分层容错与降级(Graceful Degradation)
通过设计多级fallback机制,确保系统在部分组件失败时仍能提供基本服务,例如:
RAG失败 → fallback到纯模型生成
大模型失败→ fallback到小模型
2. 编排引擎与流程控制(Workflow Orchestration)
引入显式workflow控制机制,将隐式推理流程转化为可控执行图
DAG-based execution
状态机(state machine)
超时控制(timeout budget)
3. 多模型路由与冗余(Routing & Redundancy)
通过模型路由与冗余机制提升可靠性。
4. 请求级追踪(End-to-end Tracing)
构建跨组件的trace能力,定位瓶颈,分析故障传播路径
5. 幂等性与重试机制(Idempotency & Retry)
6. 缓存与负载调控(Caching & Admission Control)

六、结果可靠性
与底层硬件、系统或模型可靠性不同,结果可靠性关注的不是“系统是否运行”或“模型是否正确”,而是用户是否获得了正确、可用、可信且安全的结果。因此,该层本质上是一个以用户与业务为中心的语义与决策层可靠性问题。
这一概念包含四个核心维度:
任务正确性(Task Correctness):输出是否完成用户意图;
实用性(Usefulness):结果是否可执行或具有业务价值;
安全性(Safety & Compliance):输出是否符合规范与风险控制要求;
一致性(Consistency):在相似场景下是否表现稳定。
提升结果可靠性的核心挑战有:
1. 无显式Ground Truth(Lack of Ground Truth)
在许多真实场景中(如对话、决策支持、复杂推理),不存在明确的“标准答案”。因此,系统难以通过传统自动化测试验证结果正确性。
2. 延迟反馈与弱监督(Delayed & Weak Feedback)
结果的正确性往往在较长时间后才体现,这使得问题检测与优化存在显著滞后。
3. 多目标权衡(Multi-objective Trade-off)
结果可靠性通常需要在多个目标之间(正确性vs 速度 vs 成本 vs 安全)权衡,优化某一维度可能导致其他维度下降,从而增加系统设计复杂性。
4. 错误的“隐蔽性”与“高影响性”
结果层错误往往表面合理,但一旦出错影响范围大
5. 系统级误差放大
来自下层的微小偏差(模型误差、编排错误等),在结果层可能被放大为用户级失败。
同样,结果可靠性也需要建立评价指标体系,如用户行为、业务、风险和安全、系统代理等。
提升结果可靠性的工程方法有:在关键决策场景中,引入人工审核机制;通过规则与策略约束输出;多模型交叉验证;提供输出解释、审计日志等。

七、展望:AI基础设施的可靠性工程演进方向
综上所述,AI基础设施的可靠性正在从“系统稳定性问题”演进为一个贯穿计算、数据与决策全过程的系统性工程问题。传统IT基础设施中可靠性目标,已难以覆盖AI系统中由概率计算、分布漂移以及多层耦合带来的复杂失效模式。在这一新范式下,可靠性的衡量标准正从“系统是否运行”转向“结果是否可信”,其工程实践也从单层优化转向跨层协同。
展望未来,AI基础设施的可靠性工程将呈现出几个重要发展方向。首先,从被动监控走向主动验证(validation-first),通过基准测试、故障注入与持续评测等手段,在问题影响结果之前实现提前识别与隔离。其次,从组件级可靠性走向车队级(fleet-level)与系统级可靠性,以统计与运营的方式管理大规模异构硬件与复杂系统行为。再次,跨层观测与因果分析能力将成为核心基础设施,通过统一日志、指标、追踪与评测信号,实现从硬件异常到结果偏差的端到端关联与根因定位。
与此同时,随着Agent系统与复杂AI应用的普及,可靠性问题将进一步从“执行正确性”延伸到“决策正确性”。这意味着未来的可靠性工程不仅需要系统与算法层的协同,还需要引入更多人机协同(human-in-the-loop)、策略约束(policy-aware control)以及可解释性(explainability)机制,以保证AI系统在高风险场景下的可控性与可审计性。
最终,AI基础设施可靠性的目标,将不再是构建一个“不会出错的系统”,而是构建一个在持续出错环境中依然能够自我检测、自我修复并持续输出可信结果的自适应系统。这一转变标志着可靠性工程从传统的工程优化问题,迈向一个融合系统工程、机器学习与人机交互的综合性科学问题,也将成为未来AI规模化落地与产业化应用的关键基础。