全文概览
随着AI模型规模的指数级增长,企业面临计算与存储的双重挑战。IBM通过Vela系统和Granite系列模型,重新定义了AI基础设施的标准。本文深入解析其架构设计、性能优化及存储解决方案,揭示如何在云环境中实现高效、可扩展的AI计算。从基础模型的演进到Vela系统的网络与存储创新,再到IBM Storage Scale的突破性改进,内容覆盖AI基础设施的全生命周期,为企业构建下一代AI平台提供关键洞察。
阅读收获
幻灯片描述了演讲者在20多年职业生涯中的关键阶段和经历。每个阶段的重点是学习新的技术和技能,推广工作,并帮助他人。演讲者还强调了社区服务和领导力的重要性,以及通过帮助他人获得成长的经验。
===
20+年职业旅程
图片展示了从传统AI领域模型(模型1、模型2、模型3)到新兴的基础模型的转变。
基础模型通过自监督训练和数据预处理在数据选择和整理方面具有更多的集中和大规模的特性。与传统模型不同,基础模型更加注重大规模的自我训练与数据预处理,从而适应不断变化的应用需求。
===
模型1、模型2、模型3:
这些模型都需要大量的数据(日志、表格、社交、视频、图像等)。
基础模型(右侧):
幻灯片介绍了IBM Granite系列模型在企业中的应用,主要分为三个方向:代码生成、语言处理和时间序列预测。Granite模型在不同的任务中都展现了优化的性能,特别是在提高准确度、吞吐量和资源效率方面,适用于企业级的各种应用场景。
===
如何理解这里的 时间序列模型 ?
与传统的大模型(如基础模型、语言模型等)相比,时间序列预测模型在结构上有几个明显的不同之处,主要体现在以下几个方面:
幻灯片描述了AI工作负载的不同阶段(数据准备、分布式训练、模型调优、推理)以及每个阶段所需的基础设施类型和时间要求。
不同阶段的任务需要不同规模的计算资源,且根据任务的复杂性和时间要求,可能需要本地部署、公共云或边缘计算环境。推理阶段特别关注延迟和吞吐量的需求,通常要求更高的实时性。
幻灯片展示了基础模型的训练过程是如何与数据量、模型参数和计算需求紧密相关的。
随着数据量和模型参数的指数增长,所需的计算资源也呈指数级增长。通过该公式,可以看出,训练大规模的基础模型需要巨大的计算能力,这也解释了为什么随着模型规模的增大,所需的计算能力和硬件资源需求也随之提高。
幻灯片展示了Vela系统的各个阶段发展。
从2022年到2024年,Vela系统逐步增强了网络性能、硬件配置和可用性。
Vela系统 与云平台&HPC平台的比较
特点 | Vela 系统 | 虚拟化平台 | HPC 平台 |
---|---|---|---|
设计目标 | 专为 AI 和深度学习设计,优化 GPU 加速和分布式训练 | 提供硬件资源的虚拟化,支持多租户和灵活资源分配 | 提供极高性能的计算能力,专为大规模并行计算设计 |
硬件优化 | 专注于 GPU(如 H100)、高带宽低延迟网络(如 RDMA、RoCEv2) | 通过虚拟化技术将硬件资源分配给多个虚拟机或容器 | 高性能计算节点、加速器(如GPU)、快速网络(如 Infiniband) |
计算类型 | 高性能 AI 计算(深度学习模型训练和推理) | 通用计算,适用于多种类型的工作负载 | 高度并行计算,处理科学计算、模拟等计算密集型任务 |
资源管理 | 高度集成的AI训练集群和多租户支持 | 支持多种虚拟机/容器和资源的动态分配与管理 | 集群管理,优化计算资源的分配,通常有专门的调度器 |
应用场景 | AI训练、推理、深度学习、基础模型 | 云计算、开发/测试环境、Web服务、容器化部署等 | 科学计算、工程仿真、大数据分析、天气预测等 |
可扩展性 | 支持大规模并行计算和动态扩展 | 支持灵活的资源分配和弹性扩展,适合多样化需求 | 可扩展至大规模集群,适合大规模计算任务 |
Vela系统的设计目标是通过高效的以太网网络和灵活的云架构来优化性能,同时确保能够支持AI工作负载的整个生命周期。
系统设计考虑到了操作敏捷性和可扩展性,使其能够随着需求的变化进行弹性扩展。此外,Vela系统还特别关注能效,在功耗、空间使用和冷却方面进行了优化,以确保高效和环保的运行。
===
图示: 该图展示了Vela系统的架构,包括机架、节点、和机笼的布局,并标出了高速以太网连接(如 2x100Gbps),以确保高效的通信和数据流动。
Vela 系统的架构强调高可用性、冗余设计和灵活的计算资源管理。通过双端口网卡、多层网络交换机、分层存储等设计,确保了系统在处理大规模 AI 和深度学习任务时能够提供高性能和高可靠性。这些设计增强了网络的容错能力,优化了数据流动,适应了大规模计算任务的需求。
===
Vela计算节点是为高性能计算、深度学习训练和推理优化的计算资源,每个节点具有强大的硬件配置,包括多个高性能GPU(如A100)、大容量内存和高速存储。客户可以通过虚拟系统实例(VSI)购买这些节点,并获得与IBM Cloud生态系统的集成,进一步提升灵活性和扩展性。
===
AI智算与云平台
值得思考的是:IBM Vela 系统的商务模式和虚拟化平台(VMware、私有云等)是非常相似的,AI平台在企业IT的存在方式,究竟是独立的独立的高性能单元,还是和通用IT相耦合的综合平台,这个问题值得长期关注和思考。
IBM Cloud Vela 在2021到2022年期间,提供了接近裸机性能的云计算服务,特别在AI训练和深度学习任务中优化了GPU资源的利用率,保持了极低的虚拟化开销,确保了高效的计算性能。
===
对AI平台性能的思考
综合的虚拟化云计算平台提供丰富、灵活、高可用的IT基础设施服务,但虚拟化层的资源消耗也非常惊人,这是软件定义工程的必然结果,然而在AI计算平台中,当前的核心关切是对极致性能的需求,所以更希望提供轻量化的软件定义能力,可以预想到的是:随着AI与业务系统的深度整合,软件定义的AI能力也将促成厚重的软件层技术栈。
Note
企业测的模型再训练短期来看,能真正落地的不多,因为性价比可能并不如RAG来的高效,但长期RAG也讲造成企业知识库的分散,是否存在一种模式:基础模型+分库RAG增强问答+阶段性微调,来循环、多代次更新企业智能体。
究竟系统性能提升是如何实现的呢?
图示: 左侧是传统的节点间通信架构,右侧是启用了 GPU Direct RDMA (RoCE/GDR) 技术的优化架构,展示了如何通过低延迟和高吞吐量的网络连接加速计算和数据交换。
GDR (GPU Direct RDMA) 显示出比 TCP 更高的性能,尤其在大规模GPU集群和处理大模型时,GDR能够提供更高的带宽和更低的延迟。
具体来说,在32个GPU上,GDR的性能比TCP好1.4到2.6倍,适用于需要高吞吐量和低延迟的计算任务,特别是在大规模深度学习模型的训练中。
===
===
分布式数据并行 (Distributed Data Parallel) - 模型适合在GPU上运行
完全分片数据并行 (Fully Sharded Data Parallel) - 用于大模型
模型推理过程的并行机制
模型推理过程也可以采用类似的并行和分片机制,尤其是在处理大型模型时。尽管训练过程和推理过程的需求和方法有所不同,但在推理时也可以通过多种并行化技术提高效率。以下是几种常见的推理并行和分片机制:
在模型推理过程中,确实可以采用类似于训练过程中的并行和分片机制,通过数据并行、模型并行、流水线并行等方式来优化推理性能。对于极大规模的模型,采用模型并行和分片方法是提高推理效率的关键。此外,混合并行和分布式推理也能在大规模数据和计算环境中提供显著的加速。
为了应对AI服务器故障率高于传统云系统的挑战,Vela系统通过引入自动化诊断与操作工具,如警报和故障组件快速检测与隔离工具,显著提高了系统的维护效率。这些改进使得故障识别和解决的时间缩短了超过一半,增强了系统的可维护性和稳定性。
===
图示: 展示了Vela计算节点的架构,包含CPU、GPU、存储、网络接口等,展示了如何高效配置硬件资源以支持高性能的计算。
Cite
与传统云平台相比,AI服务器的故障率呈现出不同的特点。传统云平台通常采用虚拟化技术,将多个虚拟机部署在物理服务器上,通过资源隔离和迁移来提高可靠性。然而,虚拟化层和宿主机内核的额外复杂性可能引入新的故障模式。但通过内核隔离硬件故障、热迁移规避故障隐患,以及监控故障率并主动下架不良厂商机型等手段,云平台的故障率可以被优化至接近零的水平。 developer.aliyun.com+1[1]
在AI服务器领域,故障率的高低取决于硬件配置和运维管理。由于AI工作负载对计算资源要求高,通常配置高性能的GPU等硬件。然而,GPU的故障率相对较高,特别是在大规模应用场景下,故障风险也随之提升。 因此,针对AI服务器的故障检测和自愈能力显得尤为重要。通过AI技术对服务器运营数据进行实时分析,实现对CPU、内存、硬盘、PCIe等设备的自动化预警,能够将服务器故障诊断的明确化率提升至95%以上。
为了应对GPU系统中的硬件和软件故障,Vela系统引入了多种监控与恢复机制。
通过自动化的健康检查和故障响应(如警报和任务重启),能够及时发现并解决潜在问题,确保系统运行的稳定性和高效性。同时,与调度器的集成优化了资源的分配,避免了因故障或性能下降的资源影响整个工作负载的执行。
===
故障类型 | 根本原因 | 缓解措施 |
---|---|---|
硬件故障(主机崩溃) | GPU HGX 主板故障、内存 DIMM 故障、NVLink/交换机故障 | Slack 警报(主机崩溃时),自动重启虚拟机,自动重启任务 |
细微硬件故障(无主机崩溃) | GPU 故障,GPU HBM 内存损坏,PCI-E 链路故障,端口故障,电源故障 | Slack 警报(主机、GPU、其他关键组件故障),基于主机 BMC 日志的警报,增强的指标收集(通过 Autopilot) |
软件故障 | PCI-E 链接退化,CUDA 内存分配错误,HBM 内存行映射 | 检查 PCI-E 链接,基于应用程序日志的警报,定期重启虚拟机 |
针对AI的存储方案,通常采用对象存储、分布式文件存储和本地存储的组合。
每种存储方式有其特定的应用场景,并通过自动化同步技术与云对象存储(COS)保持一致。为确保存储层之间的数据迁移对用户透明,同时避免影响系统性能,需要开发弹性的存储架构,并提升数据迁移的自动化和透明度。
===
研究挑战:
Note
文中对AI存储面临挑战的总结,值得软硬件供应商一起思考,例如:
引入 IBM Storage Scale 后,Cloud Vela 提供了更高效的存储和计算资源管理。通过使用 IBM Cloud 的专用存储集群和块存储,解决了存储的成本效益问题,并通过动态扩展 GPU 计算集群来满足高效训练和计算的需求。
===
主要特点:
Note
从左侧的示意图来看,IBM Storage Scale 底层是有2套存储的,对象存储和块存储,通过块存储挂载文件系统,以实现高效数据临时写入,再通过网关(AFM)将块存储转化为对象存储。
引入 IBM Storage Scale 后,检查点时间显著缩短,输入读取时间更加稳定,迭代性能的波动减少,尤其是在大模型训练中,性能和效率得到了提升。
===
AI 工作负载变化迅速 AI 技术和应用的快速发展导致其工作负载(如数据处理、模型训练等)也在不断变化。这种变化要求我们在设计系统时保持灵活性,以便快速适应新的需求。例如,随着模型的复杂度和训练数据的增加,硬件资源和存储方案的需求也会快速变化,因此需要持续监控并优化系统架构。
提供可用的解决方案并不断迭代 AI 项目通常是复杂且动态的,因此初期的解决方案可能不是最终的答案。为了适应变化,团队应当持续迭代解决方案,并在实际使用中进行优化。这种迭代过程包括技术和方法的不断演进,数据处理流程的调整以及性能优化,确保解决方案始终能够满足用户需求。
自动化是运营成功的关键 随着 AI 工作负载的增长和复杂性提升,手动操作变得越来越不可行。自动化能够极大提升操作效率,减少人工干预和出错的概率。无论是数据的自动化处理、模型训练的自动化调优,还是故障检测和修复的自动化,都是确保 AI 系统能够稳定、持续运行的关键。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
原文标题:Insights Gained from Delivering Two Generations of AI Supercomputers and Storage Solutions in IBM Cloud