1. CXL内存优化了AI推理性能和系统性能。
2. AI模型需要大量的内存和网络带宽来存储上下文窗口和键值对缓存。
3. 使用CXL内存可以提高GPU利用率并降低CPU使用率。
4. CXL内存可以帮助缓解内存瓶颈问题。
5. 使用CXL内存可以加速AI推理过程并提高并发实例数。
关于 AsteraLabs [1]
公司专注于为数据密集型系统设计、制造和销售定制化的连接解决方案。Astera Labs的产品组合包括系统感知半导体,旨在提升云和人工智能基础设施的性能。
AsteraLabs:CXL内存扩展在推理场景的应用-Fig-1
AI 推理的内存需求
LLM推理:
关键组成部分:
KV缓存存储了所有先前token的键和值
附加说明:
AsteraLabs:CXL内存扩展在推理场景的应用-Fig-2
左图:配置NVMe-SSD的存储架构
右图:使用CXL扩展主存取代SSD
Note:前两天的材料里主要介绍了SSD厂商在推理场景的创新草图,CXL扩展主存来满足推理需求是容易理解的,存在的问题是:CXL协议自身的延迟能否达到适配主存的要求?否则SSD来做推理存储,天然具备成本优势。
参考阅读:
AsteraLabs:CXL内存扩展在推理场景的应用-Fig-3
基于CXL优化的AI推理服务器性能结果
左侧:四块不带CXL的GPU(24个DIMMs)
右侧:四块带四个Leo CXL控制器的GPU(40个DIMMs)
使用CXL控制器的系统:
Note:使用CXL内存扩展效率比SSD高,结果并不让人意外,关键还是成本,成本,成本!
AsteraLabs:CXL内存扩展在推理场景的应用-Fig-4
推理场景实测图-加速推理速度
CXL提高IO效率,从而提升GPU利用率
GPU利用率对比图:显示了OPT-66B模型在NVIDIA L40s GPU上的利用率对比。图表中有两条曲线:
硬件配置:
软件配置:
运行参数:
AsteraLabs:CXL内存扩展在推理场景的应用-Fig-5
减少CPU负载
CPU利用率对比图(左):展示了OPT-66B模型在AMD EPYC 9534 64核处理器上的CPU利用率对比。图表显示了使用CXL(蓝线)与未使用CXL(橙线)之间的区别。使用CXL后,每个查询的CPU利用率降低了40%。
AsteraLabs:CXL内存扩展在推理场景的应用-Fig-6
主要看右侧的图即可,
比较了使用CXL与否的两个测试组,CPU使用率和可支持示例数差异,结论:
单个实例的系统工作负载(约1TB):
2到4个实例的系统工作负载(约2TB-4TB):
如何理解图中实例的含义,与并发用户数是什么关系?
"LLM实例"指的是大语言模型在推理时的独立运行实例。每个实例独立占用系统资源(如GPU、内存),用于处理推理任务。实例的数量决定了服务器可以同时支持多少推理任务。 与并发用户数的关系在于,一个实例可以通过批处理技术同时处理多个用户的请求,因此实例数并不直接等于并发用户数。例如,批处理技术可以将多个用户请求打包,通过一个实例处理,提升并发能力。
[1]
关于 AsteraLabs : https://metaso.cn/s/FjoyBV4
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有