1. CXL技术用于解决传统服务器内存扩展中的限制,包括有限的DIMM插槽、内存容量和带宽限制以及高成本问题。
2. 与直连内存相比,原生CXL内存扩展面临时延和带宽限制,如何优化CXL时延并提高有效带宽是落地关键。
MemVerge[1] 是一家领先的 AI 基础设施软件公司,专注于在生成式 AI 时代优化以 GPU 为中心的大内存计算。MemVerge 解决方案利用其在内存软件方面的独特专业知识,帮助金融服务、科学计算和云服务提供商等各行各业的组织加速其 AI 和科学计算工作负载。
在透明检查点、GPU 调度、内存分层和内存共享方面的创新使客户能够最大限度地利用他们的计算资源并突破内存壁垒。基于这些创新,MemVerge 提供了一套 Memory Machine 软件产品,以在企业内部建立 GPU 即服务,在本地和云端自动化 AI 工作负载管道,并实现 CXL 内存扩展和多节点内存共享。
各大银行的 AI 从业者部署 Memory Machine AI 使 GPU 利用率翻倍;一流大学的科研人员使用 Memory Machine Cloud 节省了 50% 以上的云成本;各地的 IT 架构师使用 Memory Machine X 重新设计大内存数据中心以加速 AI 工作负载。MemVerge 解决方案可在公共云、私有云和混合云中运行,有利于大多数正在推出 AI 驱动应用程序的企业客户。
通过两个示例(Metabat基因组工作负载和SQL Server数据库),展示了不同的扩展方案。在基因组任务中,使用单一4TB节点能大幅缩短运行时间。而在SQL Server中,扩展可以通过增加节点或内存扩展模块提高QPS性能。
解决方案
附加卡 (AIC)
E3.S模块
表格比较了不同内存配置的成本,包括仅使用Socket DRAM和结合CXL DRAM的混合配置。采用CXL DRAM扩展可以显著降低每GB的成本,尤其是在较大内存配置(如4,096GB和8,192GB)下,成本显著降低。
CXL导致复杂的异构内存层次结构
右侧表格列出了不同NUMA节点的容量、延迟和带宽:
由于跨NUMA内存访问导致的应用性能影响:
Note:CXL 扩展与直连内存(DAS)相比,容量虽有明显提升,但由于数据从PCIe总线传输效率不及DIMM,导致较高的时延,且带宽上限仅与单DIMM通道接近。
有什么优化措施吗?
Memory Machine™ X (MMX) 通过以下方式减轻了 CXL 的延迟和带宽挑战:
对应用程序和 Linux 操作系统内核透明
图中给出Mysql数据库TPS和时延测试数据,加入 MMX 后的配置(64GB Socket + 64GB CXL + MMX)显著提升了性能(TPS),同时大幅降低了延迟(P95 延迟)。相比于传统配置(64GB Socket DRAM + SSD),MMX 的引入使每秒事务数和延迟得到优化,为高性能应用提供了更高效的解决方案。
带宽策略
带宽优化内存放置和移动的目标是根据应用程序的带宽要求在 DRAM 和 CXL 内存之间策略性地放置和移动数据,从而最大限度地提高整体系统带宽。
带宽策略引擎将利用所有 DRAM 和 CXL 内存设备的可用带宽,并以用户可选择的 DRAM 与 CXL 比率来保持带宽和延迟之间的平衡。
延迟策略
延迟分层可以智能地管理异构内存设备之间的数据放置,以根据内存页的“温度”或访问频率来优化性能。
MemVerge QoS 引擎将热页面移至 DRAM,以便快速访问。冷页面则放置在 CXL 内存中。
通过确保经常访问的数据存储在 DRAM 中,系统可以减少内存访问的平均延迟,从而提高应用程序性能。
[1]
MemVerge: https://memverge.com/memory-machine-cxl/
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有