问题意识
- • 业界对CXL关注基本都落在内存扩展和分级应用上,催生了很多创业公司,但近存计算却很少被关注,除了“带头大哥”还在坚守,Type-2 设备怎么用?有哪些挑战和空间?
关于 Altera 公司[1]
Altera是一家知名的可编程逻辑设备(PLD)制造商,成立于1983年,专注于开发可编程逻辑器件如FPGA(现场可编程门阵列)、CPLD(复杂可编程逻辑器件)和ASIC(专用集成电路)等产品。2015年,Intel以167亿美元收购了Altera,将其整合为Intel Programmable Solutions Group(PSG,英特尔可编程解决方案事业部)的一部分。
Altera与Intel的业务关系
- 1. 完全收购与整合 Altera被Intel收购后,成为Intel的一部分,负责支持和拓展Intel在数据中心、云计算、高性能计算(HPC)等领域的可编程逻辑解决方案。这一整合使Intel能够将Altera的FPGA技术与自己的CPU、GPU和其他产品线结合,增强其产品的灵活性和性能。
- 2. 产品协作
- • 嵌入式解决方案: Intel利用Altera的FPGA技术开发灵活的嵌入式平台,将FPGA与其x86处理器结合,形成异构计算方案。
- • 数据中心与AI应用: FPGA因其高并行计算能力被用于数据中心、人工智能推理和高频交易等领域,补充了Intel的传统CPU产品线。
- 3. 技术共享 收购后,Altera的技术被用来优化Intel的工艺设计,例如利用Intel的先进制程(如14nm、10nm、7nm)来生产更高效的FPGA设备。
两个主要的CXL(Compute Express Link)应用场景:
- 1. 主动内存分层(Active Memory Tiering)
- • 本地和远程内存分层。
- • 在分层之间迁移热点页面和冷页面。
- 2. 近内存计算加速(Near Memory Compute Acceleration)
主动内存分层的考虑因素
方法(Approaches):
- 1. 软件驱动:
- 2. 硬件基础的热页检测:
- 3. 硬件辅助的应用透明内存分层管理:
挑战(Challenges):
- 1. "热度"分类的准确性:
- 2. 页面迁移延迟:
- 3. 工作负载特性的理解:
- 4. 硬件与软件的分区管理:
缓解措施(Mitigation):
- 1. 增加硬件检测热页的卸载能力:
- 2. 提供增强的内存访问监控/报告功能:
- • 基于CXL内存的HDM接口(Host Direct Memory),改进内存的访问监控和报告能力。
- 3. 识别频繁使用的主机物理地址:
主动内存分层技术依赖于软件与硬件结合,通过分类、迁移和分层管理来优化内存的利用率。尽管面临分类准确性、迁移延迟和负载适配等挑战,但通过硬件加速、增强的内存监控能力和主机地址优化可以有效解决问题。分层架构将本地和远程存储资源整合在一起,形成了灵活高效的存储体系,适用于高性能计算和数据密集型应用场景。
Note:还是那句话,CXL的落地,不是硬件层面组装就能满足场景需求的,内存分层的核心在于找到合适的算法和路径以实现设备自感知的数据分层,从而满足应用场景实时、高带宽的需求,AI算法在数据分层的识别、迁移中应该可以发挥重要作用,业界这一块还很匮乏。
近内存计算加速的考虑因素(Near Memory Compute Acceleration Considerations)
方法(Approaches):
- 1. 近内存处理引擎:
- 2. 基于计算内存设备与标准内存设备的分层管理:
- • 使用内存分层技术,结合计算能力和传统内存设备。
挑战(Challenges):
- 1. 加速功能的决策:
- • 需要决定加速功能的具体方向,如数据分析、矩阵操作等。
- 2. SDK开发:
- • 为新的加速功能开发相关的软件开发工具包(SDK)。
- 3. 计算内存的成本:
- • 计算内存设备的成本较高,影响总体拥有成本(TCO)。
缓解措施(Mitigation):
- 1. 使用FPGA与灵活技术:
- • 利用FPGA的灵活性,在靠近内存的地方加速特定功能。
- 2. 组合不同类型的内存设备:
- • 结合第二类(Type 2)计算内存和第三类(Type 3)内存分层技术,优化总拥有成本(TCO)。
FPGA集成到CXL扩展上的实践(数据加密),可参考:
近内存计算加速技术通过在内存设备附近部署计算引擎(如FPGA)来提升数据处理效率,特别适用于需要低延迟、计算密集型的应用场景。尽管面临成本和开发复杂性方面的挑战,但通过合理整合计算内存和标准内存分层,能够有效优化系统的性能和总体成本(TCO)。这种架构对于数据密集型应用(如数据分析、加密/解密)具有重大意义。
Note:近存计算可能是基于CXL链路最漫长的探索路径,且架构上与加速计算的其他范式(GPU/TPU)类似,PCIe通道有没有超越NVlink的互联高效性,现在还无法确定,但从生态成熟度来看,市场还愿意再等另一个10年吗?
性能指标(Performance Metrics)
关键信息:
- • 公开披露的数据显示 CXL Type 2近内存加速(计算卸载到CXL设备)相比传统PCIe(数据传输)在延迟上的优势。
实验与结果(STAC Report)
- • 实验描述:
- • 测试设备:LMS ÜberNIC CXL
- • 网络配置:10GbE和25GbE
- • 测试标准:STAC-N1(行业标准的低延迟测试场景)
- • 实验结果:
- • SupplyToReceive延迟(标准264字节消息大小)显著优化。
- • 基于CXL的纯FPGA或UDP堆栈首次测试记录,显示延迟大幅降低。
Intel-UIUC KSM卸载到CXL Type 2设备:
- • 现状:
- • 内核功能增加了应用程序尾延迟,消耗了大量CPU周期。
- • 优化方案:
- • 优化效果:
- • 应用程序尾延迟降低83%。
- • CPU周期消耗减少61%。
延迟测试结果:
测试数据,详见[2]。
CXL Type 2近内存加速通过显著降低延迟和CPU占用,展现了相比传统PCIe架构的巨大性能提升。实验数据表明,其延迟优化高达68%,特别是在内核卸载和数据密集型应用中具有极高的效率。这使CXL成为未来高性能计算和低延迟需求场景的重要技术选择。
关键结论(Takeaways)
CXL 基于内存分层和近内存加速的优势:
- 1. 降低系统总体拥有成本(TCO):
- • 通过高效的内存管理和计算加速技术减少整体成本。
- 2. 卸载CPU的处理负担:
- 3. 减少特定工作负载的处理延迟:
通过FPGA解决方案缓解挑战:
- 1. CXL IP和设计示例:
- 2. 动态可重配置性(Dynamic Reconfigurability):
- • FPGA的灵活性支持实时调整功能以适应不同需求。
引用链接
[1]
Altera 公司: https://www.intel.cn/content/www/cn/zh/products/programmable.html
[2]
详见: https://stacresearch.com/news/LMS240510a