Altera(Intel)：CXL-Type2 近存计算案例

数据存储前沿技术

发布于 2025-02-11 18:56:00

2400

文章被收录于专栏：存储公众号：王知鱼存储公众号：王知鱼

问题意识

• 业界对CXL关注基本都落在内存扩展和分级应用上，催生了很多创业公司，但近存计算却很少被关注，除了“带头大哥”还在坚守，Type-2 设备怎么用？有哪些挑战和空间？

关于 Altera 公司[1]

Altera是一家知名的可编程逻辑设备（PLD）制造商，成立于1983年，专注于开发可编程逻辑器件如FPGA（现场可编程门阵列）、CPLD（复杂可编程逻辑器件）和ASIC（专用集成电路）等产品。2015年，Intel以167亿美元收购了Altera，将其整合为Intel Programmable Solutions Group（PSG，英特尔可编程解决方案事业部）的一部分。

Altera与Intel的业务关系

1. 完全收购与整合 Altera被Intel收购后，成为Intel的一部分，负责支持和拓展Intel在数据中心、云计算、高性能计算（HPC）等领域的可编程逻辑解决方案。这一整合使Intel能够将Altera的FPGA技术与自己的CPU、GPU和其他产品线结合，增强其产品的灵活性和性能。
2. 产品协作
- • 嵌入式解决方案： Intel利用Altera的FPGA技术开发灵活的嵌入式平台，将FPGA与其x86处理器结合，形成异构计算方案。
- • 数据中心与AI应用： FPGA因其高并行计算能力被用于数据中心、人工智能推理和高频交易等领域，补充了Intel的传统CPU产品线。
3. 技术共享收购后，Altera的技术被用来优化Intel的工艺设计，例如利用Intel的先进制程（如14nm、10nm、7nm）来生产更高效的FPGA设备。

两个主要的CXL（Compute Express Link）应用场景：

1. 主动内存分层（Active Memory Tiering）
- • 本地和远程内存分层。
- • 在分层之间迁移热点页面和冷页面。
2. 近内存计算加速（Near Memory Compute Acceleration）
- • 远程内存分层加速或在内存元素附近处理数据。

主动内存分层的考虑因素

方法（Approaches）：

1. 软件驱动：
- • 内核扫描内存分配，识别本地和远程内存引用。
2. 硬件基础的热页检测：
- • 识别内存层2中访问最频繁的物理页面。
3. 硬件辅助的应用透明内存分层管理：
- • 通过硬件支持进行分层管理，提升效率。

挑战（Challenges）：

1. "热度"分类的准确性：
- • 如何精确区分高访问频率页面。
2. 页面迁移延迟：
- • 内存页面从一个层迁移到另一个层的时间成本。
3. 工作负载特性的理解：
- • 不同类型的工作负载对分层机制的需求各不相同。
4. 硬件与软件的分区管理：
- • 如何高效地分配硬件资源与软件管理任务。

缓解措施（Mitigation）：

1. 增加硬件检测热页的卸载能力：
- • 将部分热页检测从软件转移到硬件以提高效率。
2. 提供增强的内存访问监控/报告功能：
- • 基于CXL内存的HDM接口（Host Direct Memory），改进内存的访问监控和报告能力。
3. 识别频繁使用的主机物理地址：
- • 确保高频使用的地址能够得到快速响应。

主动内存分层技术依赖于软件与硬件结合，通过分类、迁移和分层管理来优化内存的利用率。尽管面临分类准确性、迁移延迟和负载适配等挑战，但通过硬件加速、增强的内存监控能力和主机地址优化可以有效解决问题。分层架构将本地和远程存储资源整合在一起，形成了灵活高效的存储体系，适用于高性能计算和数据密集型应用场景。

Note：还是那句话，CXL的落地，不是硬件层面组装就能满足场景需求的，内存分层的核心在于找到合适的算法和路径以实现设备自感知的数据分层，从而满足应用场景实时、高带宽的需求，AI算法在数据分层的识别、迁移中应该可以发挥重要作用，业界这一块还很匮乏。

近内存计算加速的考虑因素（Near Memory Compute Acceleration Considerations）

方法（Approaches）：

1. 近内存处理引擎：
- • 实现于CXL终端设备上的EMIF控制器附近。
2. 基于计算内存设备与标准内存设备的分层管理：
- • 使用内存分层技术，结合计算能力和传统内存设备。

挑战（Challenges）：

1. 加速功能的决策：
- • 需要决定加速功能的具体方向，如数据分析、矩阵操作等。
2. SDK开发：
- • 为新的加速功能开发相关的软件开发工具包（SDK）。
3. 计算内存的成本：
- • 计算内存设备的成本较高，影响总体拥有成本（TCO）。

缓解措施（Mitigation）：

1. 使用FPGA与灵活技术：
- • 利用FPGA的灵活性，在靠近内存的地方加速特定功能。
2. 组合不同类型的内存设备：
- • 结合第二类（Type 2）计算内存和第三类（Type 3）内存分层技术，优化总拥有成本（TCO）。

FPGA集成到CXL扩展上的实践（数据加密），可参考：

• Intel：基于FPGA加密池化内存数据

近内存计算加速技术通过在内存设备附近部署计算引擎（如FPGA）来提升数据处理效率，特别适用于需要低延迟、计算密集型的应用场景。尽管面临成本和开发复杂性方面的挑战，但通过合理整合计算内存和标准内存分层，能够有效优化系统的性能和总体成本（TCO）。这种架构对于数据密集型应用（如数据分析、加密/解密）具有重大意义。

Note：近存计算可能是基于CXL链路最漫长的探索路径，且架构上与加速计算的其他范式(GPU/TPU)类似，PCIe通道有没有超越NVlink的互联高效性，现在还无法确定，但从生态成熟度来看，市场还愿意再等另一个10年吗？

性能指标（Performance Metrics）

关键信息：

• 公开披露的数据显示 CXL Type 2近内存加速（计算卸载到CXL设备）相比传统PCIe（数据传输）在延迟上的优势。

实验与结果（STAC Report）

• 实验描述：
- • 测试设备：LMS ÜberNIC CXL
- • 网络配置：10GbE和25GbE
- • 测试标准：STAC-N1（行业标准的低延迟测试场景）
• 实验结果：
- • SupplyToReceive延迟（标准264字节消息大小）显著优化。
- • 基于CXL的纯FPGA或UDP堆栈首次测试记录，显示延迟大幅降低。