问题意识
1. 如何定义(理解)AI/ML 中小规模场景?
2. AL/ML 全栈解决方案(HW/SW/业务框架)
Benefits of AI/ML (人工智能/机器学习的好处)
- • 增加数据分析的效率,从而使产品开发更加集中
- • 通过更好的分析和趋势、问题识别来改善客户体验
- • 改进数据管理,使得决策和分析更加有效
- • 通过更有效的数据分析和管理,提高员工效率
- • 改善风险管理
Challenges and Barriers to Entry (挑战与进入壁垒)
- • 至少50%已部署的AI基础设施未能进入生产阶段
- • 模型开发
- • 了解哪些数据以及如何操作数据以适用于模型
- • 采购和运营成本
- • 按使用付费获取高端系统的成本昂贵
- • 高端系统的采购成本非常高
- • 高端系统的电力和冷却需求成本高昂
- • 现有的IT基础设施基于传统的空气冷却解决方案
- • 与AI相关的技术能力和“诀窍”
Note:越来越多信息表明,23年中大模型四面开花阶段已经过去,大模型应用从通用生成式问答过渡到细分业务场景,仍需要大量投入,这其中除了软硬件,更重要的是如何基于特征工程Agent获得高质量数据。
Alternative HW Solutions(硬件替代方案)
- • 整合解决方案:将CPU、SSD和低功耗GPU整合在一个单一的空气冷却系统中(HW厂商的AI硬件方案都是集中式的,为此TONY BAER[1] 曾开玩笑说到 Nvidia 是大型机(Mainstream)制造商[2])
- • 利用现有的IT部署模式,无需转向液体冷却
- • 较低的功耗适应现有的IT占地面积
- • 比大型解决方案处理能力低,但成本仅为其一小部分
- • 降低总拥有成本:采购和所有权成本较低
- • 针对性解决方案:为小型和中型的AI/ML应用提供解决方案,不会对现有操作造成重大干扰
Note:为此 Viking Ent 集成为一套支持3个双宽度FHFL GPU,同时使用空气冷却的计算硬件方案,详见文末链接。
关于 双宽度 FHFL
- • 双宽度(Double-width):
- • 这是指 GPU 占用主板扩展插槽的宽度。双宽度的 GPU 意味着它不仅占用一个 PCIe 插槽的空间,还会额外占用一个相邻的插槽。这类设计主要是为了容纳更大的散热器、风扇或其他散热解决方案,确保 GPU 在运行时能够有效散热,尤其是对于高性能 GPU 来说,热量管理至关重要。
- • 双宽度 GPU 通常体积较大,功耗较高,适合执行复杂的任务,如高性能计算、AI 训练、深度学习等。
- • FHFL(Full Height, Full Length):
- • Full Height 指的是 GPU 的高度是全高标准,也就是通常在 4.2 英寸(约 10.7 厘米)左右。这种设计适合标准的服务器机箱或工作站机箱。
- • Full Length 表示 GPU 的长度达到全长标准,通常为 12 英寸(约 30 厘米)。这意味着 GPU 的尺寸较大,能够提供更多的处理核心和更高的性能,但也需要较大的空间来容纳。
SW Solutions(软件解决方案)
- • 用户需要提高效率,但无法承担基于云的解决方案的成本
- • 数据正在被收集,但未被用于改善业务
- • 基于云的解决方案要求将所有数据存储在其云端
- • 所有GPU按使用时间租用,成本过高
- • 现场硬件解决方案将GPU与存储系统分离
- • 网络成为瓶颈
- • 将AI/ML软件与现有硬件集成需要有经验的开发人员
Cloud Native Orchestrator (云原生编排器)
- • 基于Kubernetes的存储和应用编排器使用云技术
- • 在裸金属上使用容器提供最佳性能
- • 编排器可用于在同一个箱中提供存储和应用程序
- • 其好处是存储与GPU在同一总线上
- • 缓解了由GPU和存储分离造成的网络瓶颈
- • 用户可以从比云更低的成本中获益
- • 同时赋予客户对数据和信息的控制权
- • 提供完整的AI/ML生态系统,使客户能够在不依赖云系统的情况下创建自己的模型
Cloud Native Orchestrator (云原生编排器)
- • 管道可以托管在Kubernetes集群中,用于推理和训练管道
- • ETL(提取、转换、加载)在边缘设备上执行,处理传入的数据流
- • 推理引擎如Triton和TensorRT在集群中使用
- • 管道可以使用Kubeflow通过容器构建,针对特定用途(如HiveMQ、Kafka、Flink等)
- • 开发人员可以加载自己的容器,并且还可以加载订阅软件
- • 与其在云中开发,不如在边缘设备上进行训练
- • 下载训练后的模型,运行在其他边缘系统中
Kubeflow [3]
Kubeflow Pipelines | Kubeflow[4]
为什么需要了解 Kubeflow?
- 1. 提升效率和生产力:Kubeflow 提供了完整的工具链,帮助你自动化机器学习管道的各个阶段。如果你负责多个复杂的 AI 解决方案(例如处理大数据或分布式模型训练),Kubeflow 可以显著减少手动干预的需要,使你专注于解决业务问题。
- 2. 规模化 AI 工作流:通过利用 Kubernetes 的分布式架构,Kubeflow 可以轻松扩展工作流,从小规模开发到大规模生产环境。了解如何使用 Kubeflow 能帮助你在处理大型 AI 项目时提高效率。
- 3. 容器化和可移植性:Kubernetes 和容器化技术已成为现代 IT 基础设施的重要组成部分。Kubeflow 构建在 Kubernetes 之上,熟悉它将帮助你掌握如何使用容器化技术来管理和部署 AI 应用,并在云、边缘和本地环境中轻松切换。
- 4. 更好的协作和模型管理:如果你所在的团队包括数据科学家、机器学习工程师和软件开发人员,Kubeflow 提供了一个协作的平台,能够让所有人共享相同的基础设施,并通过流水线、超参数优化等功能更高效地进行工作流管理。
AI 在边缘计算中的作用
- • 物联网(IoT)设备生成的数据必须本地存储或发送到云端
- • 存储在云中的数据会长期存放,并且每月会产生费用
- • 解决方案是将数据存储在边缘设备上
- • 在边缘设备上进行推理和生成式 AI 操作
- • 数据在采集时就被处理,便于迅速采取行动
- • 复制功能可将数据移动到私有或公有云进行存储
- • 可以根据需要下载模型或安装新的应用程序(边缘快速切换业务)
- • 配备高性能 GPU 的边缘设备可用于模型训练
- • 同样,配备低性能 GPU 的边缘设备可用于推理
Note:大体积原始/实时数据,在边缘经向量转化为元数据存储(特征工程的一部分),边缘业务场景的数据保留在本地,便于快速推理;其他则集中在冷存储中。
如何提高存储效率和可用性是云厂商在数据生产力时代的重要挑战。
Path Forward(未来的发展方向)
- • 更小且更专注的硬件部署
- • 降低采购成本
- • 针对小型和中型部署
- • 利用现有的 IT 基础设施和部署模型
- • 利用现成的商用模型
- • 现有的、经过验证的模型可以根据需求定制
- • 简单的用户界面需要更少的内部软件专业知识来部署
- • 实施云原生系统
- • 保持数据的本地安全
- • 在本地提供基于云的技术
- • 总拥有成本(TCO)低于公共云服务,节省时间(延迟)和金钱
总结
- 1. AI/ML可以提高数据处理效率和客户体验,并改善决策分析和风险管理。
- 2. 小型和中型企业部署AI/ML面临挑战和障碍,如开发学习模型和获取高成本的硬件解决方案。
- 3. 提供整合了CPU、SSD和低功耗GPU的单一空气冷却解决方案作为替代方案。
- 4. 使用Kubernetes存储和应用程序编排器来提供完整的AI/ML生态系统,允许用户创建自己的模型而无需使用云系统。
- 5. 在边缘设备上进行数据处理和分析,以加快信息响应速度并降低成本。
引用链接
[1]
TONY BAER: https://siliconangle.com/author/guestauthor/
[2]
Nvidia 是大型机(Mainstream)制造商: https://siliconangle.com/2024/06/05/nvidia-becoming-de-facto-ai-mainframe/
[3]
Kubeflow : https://www.kubeflow.org/
[4]
Kubeflow Pipelines | Kubeflow: https://www.kubeflow.org/docs/components/pipelines/