前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >Viking Ent:审视AI在边缘计算的部署方案

Viking Ent:审视AI在边缘计算的部署方案

作者头像
数据存储前沿技术
发布2025-02-11 18:36:45
发布2025-02-11 18:36:45
1050
举报

问题意识

1. 如何定义(理解)AI/ML 中小规模场景?

2. AL/ML 全栈解决方案(HW/SW/业务框架)

Benefits of AI/ML (人工智能/机器学习的好处)

  • • 增加数据分析的效率,从而使产品开发更加集中
  • • 通过更好的分析和趋势、问题识别来改善客户体验
  • • 改进数据管理,使得决策和分析更加有效
  • • 通过更有效的数据分析和管理,提高员工效率
  • • 改善风险管理

Challenges and Barriers to Entry (挑战与进入壁垒)

  • • 至少50%已部署的AI基础设施未能进入生产阶段
  • • 模型开发
  • • 了解哪些数据以及如何操作数据以适用于模型
  • • 采购和运营成本
    • • 按使用付费获取高端系统的成本昂贵
    • • 高端系统的采购成本非常高
    • • 高端系统的电力和冷却需求成本高昂
    • • 现有的IT基础设施基于传统的空气冷却解决方案
  • • 与AI相关的技术能力和“诀窍”

Note:越来越多信息表明,23年中大模型四面开花阶段已经过去,大模型应用从通用生成式问答过渡到细分业务场景,仍需要大量投入,这其中除了软硬件,更重要的是如何基于特征工程Agent获得高质量数据。

Alternative HW Solutions(硬件替代方案)

  • • 整合解决方案:将CPU、SSD和低功耗GPU整合在一个单一的空气冷却系统中(HW厂商的AI硬件方案都是集中式的,为此TONY BAER[1] 曾开玩笑说到 Nvidia 是大型机(Mainstream)制造商[2])
    • • 利用现有的IT部署模式,无需转向液体冷却
    • • 较低的功耗适应现有的IT占地面积
    • • 比大型解决方案处理能力低,但成本仅为其一小部分
  • • 降低总拥有成本:采购和所有权成本较低
  • • 针对性解决方案:为小型和中型的AI/ML应用提供解决方案,不会对现有操作造成重大干扰

Note:为此 Viking Ent 集成为一套支持3个双宽度FHFL GPU,同时使用空气冷却的计算硬件方案,详见文末链接。

关于 双宽度 FHFL

  • 双宽度(Double-width)
    • • 这是指 GPU 占用主板扩展插槽的宽度。双宽度的 GPU 意味着它不仅占用一个 PCIe 插槽的空间,还会额外占用一个相邻的插槽。这类设计主要是为了容纳更大的散热器、风扇或其他散热解决方案,确保 GPU 在运行时能够有效散热,尤其是对于高性能 GPU 来说,热量管理至关重要。
    • • 双宽度 GPU 通常体积较大,功耗较高,适合执行复杂的任务,如高性能计算、AI 训练、深度学习等。
  • FHFL(Full Height, Full Length)
    • Full Height 指的是 GPU 的高度是全高标准,也就是通常在 4.2 英寸(约 10.7 厘米)左右。这种设计适合标准的服务器机箱或工作站机箱。
    • Full Length 表示 GPU 的长度达到全长标准,通常为 12 英寸(约 30 厘米)。这意味着 GPU 的尺寸较大,能够提供更多的处理核心和更高的性能,但也需要较大的空间来容纳。

SW Solutions(软件解决方案)

  • • 用户需要提高效率,但无法承担基于云的解决方案的成本
  • • 数据正在被收集,但未被用于改善业务
  • • 基于云的解决方案要求将所有数据存储在其云端
  • • 所有GPU按使用时间租用,成本过高
  • • 现场硬件解决方案将GPU与存储系统分离
  • • 网络成为瓶颈
  • • 将AI/ML软件与现有硬件集成需要有经验的开发人员

Cloud Native Orchestrator (云原生编排器)

  • • 基于Kubernetes的存储和应用编排器使用云技术
  • • 在裸金属上使用容器提供最佳性能
  • • 编排器可用于在同一个箱中提供存储和应用程序
  • • 其好处是存储与GPU在同一总线上
  • • 缓解了由GPU和存储分离造成的网络瓶颈
  • • 用户可以从比云更低的成本中获益
  • • 同时赋予客户对数据和信息的控制权
  • • 提供完整的AI/ML生态系统,使客户能够在不依赖云系统的情况下创建自己的模型

Cloud Native Orchestrator (云原生编排器)

  • • 管道可以托管在Kubernetes集群中,用于推理和训练管道
  • • ETL(提取、转换、加载)在边缘设备上执行,处理传入的数据流
  • • 推理引擎如Triton和TensorRT在集群中使用
  • • 管道可以使用Kubeflow通过容器构建,针对特定用途(如HiveMQ、Kafka、Flink等)
  • • 开发人员可以加载自己的容器,并且还可以加载订阅软件
  • • 与其在云中开发,不如在边缘设备上进行训练
  • • 下载训练后的模型,运行在其他边缘系统中

Kubeflow [3]

Kubeflow Pipelines | Kubeflow[4]

为什么需要了解 Kubeflow?

  1. 1. 提升效率和生产力:Kubeflow 提供了完整的工具链,帮助你自动化机器学习管道的各个阶段。如果你负责多个复杂的 AI 解决方案(例如处理大数据或分布式模型训练),Kubeflow 可以显著减少手动干预的需要,使你专注于解决业务问题。
  2. 2. 规模化 AI 工作流:通过利用 Kubernetes 的分布式架构,Kubeflow 可以轻松扩展工作流,从小规模开发到大规模生产环境。了解如何使用 Kubeflow 能帮助你在处理大型 AI 项目时提高效率。
  3. 3. 容器化和可移植性:Kubernetes 和容器化技术已成为现代 IT 基础设施的重要组成部分。Kubeflow 构建在 Kubernetes 之上,熟悉它将帮助你掌握如何使用容器化技术来管理和部署 AI 应用,并在云、边缘和本地环境中轻松切换。
  4. 4. 更好的协作和模型管理:如果你所在的团队包括数据科学家、机器学习工程师和软件开发人员,Kubeflow 提供了一个协作的平台,能够让所有人共享相同的基础设施,并通过流水线、超参数优化等功能更高效地进行工作流管理。

AI 在边缘计算中的作用

  • • 物联网(IoT)设备生成的数据必须本地存储或发送到云端
  • • 存储在云中的数据会长期存放,并且每月会产生费用
  • • 解决方案是将数据存储在边缘设备上
  • • 在边缘设备上进行推理和生成式 AI 操作
  • • 数据在采集时就被处理,便于迅速采取行动
  • • 复制功能可将数据移动到私有或公有云进行存储
  • • 可以根据需要下载模型或安装新的应用程序(边缘快速切换业务)
  • • 配备高性能 GPU 的边缘设备可用于模型训练
  • • 同样,配备低性能 GPU 的边缘设备可用于推理

Note:大体积原始/实时数据,在边缘经向量转化为元数据存储(特征工程的一部分),边缘业务场景的数据保留在本地,便于快速推理;其他则集中在冷存储中。

如何提高存储效率和可用性是云厂商在数据生产力时代的重要挑战。

Path Forward(未来的发展方向)

  • • 更小且更专注的硬件部署
    • • 降低采购成本
    • • 针对小型和中型部署
    • • 利用现有的 IT 基础设施和部署模型
  • • 利用现成的商用模型
    • • 现有的、经过验证的模型可以根据需求定制
    • • 简单的用户界面需要更少的内部软件专业知识来部署
  • • 实施云原生系统
    • • 保持数据的本地安全
    • • 在本地提供基于云的技术
    • • 总拥有成本(TCO)低于公共云服务,节省时间(延迟)和金钱

总结

  1. 1. AI/ML可以提高数据处理效率和客户体验,并改善决策分析和风险管理。
  2. 2. 小型和中型企业部署AI/ML面临挑战和障碍,如开发学习模型和获取高成本的硬件解决方案。
  3. 3. 提供整合了CPU、SSD和低功耗GPU的单一空气冷却解决方案作为替代方案。
  4. 4. 使用Kubernetes存储和应用程序编排器来提供完整的AI/ML生态系统,允许用户创建自己的模型而无需使用云系统。
  5. 5. 在边缘设备上进行数据处理和分析,以加快信息响应速度并降低成本。
引用链接

[1] TONY BAER: https://siliconangle.com/author/guestauthor/ [2] Nvidia 是大型机(Mainstream)制造商: https://siliconangle.com/2024/06/05/nvidia-becoming-de-facto-ai-mainframe/ [3] Kubeflow : https://www.kubeflow.org/ [4] Kubeflow Pipelines | Kubeflow: https://www.kubeflow.org/docs/components/pipelines/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 问题意识
    • Benefits of AI/ML (人工智能/机器学习的好处)
    • Challenges and Barriers to Entry (挑战与进入壁垒)
    • Alternative HW Solutions(硬件替代方案)
    • SW Solutions(软件解决方案)
    • Cloud Native Orchestrator (云原生编排器)
    • Cloud Native Orchestrator (云原生编排器)
    • AI 在边缘计算中的作用
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档