部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >AI存储需求解析:从数据管道到模型优化

AI存储需求解析:从数据管道到模型优化

作者头像
数据存储前沿技术
发布2025-02-19 21:54:32
发布2025-02-19 21:54:32
850
举报

阅读收获

  1. 深入理解AI工作负载的多阶段特性及其对存储系统的影响。
  2. 掌握每个阶段的存储需求,优化存储配置以提升AI应用性能。
  3. 了解关键工具和技术(如MLPerf、SDXI、计算型存储)如何助力存储优化。
  4. 掌握应对存储网络和架构挑战的方法,提升AI系统的整体效率。

20250212-1249-1.png
20250212-1249-1.png

20250212-1249-5.png
20250212-1249-5.png

为什么AI场景的存储如此特殊

  • AI是一个多阶段的工作负载
    • 大多数传统工作负载(如数据库)具有可预测的访问模式
    • AI在不同阶段有着截然不同的工作负载模式
  • 优化目标可能不同
    • 优化GPU的利用率,而不是事务响应时间
    • 优化数据科学家的工作效率
  • 高度并行的操作
  • 不同AI任务的性能和容量差异很大

AI存储与传统存储的区别在于AI工作负载通常是多阶段的,且每个阶段的需求和模式不同。AI优化目标也与传统存储不同,更关注GPU的利用率和数据科学家的工作效率。此外,AI的任务往往涉及高度并行的操作,且不同的AI任务对性能和容量的要求差异较大。


20250212-1249-6.png
20250212-1249-6.png

AI 数据管道/工作流

图片中描述了AI处理的不同阶段,主要包括以下几个部分:

  1. 数据摄取 (Data Ingest):将数据输入到系统中,作为AI模型的训练数据源。
  2. 数据清洗 (Data Cleaning):包括ETL过程、数据清洗、预处理等,确保数据质量和一致性。
  3. 特征工程 (Feature Engineering):将数据转化为模型能够理解的特征,包含特征创建、精炼、缩放、向量化等过程。
  4. 模型训练 (Model Training):包括模型的训练、检查点、恢复和验证等步骤,优化模型的初步表现。
  5. 模型评估与调优 (Model Eval and Tuning):根据精度度量等指标评估模型效果,调整超参数和进行模型调优。
  6. 推理 (Inference):使用已经训练好的模型对新数据进行分析和预测。
  7. 数据归档 (Data Archive):存储和归档经过处理和训练的模型与数据。
  8. 商业价值 (Business Value):AI模型应用后的实际效果,反馈至生产数据和模型调优的改进,提升商业价值。

Cite

整个工作流拆分的比较细,旨在让读者更全面的了解AI数据价值生产流的全过程,在之前的文章中,Solidigm围绕数据管道的IO特征给出了较为落地的存储选型方案,可以结合起来一起看看。

  • Solidigm:AI数据管道与存储方案
  • 该文章详细介绍了AI数据处理的全流程,包括数据摄入、准备、训练、检查点保存、推理及归档等阶段。
  • 强调了不同阶段的数据读写IO特征,推荐了适合的存储解决方案,如基于QLC闪存的P5336和基于TLC的P5520

20250212-1249-7.png
20250212-1249-7.png

模型构建阶段

作者强调对于AI行业来说,核心注意力和资源投入是在模型构建阶段,这主要涉及上图的前5个步骤。

在这个过程中:

  • 大量使用的资源
    • 数据科学家
    • 计算资源
    • 存储资源
    • GPU资源

目标:

  • 生成一个训练好的模型,该模型经过各阶段的训练与调优,以达到最佳性能。

注意:

  • 该过程的目标是生成训练好的模型,除非你的业务是销售基础模型(例如LLMs),否则不直接产生商业价值。

20250212-1249-8.png
20250212-1249-8.png

模型推理应用

  • 生成商业价值的阶段
    • 通过推理(Inference)阶段使用训练好的模型对生产数据进行分析,最终将其转化为商业价值。
  • 关键资源
    • 计算资源(Compute Resources)
    • GPU资源(GPU Resources)
    • 生产数据(Production Data)
    • 大量使用
    • 更加高效地使用
  • 目标
    • 生成商业价值,这是整个AI过程的终极目标。

Note

在SDC24会议召开之际,当时DeepSeek还尚未迭代出如今 V3/R1 版本,推理需求并没有完全打开,站在今天看昨天,DS的开源能否促进国内乃至国外新一轮产业投资,还不可知;站在今天看明天,企业生产数据的保留和持久化是后续洞察生产规律必不可少的环节。在产业都在炒着要用大模型提高生产力的喧嚣中,需要更冷静的思考,企业的数据在哪?该以什么样的方式投喂给大模型?


20250212-1249-10.png
20250212-1249-10.png

拿数据摄取来举例

图片讨论了数据摄取的过程,并提出了AI如何影响企业在捕获、存储和访问业务数据的各个方面。尽管企业已经在收集数据,AI的应用可能会改变数据的处理和存储方式,影响数据的利用效率。

==

  1. 您的业务流程今天生成数据
  2. 您是否已经为这些摄取的数据准备好了存储?
    • 还是说您没有?

业务数据已经在被捕获,但是:

  • AI如何影响您捕获的数据?
  • AI如何影响您存储业务数据的方式?
  • AI如何影响您访问业务数据的方式?

20250212-1249-11.png
20250212-1249-11.png

真实案例:没有使用AI之前的数据流

公司在使用AI之前,其数据摄取主要依赖顺序写入,并且大量生成的数据会被丢弃。只有少部分数据被随机读取和保存。这种处理方式随着AI的应用可能会发生改变,AI有助于更有效地利用这些数据。


20250212-1249-12.png
20250212-1249-12.png

AI 加持下的数据流

图片展示了通过AI技术从数据中挖掘出价值。

数据生成通过业务逻辑和AI增强业务逻辑来处理,最终产生数据洞察。保存的数据为未来提供可能的业务洞察,同时也反映了数据读写的特点。

Note

最近不少需求都在讨论:DS这么好,能不能帮我查XXX数据?大家目光都齐刷刷放在全参数模型推理上,无形中拉动了对算力的需求,与全参模型推理相比,小模型在生产过程做数据过滤和洞察其实也是个巨大的市场,模型将成为日志、过程数据的吞吐机。


数据工作流的存储特征

20250212-1249-13.png
20250212-1249-13.png

数据清理

  • 原始数据需要为AI的使用做准备
    • 日志、图片、视频、文档等
  • 数据在成为训练数据之前需要进行整理
    • 清除噪音
    • 去重
    • 规范化
    • 隐私与伦理处理(如去标识化PII、去除偏见等)
  • 数据从摄取存储中读取
  • 清理后的数据需要写入存储进行特征工程
  • 该过程可能部分通过AI实现自动化

左侧图例表示,数据清洗过程对存储系统的要求是:大容量,写入过程顺序为主,读取过程随机为主。


20250212-1249-14.png
20250212-1249-14.png

特征工程

图片介绍了特征工程的主要步骤。数据科学家在这个过程中扮演着翻译者的角色,将原始数据转化为AI可以处理的数字。特征工程包括探索数据、提取特征、转换数据类型等多个步骤。这个过程通常需要大量的计算,且具有高度并行性。

===

  • 数据科学家充当翻译者
    • 原始数据 → AI的食物(01序列)
  • 探索数据——识别模式、异常值、关系等。
  • 将数据划分为训练集和测试集
  • 特征提取——将关键特征转换为可消耗的精华
  • 数据转换——将数据类型转换(向量化)
  • 通常高度并行

左侧图例示意:特征工程过程对存储系统的要求:大容量,读写过程以随机为主。


20250212-1249-15.png
20250212-1249-15.png

模型训练阶段

讨论了与 GPU 和存储规划相关的几个方面,强调了平衡存储和 GPU 性能、理解数据源以及如何根据已知工作负载进行优化的重要性。同时还提到了一些具体的 GPU 基准测试工具和训练要求。

===

模型训练 —— 一般存储规划

  • GPU 驱动成本 —— 最大化 GPU 利用率可以优化投资
  • 设计平衡架构
    • 平衡存储性能与 GPU 要求
  • 考虑数据源
    • 可能需要同时进行文件和对象访问
  • 如果已知训练工作负载 —— 匹配存储性能与工作负载
    • AI GPU 基准可以展示各种模型的峰值性能
    • MLCommons MLPerf 训练基准是一个很好的来源
    • 确定训练样本的大小
    • 通过乘以吞吐量和大小来估算所需的读取带宽
  • 对于一般用途的训练,可能需要支持 GPU 的最大读取速度
    • 当前高端 GPU 每个 GPU 可以达到每秒 1GB,且这个速度正在不断增加

这里的训练样本大小是参数规模还是原始数据?如何确定样本大小?

训练样本的大小通常指的是原始数据的大小,而不是参数规模。这里的“样本”指的是用于训练的数据实例,通常是输入数据(如图像、文本、声音等)以及其对应的标签或目标。

确定训练样本的大小,可以通过以下几个方面来考虑:

  1. 数据集的类型和规模:训练数据的规模取决于具体的任务和模型。例如,对于图像分类任务,可能需要几千到几百万张图像作为训练样本;对于文本任务,可能需要成千上万的句子或文档。
  2. 任务的复杂度:较复杂的任务(如深度神经网络模型)通常需要更多的训练样本来获得较好的泛化能力。
  3. 数据源的可用性:有时数据量有限或难以获取,需要通过数据增强、合成数据或迁移学习等方法来补充。
  4. 模型的大小与计算需求:如果你的模型非常大,可能需要更多的训练样本来避免过拟合,同时也能更好地发挥模型的潜力。 模型参数的数量(如7B、14B等)通常是指模型中所有可训练参数的总数。这些参数是模型在训练过程中学习到的权重和偏置。对于深度学习模型,尤其是大型预训练模型(例如GPT、BERT等),这些参数直接影响模型的能力、容量以及训练和推理的性能。

如何确定模型参数的数量:

  1. 模型架构:模型的结构和层数是决定参数数量的关键因素。例如,Transformer模型中的每一层通常由多个子层组成,每个子层都有自己的权重矩阵、偏置等参数。
    • 自注意力层(Self-Attention Layer)
    • 前馈神经网络层(Feed-Forward Neural Network Layer)
    • 每个层都包含多个矩阵和向量,参与模型的计算。
    • 例如,在一个Transformer模型中,每一层会有:
  2. 每层的神经元数量:每一层中的神经元数量(也叫隐层的维度)决定了每层的参数量。更大的维度通常意味着更多的参数。
  3. 层数:模型的深度(即层数)也是影响参数量的因素。每增加一层,模型的参数量就会大幅增加。
  4. 参数的种类:模型不仅包括权重矩阵,还包括偏置、激活函数等。每种类型的参数都会影响总参数量。

举例说明:

假设一个模型有3层,每层有1000个神经元,且每个神经元都与前一层的每个神经元相连,那么模型的参数数量大概是:

  • 每层的参数数量1000(输入神经元)×1000(输出神经元) + 1000(偏置) = 1,001,000个参数
  • 总参数数量如果有3层,则总参数数量为 1,001,000 × 3 = 3,003,000个参数。

对于更复杂的模型,例如GPT-3(有1750亿个参数),其参数数量的增长主要是通过加深层数和增加每层的神经元数量来实现的。


20250212-1249-16.png
20250212-1249-16.png

检查点机制

讨论了在模型训练过程中可能会出现的问题,尤其是涉及到检查点机制时的存储性能。

检查点用于保存模型的状态(如权重和偏置),以便在训练过程中发生错误时能够恢复。文件的写入通常是顺序进行的,可能会有多个顺序写入并行。

训练暂停会影响性能,而恢复过程通常需要高顺序读取和并行读取来恢复到多个GPU。存储系统的性能直接影响到检查点的保存和恢复效率,从而影响训练的整体效率。

===

模型训练 —— 出错时可能发生的情况

  • 检查点 —— 保存模型权重和其他状态
    • 模型权重在训练时间较长时非常昂贵
    • 检查点保存了状态,以便在出错后可以重新开始训练
  • 检查点文件是顺序写入的
    • 可能有多个并行的顺序写入
  • 训练暂停时 —— 性能就是金钱
    • 检查点恢复是反向的
    • 高顺序读取,多个并行读取恢复到多个GPU
  • 存储性能取决于保存/恢复时间目标

左侧图例表示,检查点过程对存储系统的要求是:容量不是主要矛盾,对系统的读写性能要求比较高,且都是顺序读写。


20250212-1249-17.png
20250212-1249-17.png

模型评估与调优环节

讨论了模型评估和调优的关键方面。评估主要衡量模型的正确性(准确率)和在处理错误与正确结果时的表现(精确率/召回率)。

此外,还介绍了其他常用的评估指标,如F1分数和AUC-ROC。调优部分强调了调整模型的超参数来改善评估效果,并提到通过调优可以生成一个包含模型参数的数据集。最后,模型的参数数量是固定的,取决于模型的权重数量,这在神经网络中是关键的。

左侧图例表示,模型评估与调优过程对存储系统的要求,与检查点环节类似。

===

Cite

模型评估与调优

  • 评估 —— 衡量模型结果与预期的匹配程度
    • 准确率 —— 正确的概率有多高?
    • 精确率/召回率 —— 大致衡量错误与正确的频率
    • 其他度量 —— 如 F1 分数和 AUC-ROC(曲线下面积/接收者操作特性)
  • 调优 —— 调整超参数以改善评估
    • 生成一个包含模型参数的数据集
    • 神经网络的内部表示
    • 模型参数的大小是恒定的,取决于权重的数量

F1 分数AUC-ROC是评估机器学习模型表现的两个重要指标。下面是对这两个指标的详细介绍:

  1. F1 分数 (F1 Score)

F1 分数是精确率(Precision)和召回率(Recall)的调和平均数。它是一个综合考虑模型精确性与全面性的指标,特别适用于类别不均衡的情况。

F1 分数的特点:

  • 值域F1 分数的范围是 [0, 1],1 表示完美的精确率和召回率,0 表示最差的表现。
  • 平衡考量当精确率和召回率不平衡时,F1 分数能够提供更综合的评价,避免过于依赖某一项指标。

适用场景

  • F1 分数通常用于那些关注误分类较少的场景,比如医学诊断、欺诈检测等领域。
  1. AUC-ROC(曲线下面积 / 接收者操作特性)

AUC(Area Under the Curve)是接收者操作特性曲线(ROC,Receiver Operating Characteristic Curve)下的面积,它用于评估二分类模型的性能。

AUC-ROC 的特点

  • 独立于阈值AUC 是对模型在不同分类阈值下的总体评估。
  • 优点适用于类别不平衡的情况,可以评估模型的综合性能。

适用场景

  • AUC-ROC 常用于评估二分类问题中模型的能力,如信用评分、疾病预测等。它特别适用于不平衡数据集,因为它考虑了不同阈值下的表现。

总结:

  • F1 分数适合需要精确率和召回率平衡的场景,特别是在类别不均衡时。
  • AUC-ROC是一个综合性的评估指标,能更全面地描述分类器在不同阈值下的表现,尤其在类别不平衡问题中非常有效。

20250212-1249-18.png
20250212-1249-18.png

推理环节的特征

幻灯片讨论了推理的概念及其在业务中的应用。推理是指在完成模型训练后,使用该模型对生产数据进行推断和处理,从而生成业务价值。

它包括多种类型,如基于大语言模型的检索增强生成(RAG)、预测分析、计算机视觉以及异常检测等(如用于检测恶意软件或欺诈行为)。访问模式的变化也与推理类型有关,尤其是RAG,可能会生成类似数据库的随机工作负载。这些内容对于理解模型在生产环境中的应用和优化推理过程非常重要。

左侧图例表示,模型推理过程对存储系统的要求是:容量要求不高,写入性能要求不高,主要都是随机写;读性能要求很高(主要从模型中快速检索),且都是随机读取。


20250212-1249-19.png
20250212-1249-19.png

数据归档

讨论了归档在 AI 中的重要性。尽管归档通常不是 AI 的核心部分,但它对于 AI 存储非常重要,尤其是在一些 AI 应用中,归档数据可能是有法律或监管要求的。

与传统的“归档”概念不同,这里提到的归档数据可能需要在以后被提取出来,用于后续的训练或分析。归档存储的性能需求不高,但需要“足够快”以便在需要时能迅速恢复。通常,归档数据会被称为“冷存储”,并且随着数据集的不断增长,归档存储也在不断扩展。此类存储需要低成本和低碳足迹,甚至提供零功耗的存储解决方案,如 DNA 存储和光学存储技术。

左侧图例表示,数据归档阶段对存储系统的要求是:海量存储。


AI 基础设施的关键工具与技术

20250212-1249-21.png
20250212-1249-21.png

计算效率的测量标准-MLPerf基准测试。

重点介绍了几种常用的基准测试工具,特别是MLCommons提供的MLPerf基准测试。

MLPerf有多个类别,涵盖了训练、推理、存储等多个方面。推理部分还细分为不同的场景,如移动设备、微型设备、数据中心和边缘设备。此外,还提到了一些训练算法的基准结果(AlgoPerf),用于评估不同训练算法的性能。这些基准测试可以帮助评估不同硬件和模型在特定任务中的表现。

关于 MLPerf 基准测试

  • MLCommons 是一个由学术界、工业界和其他领域的专家组成的开放组织,旨在推动机器学习和人工智能技术的发展。它的使命是通过创建和推广开源的基准测试,促进AI技术的进步。
  • MLPerf 的基准测试涵盖了多个机器学习任务,包括训练和推理两大类别。它通过模拟真实的机器学习工作负载,来测试硬件和软件在实际应用中的性能。
  • 目标:MLPerf 的主要目的是为AI硬件和软件提供公平、可重复和透明的评估方法。它帮助用户和组织理解在处理不同类型机器学习任务时,如何选择最合适的硬件和配置。

20250212-1249-23.png
20250212-1249-23.png

加速器-SDXI

SDXI 是由 SNIA(存储网络行业协会)开发的标准数据传输接口,旨在简化数据的移动和处理。

未来版本的 SDXI 将支持更多功能,如加密/解密和压缩/解压缩,进一步提升其在数据处理过程中的应用。通过这些附加功能,SDXI 可以优化数据的传输效率和安全性,帮助提升存储和计算任务的整体性能。

Cite

更多关于SDXI的技术报道,可参考:

  • SNIA:数据加速 SDXI、DPU和存储 主要内容:文章详细介绍了SDXI(内存到内存的数据移动和加速接口)的设计背景、关键特性及其在存储访问路径中的作用。SDXI旨在优化数据传输,减少CPU负担,支持分层存储和高效的数据访问,适用于高性能计算和AI应用

20250212-1249-24.png
20250212-1249-24.png

加速器-计算型存储

计算存储技术,它由 SNIA(存储网络行业协会)和 NVMe(非易失性内存接口)定义。

计算存储提供了一个开放的平台,允许将计算功能直接集成到存储设备中,使得计算操作能够在靠近数据的位置进行,从而减少数据传输的延迟并提高效率。常见的功能包括加密/解密、压缩/解压缩、数据过滤以及训练数据的准备。这些功能为数据处理提供了更高效的计算支持,尤其在机器学习等应用中具有显著的优势。

Cite

关于 计算型存储 更细致的报道可参考阅读:

  • Marvell:计算型存储入门(全文) 该文章详细介绍了计算型存储的定义、架构与性能,强调将计算任务移至数据所在位置,减少数据移动,提升效率。文章还讨论了计算型存储的优势,包括降低网络瓶颈和能耗

20250212-1249-25.png
20250212-1249-25.png

加速器-图形处理单元 GPUs

讨论了 GPU 在 并行计算 中的优势,特别是在 AI 计算任务中。

GPU 能够高效地处理矩阵中的多个相似计算,这是其大规模并行计算能力的核心。与 CPU 相比,GPU 可以同时进行多个计算,从而大幅度降低计算时间,同时提高能源效率。此外,数据中心 GPU 通常配备 高速内存(HBM),以满足大规模数据处理的需求。

===

加速器 —— GPU

  • 并行操作
    • AI 计算可以高度并行化
    • 通常是对矩阵中的多个相似计算进行操作
    • 这种计算方式是 GPU 设计来以大规模并行方式处理的
    • CPU 通常一次只能做一个计算
  • 并行操作不仅能显著减少计算时间,还能提高能源效率
  • HBM(高速内存)通常出现在数据中心的 GPU 上

20250212-1249-26.png
20250212-1249-26.png

尽管 GPU 在 训练 中具有极高的效率,但其在使用时也存在一些挑战。

首先,GPU 编程比 CPU 更复杂,需要更多的技术能力。其次,GPU 的电力消耗通常较高,这也导致了更高的 成本和冷却需求,增加了使用的复杂性。此外,GPU 硬件成本较高,且 数据传输到 GPU 中以及从 GPU 读取数据时可能会引入延迟,这可能影响计算性能。

Note

这里介绍到的三种加速器,唯一比较成熟的就是 GPUs,SDXI 和 计算型存储因为软件和生态需要大量投入,而暂时为进入大众视野,但随着AI场景的不断成熟,另两个加速器在数据传输效率上的优势将在推理场景大放异彩。


20250212-1249-27.png
20250212-1249-27.png

对存储网络的认识

由于存储设备和网络在处理数据时通常具有较高的延迟,整个系统的速度通常会被这些组件的性能所限制。尤其在高性能计算和AI任务中,存储和网络瓶颈可能会影响数据传输和处理速度。为了优化GPU的性能,**保持GPU持续获得数据(保持“供给”)是非常重要的。


20250212-1249-28.png
20250212-1249-28.png

网络架构

图片展示了加速计算数据中心的网络设计,通过颜色区分了不同的网络层次。

  • 绿色是管理/业务网,基于以太网实现,技术成熟,要求不高;
  • 黄色是GPU 节点间的互联网络,当前有 IB/ RoCE 2.0 等方案,超以太网(UEC)是发展中的开放互联组织;
  • 紫色是GPU 节点间的互联网络,不同硬件厂商的互联方案有差异,如 Nvidia 是基于 NVlink, AMD 是基于 [[UALink]] 。

20250212-1249-30.png
20250212-1249-30.png

超以太网 UEC

介绍了 超以太网(Ultra Ethernet),这是一个由 Linux 基金会 开发的开放项目,旨在提供一种高度可扩展、低延迟、高度可靠的网络解决方案,能够支持高达百万节点的网络拓扑。

超以太网集成了最新的拥塞管理技术和低延迟协议,并且从设计之初就融入了安全性。该项目结合了多个专家的知识和技术,推动网络技术的发展,并将在年底公开其规范。


20250212-1249-31.png
20250212-1249-31.png

UALink

介绍了 UALink,它是一种用于加速器间通信的技术,专为大规模扩展而设计。初始的焦点是实现加速器之间(如 GPU)内存共享,特别是 DDR 和 HBM 内存。

同时,UALink 提供了低延迟和高带宽的网络,支持数百个加速器在单个节点中的操作,并保证了简单的加载/存储操作和软件一致性。UALink 支持的传输速率高达 200Gbps,并与 Infinity Fabric 协议兼容,能够支持大规模加速器网络的部署。该技术与其他扩展方法,如 超以太网(UEC),可以互补应用,进一步提升系统性能。


20250212-1249-32.png
20250212-1249-32.png

讨论了与存储相关的几大挑战。

首先,性能问题要求存储系统尽可能减少对 GPU 的干扰,以提高计算效率。其次,随着 模型规模的持续扩展,存储解决方案需要具备更强的 可扩展性,以应对庞大的数据量。第三,可靠性是关键,尤其在进行训练时,若检查点数据丢失,将导致巨大的数据损失。

最后,幻灯片提出了一个问题:如何通过 SNIA(存储网络行业协会)帮助解决这些挑战,暗示可能有相关技术或标准可以提供支持。


延伸思考

这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~

  1. 在AI应用中,如何平衡存储性能与GPU利用率以最大化投资回报?
  2. 面对日益增长的模型规模,如何选择合适的存储介质以满足不同阶段的需求?
  3. 如何利用计算型存储和SDXI等新兴技术优化AI数据管道的存储效率?

原文标题:A Primer on AI Workloads and Their Storage Requirements

---【本文完】---

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 王知鱼 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么AI场景的存储如此特殊
  • AI 数据管道/工作流
  • 模型构建阶段
  • 模型推理应用
  • 拿数据摄取来举例
  • 真实案例:没有使用AI之前的数据流
  • AI 加持下的数据流
  • 数据工作流的存储特征
    • 数据清理
    • 特征工程
    • 模型训练阶段
    • 检查点机制
    • 模型评估与调优环节
    • 推理环节的特征
    • 数据归档
  • AI 基础设施的关键工具与技术
    • 计算效率的测量标准-MLPerf基准测试。
    • 加速器-SDXI
    • 加速器-计算型存储
    • 加速器-图形处理单元 GPUs
    • 对存储网络的认识
    • 网络架构
    • 超以太网 UEC
    • UALink
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档