开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

降低张量流模型的GPU内存消耗

是通过一系列优化技术和方法来减少模型在GPU内存中占用的空间，以提高模型的训练和推理效率。以下是一些常见的方法和技术：

模型剪枝（Model Pruning）：通过删除模型中不重要的连接或参数来减小模型的大小。这可以通过基于权重、梯度或敏感度的方法来实现。剪枝后的模型可以减少内存消耗并提高计算效率。
参数量化（Quantization）：将模型中的浮点参数转换为较低精度的表示形式，如8位整数或4位浮点数。这可以显著减少模型在GPU内存中的占用空间，并提高计算速度。
分布式训练（Distributed Training）：将模型的训练过程分布在多个GPU或多台机器上进行，以减少单个GPU的内存压力。这可以通过使用数据并行或模型并行的方法来实现。
内存重用（Memory Reuse）：在模型训练过程中，尽可能地重用GPU内存，避免频繁的内存分配和释放操作。这可以通过使用缓冲区、重复使用中间结果等技术来实现。
图优化（Graph Optimization）：对模型的计算图进行优化，减少不必要的计算和内存消耗。这可以通过静态图编译器、图剪枝、图融合等技术来实现。
数据并行（Data Parallelism）：将大型张量分割成多个小张量，在多个GPU上并行计算，减少单个GPU内存的压力。
模型缩放（Model Scaling）：通过减少模型的宽度、深度或分辨率等方式来降低模型的内存消耗。这可以通过调整模型的超参数来实现。
异步计算（Asynchronous Computation）：将模型的计算过程分为多个阶段，并在GPU上异步执行，以减少内存的占用。

腾讯云相关产品和产品介绍链接地址：

腾讯云AI加速器（AI Accelerator）：提供高性能的AI推理加速服务，可帮助降低GPU内存消耗。详情请参考：https://cloud.tencent.com/product/aiaccelerator
腾讯云弹性GPU（Elastic GPU）：为云服务器提供可扩展的GPU计算能力，可用于加速深度学习、图形渲染等任务。详情请参考：https://cloud.tencent.com/product/gpu
腾讯云容器实例（Tencent Container Instance）：提供轻量级、无服务器的容器实例服务，可用于部署和运行GPU加速的应用程序。详情请参考：https://cloud.tencent.com/product/tke

请注意，以上仅为示例，实际上还有更多腾讯云的产品和服务可用于降低张量流模型的GPU内存消耗。

相关搜索:如何保存没有变量的张量流模型？使用GPU创建张量流中的图像对列表 pytorch -如何排除张量\模型的设备(cpu \ gpu)设置故障如何训练比GPU内存更大的TF模型？无法为jupyter笔记本中的张量流gpu导入keras 从Keras/张量流模型中获取可用的系数权重无法使用simple_save张量流导出保存的模型从加载的张量流分类模型获取预测，.pd文件无法读取已学习的张量流模型中的训练权重基于张量流迁移学习模型的单图像文件预测如何评估运行神经网络模型所需的GPU内存？安装张量流服务器模型时，etcd.service的作业失败如何将以下以张量流编写的CNN转换为Pytorch中的模型？在tensorflow中训练小模型(< 100 mb)时没有足够的GPU内存如何将经过GPU训练的模型加载到CPU (系统)内存中？运行张量流模型时出错` `TypeError：__init__()获取意外的关键字参数'file'`无法使用tf.data.Dataset.from_generator将适当的形状传递给张量流模型多层Tiff标记数据集转换，以格式化可用于模型优化的张量流将大型CSV流写入内存中的ZipOutputStream是否会消耗与CSV或潜在zip大小一样多的内存？将15MB模型应用于3kB图像需要1-4 4GB的GPU内存，这让我感到惊讶吗？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

降龙十八掌：这套优化transformer内存占用的组合技值得收藏

峰值内存消耗是训练深度学习模型（如视觉 Transformer 和 LLM）时的常见瓶颈。本文提供了一系列可以在不牺牲建模性能和预测精度的情况下，将 PyTorch 中的内存消耗降低到约 1/20 的技术。

02

CacheGen:语言模型应用程序的快速上下文加载

凭借其令人印象深刻的生成能力，大语言模型(LLM)被广泛应用于各个领域。公共LLM的API(例如GPT-4)和应用框架(例如Langchain)的广泛使用，结合开源的满足工业应用质量要求的LLM(例如Llama)，进一步提高了LLM的受欢迎程度。随着LLM越来越多地被用于复杂任务，许多应用程序通过使用包含至少数千个标记的长上下文LLM来增强它们的输入(即提示)。例如，某些上下文用领域知识文本补充用户提示，以便LLM可以使用LLM本身嵌入的信息之外的领域知识来生成响应。另一个例子是，一些上下文利用用户和LLM之间交互过程中积累的对话历史来补充用户提示。这种长上下文的趋势很好地反映在最近训练接受更长上下文输入的LLM的竞赛中，从ChatGPT中的2K Tokens到Claude中的100K(见图1)。虽然较短上下文输入能力的LLM仍然有用，但许多研究表明，较长的上下文输入通常有助于提高模型响应的质量和一致性。

01

FlattenQuant | 推动低比特量化技术突破，大幅提升大型语言模型的计算效率和部署性能！

大型语言模型（LLM）的卓越能力近年来产生了重大影响（OpenAI, 2023; Ge等人，2023; Zhao等人，2023）。各种LLM已经被发布并在现实世界的生产环境中得到应用（Eloundou等人，2023）。因此，对于LLM的部署有着广泛的需求。

01

陈天奇等人提出TVM：深度学习自动优化代码生成器

选自arXiv 作者：陈天奇等机器之心编译参与：李泽南、路雪 TVM 是由华盛顿大学在读博士陈天奇等人提出的深度学习自动代码生成方法，去年 8 月机器之心曾对其进行过简要介绍。该技术能自动为大多数计算硬件生成可部署优化代码，其性能可与当前最优的供应商提供的优化计算库相比，且可以适应新型专用加速器后端。近日，这项研究的论文《TVM: End-to-End Optimization Stack for Deep Learning》终于完成，内容包含新方法的介绍与讨论，以及 TVM 在英伟达、AMD 的 GP

09

使用PyTorch Profiler进行模型性能分析，改善并加速PyTorch训练

如果所有机器学习工程师都想要一样东西，那就是更快的模型训练——也许在良好的测试指标之后

01

苹果创新大模型压缩技术，大模型有机会塞进手机里了

大型语言模型（LLM），尤其是生成式预训练 Transformer（GPT）模型在许多复杂的语言任务上表现出了出色的性能。这一突破使人们希望在移动设备上本地运行这些 LLM，以保护用户隐私。可是，即使是小型 LLM 也太大，无法在这些设备上运行。

06

[翻译] TensorFlow 分布式之论文篇 "TensorFlow : Large-Scale Machine Learning on Heterogeneous Distributed Syst

本系列我们开始分析 TensorFlow 的分布式。之前在机器学习分布式这一系列分析之中，我们大多是以 PyTorch 为例，结合其他框架/库来穿插完成。但是缺少了 TensorFlow 就会觉得整个世界（系列）都是不完美的，不单单因为 TensorFlow 本身的影响力，更因为 TensorFlow 分布式有自己的鲜明特色，对于技术爱好者来说是一个巨大宝藏。

02

图神经网络系统介绍与总结分析

图神经网络算法将深度神经网络的运算(如卷积、梯度计算)与迭代图传播结合在一起：每个顶点的特征都是由其邻居顶点的特征结合一组深度神经网络来计算。

05

12秒内AI在手机上完成作画！谷歌提出扩散模型推理加速新方法

明敏发自凹非寺量子位 | 公众号 QbitAI 只需12秒，只凭手机自己的算力，就能拿Stable Diffusion生成一张图像。而且是完成了20次迭代的那种。要知道，现在的扩散模型基本都超过了10亿参数，想要快速生成一张图片，要么基于云计算，要么就是要本地硬件够强大了。而随着大模型应用逐渐普及开来，在个人电脑、手机上跑大模型很可能是未来的新趋势。由此，谷歌的研究员们带来了这篇新成果，名字就叫Speed is all you need：通过GPU优化加速大规模扩散模型在设备上的推理速度。

02

FaceBook的深度学习大规模推荐模型

本文来自Nvidia GTC 21，演讲者是来自Facebook AI Reasearch的Bilge Acun。演讲主题是“FaceBook的深度学习大规模推荐模型”。

02

如何准确的估计llm推理和微调的内存消耗

Command-R+， Mixtral-8x22b和Llama 3 70b都在最近的几周内发布了，这些模型是巨大的。它们都有超过700亿个参数:

01

512块A100，AlphaFold训练时间从11天压缩至67小时：尤洋团队FastFold上线

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G AlphaFold 虽好，但耗时且成本高，现在首个用于蛋白质结构预测模型的性能优化方案来了。机器之心报道蛋白质结构预测一直是结构生物学中的一个重要的研究问题。直接从蛋白质的氨基酸序列预测蛋白质的三维结构在许多领域都有广泛的应用，包括药物设计、蛋白质设计等。预测蛋白质结构的方法主要有两种：实验方法和计算方法。实验方法需要以高昂

03

512块A100，AlphaFold训练时间从11天压缩至67小时：尤洋团队FastFold上线

机器之心报道编辑：小舟、蛋酱 AlphaFold 虽好，但耗时且成本高，现在首个用于蛋白质结构预测模型的性能优化方案来了。蛋白质结构预测一直是结构生物学中的一个重要的研究问题。直接从蛋白质的氨基酸序列预测蛋白质的三维结构在许多领域都有广泛的应用，包括药物设计、蛋白质设计等。预测蛋白质结构的方法主要有两种：实验方法和计算方法。实验方法需要以高昂的时间和经济成本获得更准确的蛋白质结构。计算方法则能够以低成本高吞吐量预测蛋白质结构，因此提高计算方法的预测精度至关重要。借助深度神经网络，AlphaFold

04

[论文翻译] 分布式训练 Parameter sharding 之 ZeRO

Parameter sharding 就是把模型参数等切分到各个GPU之上，以此达到使用较少GPU实现大规模模型训练的目的。本系列会以 Google，微软和Facebook的论文，博客以及代码来对parameter sharding 进行分析，大约有 5～6篇文章。

02

北大校友“炼丹”分享：OpenAI如何训练千亿级模型？

“炼大模型”已成为人工智能领域的主流研发趋势。从GPT-3的1750亿，到如今悟道2.0的1.75万亿，超大语言模型在 NLP 基准任务中不断刷新SOTA。

05

用FP8训练大模型有多香？微软：比BF16快64%，省42%内存

大型语言模型（LLM）具有前所未有的语言理解和生成能力，但是解锁这些高级的能力需要巨大的模型规模和训练计算量。在这种背景下，尤其是当我们关注扩展至 OpenAI 提出的超级智能 (Super Intelligence) 模型规模时，低精度训练是其中最有效且最关键的技术之一，其优势包括内存占用小、训练速度快，通信开销低。目前大多数训练框架（如 Megatron-LM、MetaSeq 和 Colossal-AI）训练 LLM 默认使用 FP32 全精度或者 FP16/BF16 混合精度。

02

OpenAI：训练大型神经网络的四种基本方法

来源 | OpenAI 编译 | 黄楠编辑 | 陈彩娴大型神经网络是当前人工智能领域的热门话题之一，那么，如何训练大模型？最近，曾推出大规模预训练模型 GPT-3 的 OpenAI 发表了一篇博文，介绍了基于 GPU 的四种节省内存的并行训练方法，分别是：数据并行——在不同的 GPU 上运行同一批次的不同子集；流水线并行——在不同的 GPU 上运行模型的不同层；张量并行——分解单个运算的数学运算，例如将矩阵乘法拆分到 GPU 上；专家混合（MOE）——仅通过每层的一小部分处理每个示例。图注

04

2023 年最佳多 GPU 深度学习系统指南

本文[1]提供了有关如何构建用于深度学习的多 GPU 系统的指南，并希望为您节省一些研究时间和实验时间。

01

经验 | PyTorch开发部署时5个常见错误

ML是有趣的，ML是受欢迎的，ML无处不在。大多数公司要么使用TensorFlow，要么使用PyTorch，还有些老家伙喜欢Caffe。

03

tf.while_loop

cond是一个返回布尔标量张量的可调用的张量。body是一个可调用的变量，返回一个(可能是嵌套的)元组、命名元组或一个与loop_vars具有相同特性(长度和结构)和类型的张量列表。loop_vars是一个(可能是嵌套的)元组、命名元组或张量列表，它同时传递给cond和body。cond和body都接受与loop_vars一样多的参数。除了常规张量或索引片之外，主体还可以接受和返回TensorArray对象。TensorArray对象的流将在循环之间和梯度计算期间适当地转发。注意while循环只调用cond和body一次(在调用while循环的内部调用，而在Session.run()期间根本不调用)。while loop使用一些额外的图形节点将cond和body调用期间创建的图形片段拼接在一起，创建一个图形流，该流重复body，直到cond返回false。为了保证正确性，tf.while循环()严格地对循环变量强制执行形状不变量。形状不变量是一个(可能是部分的)形状，它在循环的迭代过程中保持不变。如果循环变量的形状在迭代后被确定为比其形状不变量更一般或与之不相容，则会引发错误。例如，[11,None]的形状比[11,17]的形状更通用，而且[11,21]与[11,17]不兼容。默认情况下(如果参数shape_constant没有指定)，假定loop_vars中的每个张量的初始形状在每次迭代中都是相同的。shape_constant参数允许调用者为每个循环变量指定一个不太特定的形状变量，如果形状在迭代之间发生变化，则需要使用该变量。tf.Tensor。体函数中也可以使用set_shape函数来指示输出循环变量具有特定的形状。稀疏张量和转位切片的形状不变式特别处理如下:

04

「人工智能研学社· ML系统与架构小组」第一期：如何在单块GPU上训练超大型深度学习模型

机器之心原创人工智能研学社问题：GPU 内存限制 GPU 在深度神经网络训练之中的强大表现无需我赘言。通过现在流行的深度学习框架将计算分配给 GPU 来执行，要比自己从头开始便捷很多。然而，有一件事你会避之唯恐不及，即 GPU 的动态随机存取内存（DRAM（Dynamic Random Access Memory））限制。在给定模型和批量大小的情况下，事实上你可以计算出训练所需的 GPU 内存而无需实际运行它。例如，使用 128 的批量训练 AlexNet 需要 1.1GB 的全局内存，而这仅是 5

09

详解AI加速器（四）：GPU、DPU、IPU、TPU…AI加速方案有无限种可能

选自Medium作者：Adi Fuchs 机器之心编译在上一篇文章中，前苹果工程师、普林斯顿大学博士 Adi Fuchs 聚焦 AI 加速器的秘密基石：指令集架构 ISA、可重构处理器等。在这篇文章中，我们将跟着作者的思路回顾一下相关 AI 硬件公司，看看都有哪些公司在这一领域发力。这是本系列博客的第四篇，主要介绍了 AI 加速器相关公司。全球科技行业最热门的领域之一是 AI 硬件，本文回顾了 AI 硬件行业现状，并概述相关公司在寻找解决 AI 硬件加速问题的最佳方法时所做的不同赌注。对于许多 AI

03

一块英伟达3090单挑180亿参数大模型，国产开源项目这回杀疯了

明敏发自凹非寺量子位 | 公众号 QbitAI 什么？单块GPU也能训练大模型了？还是20系就能拿下的那种？？？没开玩笑，事实已经摆在眼前： RTX 2060 6GB普通游戏本能训练15亿参数模型； RTX 3090 24GB主机直接单挑180亿参数大模型； Tesla V100 32GB连240亿参数都能拿下。相比于PyTorch和业界主流的DeepSpeed方法，提升参数容量能达到10多倍。而且这种方法完全开源，只需要几行代码就能搞定，修改量也非常少。这波操作真是直接腰斩大模型训

01

AI推理速度提升超10倍，Groq LPU能否取代英伟达GPU？

2月20日消息，美国人工智能初创公司Groq最新推出的面向云端大模型的推理芯片引发了业内的广泛关注。其最具特色之处在于，采用了全新的Tensor Streaming Architecture (TSA) 架构，以及拥有超高带宽的SRAM，从而使得其对于大模型的推理速度提高了10倍以上，甚至超越了英伟达的GPU。

01

一篇文章回答你关于NVIDIA DLA的所有疑问

所有 Jetson AGX Orin 和 Orin NX 板以及所有上一代 Jetson AGX Xavier 和 Xavier NX 模块都具有 DLA 内核。对于至少具有一个 DLA 实例及其相应时钟设置的所有平台。DRIVE Xavier 和 DRIVE Orin 也有 DLA 核心。

01

AI框架跟计算图什么关系？PyTorch如何表达计算图？

目前主流的深度学习框架都选择使用计算图来抽象神经网络计算表达，通过通用的数据结构（张量）来理解、表达和执行神经网络模型，通过计算图可以把 AI 系统化的问题形象地表示出来。

03

潞晨科技尤洋：中小企业同样追求大模型，但最先进AI训练成本还是太高 | MEET 2023

明敏整理自 MEET2023 量子位 | 公众号 QbitAI AI模型急速增大与硬件算力缓慢增长的矛盾，已愈加尖锐。尤其在AI落地进入深水区的背景下，如何降本增效成为了行业热点议题。但具体到实际动作，该怎么做？在MEET 2023智能未来大会现场，潞晨科技创始人、新加坡国立大学校长青年教授尤洋指明了一个方向：未来，我们迫切需要一个可扩展性的高效计算基础设施。而且，潞晨科技已经用实际行动给出论证，它们推出的Colossal-AI系统，在过去一年里迅速成长为开源加速方案中的明星项目，GitHub上

04

[源码解析] PyTorch 流水线并行实现 (1)--基础知识

本系列开始介绍PyTorch的流水线并行实现。实质上，PyTorch就是 GPipe 的PyTorch版本。这些开源软件在互相借鉴思路，互相学习，从 PyTorch 的源码注释中，可以见到我们之前介绍的部分框架/库的引用或者论文链接。

02

无缝支持Hugging Face社区，Colossal-AI低成本轻松加速大模型

机器之心报道作者：机器之心编辑部大模型已成为 AI 圈的一种潮流，不仅横扫各大性能榜单，更产生了诸多有趣应用。例如，微软和 OpenAI 开发的自动代码建议补全神器 Copilot，化身程序员最佳助手，提升工作效率。 OpenAI 刚刚发布能以假乱真的文本生成图像模型 DALL-E 2，Google 便紧接着发布了 Imagen，在大模型上，大公司也是相当的卷，丝毫不比 CV 刷榜差。文本到图像生成样例“一个被猫绊倒的希腊人雕像”（左侧两列为 Imagen，右侧两列为 DALL·E 2）模型增

03

性能提升19倍，DGL重大更新支持亿级规模图神经网络训练

我们在去年12月发布了Deep Graph Library (DGL)的首个公开版本。在过去的几个版本的更新中，DGL主要注重框架的易用性，比如怎样设计一系列灵活易用的接口，如何便于大家实现各式各样的图神经网络（GNN）模型，以及怎样和主流深度学习框架（如PyTorch，MXNet等）集成。因为这些设计，让DGL快速地获得了社区的认可和接受。然而天下没有免费的午餐，不同的框架对于相同的运算支持程度不同，并且普遍缺乏图层面上的计算原语，导致了计算速度上的不足。随着DGL接口的逐渐稳定，我们终于可以腾出手来解决性能问题。即将发布的DGL v0.3版本中，性能问题将得到全面而系统地改善。

04

为深度学习选择最好的GPU

在进行机器学习项目时，特别是在处理深度学习和神经网络时，最好使用GPU而不是CPU来处理，因为在神经网络方面，即使是一个非常基本的GPU也会胜过CPU。

03

基于重排序的新量化方法RPTQ：实现大型语言模型的 3 比特量化

机器之心专栏机器之心编辑部作者提出了一种新颖的基于重排序的量化方法 RPTQ，解决了量化大型语言模型激活的问题。大型语言模型（LLMs）在各种任务上表现出色，但由于其庞大的模型规模，部署方面存在挑战。在这篇论文中，来自后摩智能、腾讯 AI Lab、华中科技大学、北京大学、伊利诺伊理工学院的研究人员发现量化大型语言模型的主要挑战来自于通道之间不同的激活范围，而不仅仅是离群值问题。作者提出了一种新颖的基于重排序的量化方法 RPTQ，解决了量化大型语言模型激活的问题。RPTQ 通过重新排列激活中的通道，

02

如何让CNN高效地在移动端运行

COMPRESSION OF DEEP CONVOLUTIONAL NEURAL NETWORKS FOR FAST AND LOW POWER MOBILE APPLICATIONS【ICLR 2016】

04

torch.cuda

这个包增加了对CUDA张量类型的支持，它实现了与CPU张量相同的功能，但是它们利用gpu进行计算。它是惰性初始化的，所以您总是可以导入它，并使用is_available()来确定您的系统是否支持CUDA。CUDA semantics提供了更多关于使用CUDA的细节。

04

独家 | 兼顾速度和存储效率的PyTorch性能优化（2022）

作者：Jack Chih-Hsu Lin翻译：陈之炎校对：王紫岳本文约4600字，建议阅读9分钟18个必须知道的PyTorch提速秘籍：工作原理和方法。调整深度学习管道如同找到合适的齿轮组合（图片来源：Tim Mossholder）为什么要阅读本博？深度学习模型的训练/推理过程涉及到多个步骤。在时间和资源受限的情况下，实验迭代速度越快，越能优化模型的预测性能。本博收集整理了些许能够最大限度提高内存效率以及最小化运行时间的PyTorch的技巧和秘籍。但为了更好地利用这些技巧，我们还需要了解它的工

02

[源码解析] 模型并行分布式训练Megatron (1) --- 论文 & 基础

NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架，用来训练超大Transformer语言模型，其通过综合应用了数据并行，Tensor并行和Pipeline并行来复现 GPT3，值得我们深入分析其背后机理。

01

1块GPU+几行代码，大模型训练提速40%！无缝支持HuggingFace，来自国产开源项目

明敏发自凹非寺量子位 | 公众号 QbitAI 不得不说，为了让更多人能用上大模型，技术圈真是各出奇招！模型不够开放？有人自己上手搞免费开源版。比如最近风靡全网的DALL·E Mini，Meta开放的OPT-175B（Open Pretrained Transformer）。都是通过复刻的方式，让原本不够open的大模型，变成人人可用。还有人觉得模型太大，个人玩家很难承受起天价成本。所以提出异构内存、并行计算等方法，让大模型训练加速又降本。比如开源项目Colossal-AI，前不久刚实现

03

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

来源：数学中国本文约3200字，建议阅读5分钟在本综述论文中，研究者解释了不同技术的工作原理、评估和比较，还分析了一些实现这些技术的框架。现代深度学习和人工智能技术的发展涉及使用深度神经网络（DNN）来解决图像、视频、音频、自然语言处理、图像形式的内容生成等各种问题，或生成给定格式主题的文本等任务。俄罗斯斯科尔科沃科学技术研究所、法国里尔大学、波尔多大学、Inria 等科研机构联合发表了一篇论文《Survey on Large Scale Neural Network Training》，它试图解决的问

03

为深度学习选择最好的GPU

📷 来源：DeepHub IMBA 本文约3400字，建议阅读7分钟加快训练速度，更快的迭代模型。在进行机器学习项目时，特别是在处理深度学习和神经网络时，最好使用GPU而不是CPU来处理，因为在神

04

首次在智能手机上训练BERT和ResNet，能耗降35%

机器之心报道机器之心编辑部研究者表示，他们将边缘训练看作一个优化问题，从而发现了在给定内存预算下实现最小能耗的最优调度。目前，智能手机和嵌入式平台等边缘设备上已经广泛部署深度学习模型来进行推理。其中，训练仍然主要是在具有 GPU 等高通量加速器的大型云服务器上完成。集中式云训练模型需要将照片和按键等敏感数据从边缘设备传输到云端，从而牺牲了用户隐私并导致了额外的数据移动成本。图注：推特 @Shishir Patil 因此，为了使用户在不牺牲隐私的情况下个性化他们的模型，联邦学习等基于设备的训练方法不

01

KubeAI大模型推理加速实践｜得物技术

最近我们在生产环境批量部署了大模型专用推理集群，并成功让包括70B在内的大模型推理速度提升50%，大幅缩减部署成本，稳定应用于生产环境。本文基于我们在部署大模型推理集群时的一些经验，分享一些有效提升大模型的推理速度方法。最后，我们在结尾处推荐了几个经过我们评测且表现优异的大模型推理框架。希望这些建议能帮助读者在项目中选择适合自己的推理框架。

01

霸榜GitHub热门第一多日后，Colossal-AI正式版发布

大规模并行AI训练系统Colossal-AI，旨在作为深度学习框架的内核，帮助用户便捷实现最大化提升AI部署效率，同时最小化部署成本。

01

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

随着大型语言模型（LLM）规模不断增大，其性能也在不断提升。尽管如此，LLM 依然面临着一个关键难题：与人类的价值和意图对齐。在解决这一难题方面，一种强大的技术是根据人类反馈的强化学习（RLHF）。

01

谷歌开放TPU应对英伟达GPU挑战

谷歌宣布将以“有限数量”向谷歌云客户开放张量处理器（Tensor Processing Unit，简称TPU）服务，按时收费，每小时成本6.50美元。谷歌宣布张量处理单元（TPU）现在已经可以在谷歌云平台上供研究人员和开发人员试用，该模块是为谷歌服务（如Search、Street View、Google Photos和Google Translate）提供神经网络计算支持的定制芯片。 TPU是一个定制的特定于应用程序的集成电路（ASIC），专门为TensorFlow上的机器学习工作负载定制。谷歌两年前推出

08

LLaMA微调显存需求减半，清华提出4比特优化器

大模型的训练和微调对显存要求很高，优化器状态是显存主要开销之一。近日，清华大学朱军、陈键飞团队提出了用于神经网络训练的 4 比特优化器，节省了模型训练的内存开销，同时能达到与全精度优化器相当的准确率。

03

2天训练出15亿参数大模型，国产开源项目力克英伟达Megatron-LM，来自LAMB作者团队

鱼羊明敏发自凹非寺量子位 | 公众号 QbitAI 当今AI之势，影响纵深发展的矛盾是什么？一方面，大模型风头正劲，效果惊艳，人人都想试试。但另一方面，硬件基础上动不动就是上万张GPU的大规模集群在日夜燃烧，钞能力劝退。所以如果告诉你，现在只用一半数量的GPU，也能完成同样的GPT-3训练呢？你会觉得关键钥匙是什么？不卖关子了。实现如此提升的，是一个名为Colossal-AI的GitHub开源项目。而且该项目开源不久，就迅速登上了Python方向的热榜世界第一。 ↑GitHub地址：h

03

并行训练算法一锅炖: DDP, TP, PP, ZeRO

模型训练过程中涉及到的参数主要包含两大类，model data 和 non-model data，具体表示如下：

03

新鲜出炉！大规模神经网络最新综述！

点击机器学习算法与Python学习，选择加星标精彩内容不迷路选自arXiv，机器之心编译在本综述论文中，研究者解释了不同技术的工作原理、评估和比较，还分析了一些实现这些技术的框架。现代深度学习和人工智能技术的发展涉及使用深度神经网络（DNN）来解决图像、视频、音频、自然语言处理、图像形式的内容生成等各种问题，或生成给定格式主题的文本等任务。俄罗斯斯科尔科沃科学技术研究所、法国里尔大学、波尔多大学、Inria 等科研机构联合发表了一篇论文《Survey on Large Scale Neur

03

谷歌下场优化扩散模型，三星手机运行Stable Diffusion，12秒内出图

机器之心报道编辑：陈萍、小舟 Speed Is All You Need：谷歌提出针对 Stable Diffusion 一些优化建议，生成图片速度快速提升。 Stable Diffusion 在图像生成领域的知名度不亚于对话大模型中的 ChatGPT。其能够在几十秒内为任何给定的输入文本创建逼真图像。由于 Stable Diffusion 的参数量超过 10 亿，并且由于设备上的计算和内存资源有限，因而这种模型主要运行在云端。在没有精心设计和实施的情况下，在设备上运行这些模型可能会导致延迟增加，这是

03

大规模神经网络最新文献综述：训练高效DNN、节省内存使用、优化器设计

选自arXiv 作者：Julia Gusak等机器之心编译编辑：杜伟、泽南在本综述论文中，研究者解释了不同技术的工作原理、评估和比较，还分析了一些实现这些技术的框架。现代深度学习和人工智能技术的发展涉及使用深度神经网络（DNN）来解决图像、视频、音频、自然语言处理、图像形式的内容生成等各种问题，或生成给定格式主题的文本等任务。俄罗斯斯科尔科沃科学技术研究所、法国里尔大学、波尔多大学、Inria 等科研机构联合发表了一篇论文《Survey on Large Scale Neural Network

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭