首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

至顶智库 | 图文并茂万字解读DeepSeek核心技术概念

DeepSeek(深度求索)是一家源自中国的人工智能公司,成立于2023年,总部位于中国杭州。前身是国内量化投资巨头幻方量化的子公司。公司专注于开发低成本、高性能的AI模型,致力于通过技术创新推动人工智能技术的普惠化。DeepSeek由幻方量化提供研发资金。独特的经营模式使DeepSeek能够在没有外部压力的情况下持续开展大模型研发,优先考虑大模型的长期研发价值。DeepSeek在深度学习、强化学习等领域取得多项突破,特别是在MoE(混合专家)架构和多头潜在注意力机制(MLA)方面进行深入研究和创新。此外,DeepSeek坚持开源,公开模型权重和训练细节,吸引全球开发者和研究者的广泛参与。

DeepSeek于2025年1月重磅发布的DeepSeek-R1引发全球广泛关注。与传统模型不同,DeepSeek-R1模型通过采用蒸馏、强化学习、拒绝采样与监督微调等多种优化策略,实现在保持高性能的同时显著降低推理成本。DeepSeek-R1的突出表现与其基础模型DeepSeek-V3密不可分,DeepSeek-V3作为DeepSeek发布的基础模型,拥有6710亿参数,该模型主要采用创新的混合专家(MoE)模型和多头潜在注意力(MLA)机制,实现在保持高性能的同时进一步降低训练成本。

从模型表现来看,基础模型DeepSeek-V3在MATH 500(500道数学问题数据集)、AIME 2024(美国数学邀请赛)、Codeforces(在线编程竞赛平台)三项测试表现突出,准确率分别达到90.2%、39.2%和51.6%,超过Llama-3.1-405B-Inst、GPT-4o-0513和Claude-3.5-Sonnet-1022。推理模型DeepSeek-R1在AIME 2024、MATH-500、SWE-bench Verified(软件工程基准测试数据集)三项测试准确率分别达到79.8%、97.3%和49.2%,超过OpenAI-o1-1217、OpenAI-o1-mini。

至顶智库将深入解读DeepSeek-V3基础模型和DeepSeek-R1推理模型的技术细节。与其他文章的不同之处在于,我们力争用通俗的语言和清晰的图示为各位读者更好了解相关模型和技术特征提供学习参考。

DeepSeek-V3基础模型架构

2024年12月,DeepSeek-V3基础模型发布,DeepSeek-V3使用14.8万亿高质量Token进行预训练,并在后续阶段结合监督微调(SFT)和强化学习(RL)进行优化,在各项任务中表现出色。DeepSeek-V3模型参数量达到671B(6710亿),在实际推理和训练中,每个Token仅激活37B(370亿)参数。DeepSeek-V3共包含61层Transformer架构,并将前馈神经网络中除前三层外全部替换为MoE架构。每个MoE架构包括1个共享专家和256个路由专家,每个token会激活8个路由专家。

DeepSeek-V3在经典Transformer架构上进行改进:1)前馈神经网络(Feed-Forward Network)引入DeepSeekMoE架构,采用细粒度专家以及划分共享专家策略。2)在注意力层(Attention)中引入MLA机制,能够在模型运行中减少KV(键值)缓存大小,提高模型性能,较好解决传统多头注意力中KV缓存机制对计算效率的阻碍。

混合专家模型(Mixture of Experts, MoE)

DeepSeek-V3模型基于经典Transformer架构,在前馈神经网络(Feed-Forward Network)引入混合专家模型(Mixture of Experts, MoE)。MoE核心思想在于将任务分解为多个子任务,由不同细分领域的专家进行处理,从而提高模型的灵活性和性能。通过动态分配计算资源,MoE能够高效利用硬件,同时保持高精度和泛化能力。

下面就MoE基本概念进行具体介绍。混合专家(Mixture of Experts,MoE)是一种利用多个不同子模型(或“专家”)来提升大语言模型质量的技术。MoE架构主要由混合专家层和路由机制构成,如图(MoE架构与解码器示意图)所示:

专家模块:每个前馈神经网络包含一组子模型,每次从中选择一个子集。专家擅长处理特定数据或任务。MoE架构允许多个专家同时存在,但在每次计算过程中,仅激活其中部分专家。专家的选择通常基于输入数据特征,使每个专家能专注于处理特定模式或语义上下文,提升模型的效率和泛化能力。如图(MoE架构专家模块示意图)所示,MoE架构由四个独立的前馈神经网络(专家)组成,每个专家专注不同的任务,当输入序列与对应模块相关时,模型通过动态路由机制选择性地激活相应专家。

路由机制:决定将token分配给相应专家。常见的路由机制包括基于Softmax函数门控机制,该机制计算输入token与各个专家的相关性,并基于概率选择最匹配的专家。一般而言,MoE仅激活少数几个专家,以减少计算成本,同时保持模型的高效性和任务适应能力。如图(MoE架构示意图)所示,路由机制将输入数据分配给合适的专家。输入通过前馈神经网络(FFNN)处理后的特征数据,并使用Softmax激活函数计算每个专家激活概率。概率值表示每个专家在当前任务中被激活的可能性。根据概率大小,模型选择(概率值高)最适合处理当前输入的专家,并激活该专家进行计算。

DeepSeek-V3模型采用DeepSeekMoE架构,与传统MoE架构不同,DeepSeekMoE架构采用细粒度专家以及划分共享专家策略。

传统MoE架构下每个路由专家(DeepSeek-V3 MoE架构图中蓝色部分)学习知识,通常导致模型在处理陌生任务时表现不佳,面临知识交叉和知识冗余等问题。

DeepSeekMoE采用细粒度专家划分,对专家网络进行差异化设计,允许不同参数规模或架构,并将部分专家划分为共享专家(DeepSeek-V3 MoE架构图中绿色部分),共享专家数量较少且相对固定,其始终处于被激活状态,可以被多个任务共同使用,负责整合不同数据源的共同知识。

简单而言,集中的共享专家掌握共享知识,就像公司拥有的共享资料库,员工需要通用资料直接去共享资料库里找,不用每个员工分别去收集,节省大量时间和精力。共享专家模式减少对特定专家的依赖,缓解专家利用不均衡的问题,有效提升专家的利用效率。

在MoE架构的训练过程中,由于路由策略的影响,不同专家接收到的训练数据分布往往不均衡,导致负载不平衡问题加剧,形成计算瓶颈。与传统引入辅助损失的解决方法不同,DeepSeek-V3采用无辅助损失负载均衡(Auxiliary-Loss-Free Load Balancing),通过动态调整专家间的负载分配,确保训练过程中各专家的负载均衡。此外,为防止单个序列出现极端负载不平衡的情况,DeepSeek-V3还采用序列级辅助补充损失策略(Complementary Sequence-Wise Auxiliary Loss),促使每个序列上的专家负载实现均衡。

多头潜在注意力(Multi-Head Latent Attention, MLA )

注意力机制(Attention Mechanism)是Transformer架构中的重要组成部分。。注意力机制不仅关注刚生成的词,并综合考虑上下文和之前生成的所有词。模型为相关词分配不同权重,差异化关注对生成词的影响。动态、差异化的关注机制使得模型能够捕捉上下文中的关键信息,生成更加自然、连贯且语义丰富的文本,这就是注意力机制的直观体现。

为实现注意力机制,Transformer架构引入查询(query)Q、键(key)K和值(value)V计算注意力。Q、K和V均为高维矩阵。语句生成过程中,通常将Q和K相乘,算出前面句子中的不同部分与下一个生成词的关联度,再乘以表示前面句子内容的值V,算出注意力,决定下一个词。多头注意力机制(Multi-Head Attention,MHA)作为Transformer架构的核心构成,模型训练中为实现注意力机制,将输入向量分割成多个注意力头(好比在阅读一本小说,单一注意力就像只有一双眼睛,只能关注一个方面,而多头注意力就像拥有多双眼睛,每双眼睛专注小说的不同方面),多个注意力头还可以并行计算,提高模型的处理速度,同时减少过拟合风险,增强模型的泛化能力。

DeepSeek-V3运用多头潜在注意力(Multi-Head Latent Attention, MLA),MLA主要解决大语言模型在训练和推理过程中的瓶颈问题,特别是降低占用大量内存的KV缓存。该技术首次在DeepSeek-V2中引入,与分组查询和多查询注意力等方法相比,MLA是目前开源模型中显著减小KV缓存大小的最佳方法。

关于缓存问题需要进一步说明。当前大语言模型主要采用自回归方法,自回归就是根据前面的词来预测和生成后面的词。在生成每一个新词的过程中,需要把前面已经生成的部分根据注意力重算一遍。如果生成的文章较长就会产生很多重复计算,因而会浪费大量计算资源。为节省计算资源,通常会把前面计算过的部分存储在缓冲区,但这会占用大量存储空间。上述提到的多头潜在注意力(MLA)可以解决相关问题。

多头潜在注意力(MLA)的创新之处在于采用低秩键值联合压缩技术(Low-Rank Key-Value Joint Compression),其可以将多头注意力机制中需要缓存的键(Key)和值(Value)矩阵压缩为一个低维潜在向量(即将原矩阵表示为两个较小矩阵的乘积,在推理过程中仅缓存潜向量而不缓存完整的键值)。如此不仅显著减少内存的占用,还能够保留关键信息,实现高效的注意力计算。

群体相对策略优化(Group Relative Policy Optimization, GRPO)

群体相对策略优化(Group Relative Policy Optimization, GRPO)是一种强化学习算法,核心思想是通过组内相对奖励来优化策略模型。该算法旨在提升大语言模型的推理能力,尤其在数学和编程等复杂任务中表现突出。GRPO的主要特点在于其不依赖于独立的价值函数模型,而是通过多个输出的平均奖励进行优化,简化训练过程,减少内存消耗,在某些任务上取得显著的性能提升。GRPO并非全新的算法,而是在近端策略优化(Proximal Policy Optimization ,PPO)算法的基础上改进得到的。PPO是当前强化学习领域广泛使用的一种策略梯度算法,通过限制策略更新幅度来提高训练的稳定性和效率。与GRPO相比,PPO的主要特征是基于Actor-Critic架构,需要训练一个与策略模型大小相当的价值网络。为更好理解GRPO算法,我们首先回顾一下PPO的基本原理和其在策略优化中的作用。

近端策略优化(Proximal Policy Optimization ,PPO)算法核心步骤可以概括为以下几个阶段:首先,初始化策略网络、价值网络和初参数,让智能体根据策略网络给出的动作概率分布来选择动作并与环境进行交互,收集数据信息。之后利用价值网络估计每个状态的价值函数。通过广义优势估计(GAE)计算优势函数,即计算每个动作的优势值,衡量该动作相对于平均动作的好坏程度。如果当前动作比平均水平好,应该增加其概率;反之则降低其概率。PPO的关键在于使用裁剪策略优化目标,防止策略更新幅度过大,造成训练不稳定的问题。PPO计算新的策略概率比与旧策略概率比之间的比值,如果这个比值超过预设范围,则通过裁剪的方式来限制更新幅度,确保策略不会发生过大变化。重复上述数据收集、优势估计和策略更新的步骤,不断优化策略网络,直到达到预设的停止条件。相比传统策略梯度方法,PPO通过裁剪策略更新幅度、多次策略更新,提高训练的稳定性和效率。

不过,PPO算法存在参数调整复杂,计算资源不足等缺陷。为解决这些问题,DeepSeek在其推出的DeepSeek-V3和DeepSeek-R1中均采用群体相对策略优化算法(GRPO),放弃通常与策略模型(policy model)大小相同的评价模型(critic model),通过群体得分来估计基线。我们以GRPO在DeepSeek-R1中的应用为例,阐述其具体算法原理。

DeepSeek-R1在监督微调(SFT)的基础上,引入GRPO进行强化学习(RL)微调。首先,对于每个输入提示,模型根据当前策略生成多个可能输出,为后续奖励计算提供丰富信息。奖励模型依据特定任务需求对每个输出打分。随后对奖励值进行归一化处理,使不同样本之间的奖励具有可比性,并计算相对优势对比同一输入下的多个输出,减少方差提高学习效率。根据相对优势调整策略模型,使其生成高奖励输出的概率增加,低奖励输出概率减少。

同时,为防止策略在更新过程中发生剧烈变化,引入KL散度约束确保模型稳定性。循环执行上述步骤,逐步优化策略,使模型在特定任务上的表现不断提升。当模型性能达到稳定状态时,停止训练或调整策略。在强化学习训练完成后,DeepSeek-R1进一步采用拒绝采样技术(Rejection Sampling, RS)。之后DeepSeek-R1进入最终的强化学习阶段。在模型具备较强的通用性后,再次应用GRPO算法,使其符合安全性要求,强化模型适应性。

DeepSeek开发群体相对策略优化算法是算法变革的关键转折点。GRPO在价值网络应用、奖励计算方式、策略更新机制、计算效率等许多方面优于PPO。

在价值网络使用方面,PPO算法中,策略网络(actor)和价值网络(critic)通常是并行训练的。PPO依赖于一个与策略模型大小相当的价值网络,来估计优势函数,调整策略网络的参数。每次更新时,PPO需要对每个时间步的状态进行评估,计算复杂度高。GRPO不再需要显式的价值网络,而是在分组范围内对多个采样输出进行对比,随后依据对比结果选取更优策略。在每次更新过程中,不再依靠价值函数来实施评估,而是通过比较同一状态下多个输出的奖励情况,直接判断哪些动作更为优良,这极大降低计算与存储方面的需求。

在奖励计算方式方面,PPO采用广义优势估计(GAE)来计算优势函数。GAE需要对每个动作的即时奖励和未来奖励的折扣总和进行估计,并且要结合多个时间步的奖励信息,计算过程较为复杂。GRPO通过采样一组动作,并直接计算这些动作的奖励值,进行归一化处理,得到相对优势。这种方法避免复杂的GAE计算,直接依赖当前的奖励信号,计算更加简洁高效,灵活性更强。

策略更新机制方面,PPO通过裁剪概率比(clip operation)来限制策略更新的幅度,确保策略分布的变化在可控范围内。由于每次更新都需要裁剪,计算效率受到一定影响。GRPO采用KL散度约束来控制策略更新的幅度。KL散度度量的是两个概率分布之间的差异,用于对比新旧策略分布,从而限制更新的幅度。引入KL散度项,GRPO可以精确控制每次策略更新的幅度,确保策略不会发生过大的变化。

计算效率方面,PPO需要反复维护和更新价值网络,并依赖于广义优势估计(GAE)来估计每个动作的优势,在每轮训练中需要大量计算和存储数据,计算效率更低。GRPO通过避免价值网络的使用,显著减少计算量并提高计算效率,降低内存占用。计算效率高使GRPO能够提高训练效率,减少模型训练时间,更适合大规模语言模型的微调。DeepSeek团队开发的GRPO算法,创新性地摒弃耗时且计算成本高昂的人类反馈强化学习和传统监督微调过程,使训练过程高效低耗,模型性能在某些任务上取得显著提升,模型进一步与人类偏好对齐,提高训练效率。研究人员在训练DeepSeek-R1-Zero时,发现模型出现“顿悟时刻”,即在完全没有人工标注数据的情况下,模型展现出持续的自我进化能力。“顿悟时刻”为推进AI系统的自主性和智能化提供宝贵的启示。

强化学习(Reinforcement Learning, RL)

强化学习(Reinforcement Learning, RL)是一种机器学习方法,指大模型通过与环境交互,根据环境反馈的奖励信号来学习最优策略,进而最大化累积奖励。在大模型后训练中,人类反馈强化学习(RLHF)更为常用,该训练方法需要大量人类反馈数据,数据收集成本、人力资源投入、多阶段训练和计算资源需求等约束导致其成本较高。在此背景下,DeepSeek团队提出“纯强化学习”这一训练方法,探索大语言模型(LLM)在没有任何监督数据的情况下开发推理能力的潜力。

纯强化学习(Pure Reinforcement Learning, RL)是指直接通过强化学习训练模型,而不依赖于传统的监督微调(SFT)与其他监督数据,该方法使模型能够通过链式推理 (CoT) 探索复杂问题的解决方案,进而拥有自主进化推理能力。作为DeepSeek-R1的无监督微调(SFT)版本,DeepSeek-R1-Zero直接在DeepSeek-V3基础模型模型的基础上使用强化学习进行训练并实现自我演化。

纯强化学习的训练过程具有重要意义:1)传统的大模型训练领域中,监督微调(SFT)需要高质量的人工标注数据,此标注过程周期长、成本高,且可能因标记者的偏好而引入潜在偏差,而纯强化学习则摆脱监督数据带来的成本与偏差;2)复杂的推理任务超出人类的普遍能力,纯强化学习可能使模型能够涌现出超越传统人类思维上限的超级推理能力;3)纯强化学习不依赖于显式标注,允许模型使用非自然语言表征方法进行“思考”,从而具有超越自然语言进行逻辑推理的潜力。

纯强化学习的基本流程:1)强化学习通过采用群相对策略优化(GRPO)来降低模型训练成本,避免成本较高的人类反馈强化学习(RLHF)和传统的监督微调(SFT)过程,并放弃与策略模型(policy model)大小相同的评价模型(critic model),使用群体得分来估计基线;2)奖励建模决定强化学习的效果与优化方向,用于评估解决方案。如正确的解决方案会被标记为“好”,错误的解决方案会被标记为“坏”。DeepSeek-R1-Zero采用基于规则的奖励系统,该系统主要包括准确性奖励 (Accuracy rewards)与格式奖励 (Format rewards)。其中,准确性奖励用于评估响应是否正确,格式奖励则将模型的思考过程置于“<think>”和“</think>”标签之间;3)训练模板通过设计简单的模板引导基础模型遵循指定指令,达到DeepSeek-R1-Zero训练目的。该模板要求模型通过生成推理过程进而输出最终答案,能够将相关内容限制在某一特定结构化格式内,避免内容上的特定偏向。

纯强化学习带来的自我演化(self-evolution)过程:纯强化学习能够推动DeepSeek-R1-Zero自主提升推理能力,主要体现为自我演化过程。该模型内部能力的自然发展使其自主获得处理复杂推理任务的能力,且随着测试计算时间的延长,该能力会随之进一步提高。此外,随着计算量的增加,DeepSeek-R1-Zero通过强化学习获得“反思”这一复杂行为,能够重新审视并评估其先前的回答,进而自发探索不同的解决方案。

纯强化学习引发的“顿悟时刻”(Aha Moment):“顿悟时刻”是在DeepSeek-R1-Zero训练的过程中产生的现象,指模型能够通过重新评估其初始方法为问题分配更多的思考时间,即“更长的推理”。这一现象说明无需显式地教导模型如何解决问题,只需为其提供适当的激励,其便能自主发展出高级的解决策略,为未来更自主、更具适应性的模型铺平道路。

监督微调(Supervised Fine-Tuning,SFT)

监督微调(Supervised Fine-Tuning, SFT)基本思想是利用标注数据对预训练模型进行进一步训练,使其适应特定任务需求。

监督微调一般流程为:1)预训练‌:首先在一个大规模数据集上训练一个深度学习模型,通常使用自监督学习或无监督学习算法进行预训练。2)‌微调‌:使用目标任务的训练集对预训练模型进行微调。通常只有预训练模型的一部分层被微调,例如只微调模型的最后几层或某些中间层。在微调过程中,通过反向传播算法对模型进行优化,使其在目标任务上表现更好。3)评估‌:使用目标任务的测试集对微调后的模型进行评估,得到模型在目标任务上的性能指标‌。

DeepSeek-V3在传统监督微调基础上对监督微调进行创新: 如梳理指令精调(instruction-tuning)数据集。该数据集包括1.5M个实例,跨多个域,每个域都量身定制不同数据合成方法; 建立高质量提示(Prompt)体系,引导模型形成自身的反馈与验证机制。

与传统监督微调相比,DeepSeek-V3监督微调架构通过多领域数据集构建、推理数据优化生成、非推理数据高质量标注,系统性解决传统SFT方法在数据依赖性、过拟合风险和多任务适应性等方面局限性。该架构不仅为DeepSeek-V3高性能提供技术保障,也为大规模预训练模型在下游任务中高效微调提供方法论指导。

冷启动(Cold Start)

冷启动(Cold start)是指模型初始运行阶段,由于缺乏足够的历史数据或用户行为信息,模型通常难以做出有效决策为用户提供个性化方案,因此需要在冷启动阶段引入冷启动数据(Cold start data)对模型进行微调。相关数据虽然与目标任务具体内容无直接关联,但能为模型提供基本语言理解能力、背景知识和领域知识,从而帮助模型在缺乏任务特定数据情况下,启动训练并具备一定处理能力,避免模型从零开始的训练难题。

为避免模型在训练初期可能出现的不稳定性问题,DeepSeek-R1在冷启动阶段引入长思维链(long CoT)数据进行微调。相关数据收集方法主要包括直接用模型生成经过反思和验证的提示内容;结合人类标注对DeepSeek-R1-Zero输出的结果进行优化等为模型提供更清晰的学习方向。

此外,针对DeepSeek-R1-Zero运行中输出可读性差等问题,DeepSeek-R1采用结构化、易于理解的冷启动数据格式,并在数据末尾加入总结信息,使模型能够快速理解和处理这些数据。这一设计不仅提高冷启动数据可读性,还增强模型在初期阶段性能。通过这样的冷启动数据,DeepSeek-R1在训练初期比DeepSeek-R1-Zero更加高效、准确理解任务,尤其在强化学习适应能力和任务处理效率方面表现出显著优势。因此,通过精心设计的冷启动数据,DeepSeek-R1在启动阶段能迅速积累任务处理能力,表现出远超DeepSeek-R1-Zero的性能,特别是在强化学习初期阶段,能够更好处理复杂任务,提升模型整体表现和发展潜力。

模型蒸馏(Model Distillation)

模型蒸馏(Model Distillation)是指将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术,其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求,使模型更适合在资源受限的环境中部署。教师模型训练良好、性能较高,但其规模庞大,在计算和存储资源上存在较大压力。学生模型是一个结构较为简单的小模型,通过模仿教师模型的行为,学习其强大的知识和表示能力。与传统的学习方式不同,教师模型输出软标签(概率分布)而不是硬标签(真实类别标签),软标签包含类别间相似性和内在关系的更多信息,帮助学生模型捕捉更多潜在特征,提升泛化能力。

模型蒸馏过程通常包括以下步骤:1)教师模型训练:训练一个高性能的教师模型。该模型往往较大且复杂,包含大量参数;2)数据准备:从教师模型中提取样本;3)学生模型训练:通过最小化学生模型与教师模型输出之间的差异来训练学生模型;4)优化与调整:调整学生模型的结构和参数,使其在保持较高准确率的同时,达到接近教师模型的性能水平。

蒸馏有助于弥补MoE架构的缺陷。MoE的架构特点使得其不适用于专业应用场景(例如单一专家场景)和资源限制场景(例如端侧推理)。DeepSeek选择Llama和Qwen系列开源大模型进行蒸馏,将推理能力迁移到MoE架构不适合的场景。结果显示,蒸馏得到的模型推理能力明显好于原开源模型。相较于传统的蒸馏技术,DeepSeek-R1模型在蒸馏技术、知识迁移、模型架构以及训练过程等多个方面进行创新。DeepSeek将数据蒸馏和模型蒸馏相结合,提升模型性能并降低计算成本。DeepSeek通过教师模型进行数据增强、伪标签生成和优化数据分布,生成高质量的推理数据样本,实现数据蒸馏;通过监督微调(SFT)将教师模型的知识迁移到学生模型中,实现模型蒸馏。模型蒸馏过程并未引入强化学习(RL)阶段,以准确验证蒸馏技术的有效性。具体而言,DeepSeek用教师模型生成80万个样本,对开源模型Qwen和Llama进行直接微调。

知识迁移的创新方面,DeepSeek采用多种知识迁移策略,包括基于特征的蒸馏和基于特定任务的蒸馏。基于特征的蒸馏方法旨在提取教师模型中间层的特征信息并传递给学生模型,帮助学生模型更好学习数据的本质特征。其核心是让学生模型在模仿教师模型内部学习过程中产生的特征,而非只关注最终输出结果。基于特定任务的蒸馏方法侧重于根据不同具体任务的特点和需求,对蒸馏过程进行针对性优化,使学生模型在该任务上达到尽可能高的性能。这些策略的优化使得DeepSeek的蒸馏模型在多个基准测试中表现优异。

训练过程的创新方面,DeepSeek的蒸馏训练数据主要来自教师模型生成的推理数据样本。其利用教师模型进行数据处理,为学生模型提供丰富、准确的学习样本。同时采用数据增强技术,对原始数据进行变换和处理,以增加数据集的多样性。

在训练过程中,DeepSeek采用监督微调(SFT)的方式,学生模型在微调过程中,以教师模型的输出作为监督信号,学习教师模型的输出概率分布,并调整自身参数,使输出尽可能接近教师模型,从实现知识从教师模型到学生模型的迁移。

在蒸馏过程中,温度参数调整是一个关键因素。温度是指蒸馏时用来调节教师模型输出概率分布平滑度的参数。较高的温度参数使分布更加平滑,类别之间的概率差异更小。教师模型中的软标签可以包含更多信息,学生模型在这种模糊情况下能够学到各个类别的可能性,而不仅是单一的预测结果。随着训练的进行,温度会逐渐降低,学生模型会专注于更准确的分类结果。动态学习率调整也是重要的优化技术。学习率可以理解为模型学习的速度。动态学习率策略根据训练进度和模型性能动态调整学习率,如果模型训练较好,就减小学习率让模型参数更新的步伐变小,准确收敛到最优解;反之,则加大学习率,让模型快速朝着最优解的方向逼近。

思维链(Chain of Thought,CoT)

通过让大模型逐步参与将一个复杂问题分解为多个子问题并依次进行求解的过程可以显著提升大模型的性能,而这一系列推理的中间步骤就被称为思维链(Chain of Thought,CoT)。其核心理念在于让模型像人类一样,将问题分解为多个步骤,逐步推导出答案。

一个完整包含思维链的Prompt通常由指令、逻辑依据、示例三部分组成。其中,指令用于描述问题并告知大模型的输出格式;逻辑依据即思维链的中间推理过程,也是思维链的核心部分;示例则指以少样本的方式为大模型提供输入输出对的基本格式。思维链与推理能力密切相关,其为模型提供一种结构化的思考方式,使模型能够逐步分析问题、探索多种解决路径,从而提高推理的准确性和效率。例如,在解答数学问题的过程中,模型并不只给出计算结果,而是逐步分析问题,展示解题思路和计算过程,如图(思维链示意图)所示:

DeepSeek-R1-Zero模型训练过程最大的特点就是其仅使用强化学习(Reinforcement Learning)进行训练,这种不依赖于监督数据的训练方式使模型能够通过链式推理 ( CoT) 探索复杂问题的解决方案,利用各种思维数据特别是长思维链数据来激活模型的推理能力,主要表现为模型在<think>标签内生成的推理过程。此外,这种涌现长思维链的能力是基于模型纯强化学习的特点自发产生的。

为避免强化学习在基础模型上的早期不稳定阶段,DeepSeek-R1使用少量长推理链数据进行微调,作为初始强化学习模型的基础。长推理链数据主要通过三种方式进行收集:1)使用带有长推理链示例的少样本提示 (few-shot prompting);2)直接提示模型生成带有反思和验证步骤的详细答案;3)以可读格式收集 DeepSeek-R1-Zero输出的内容,并通过人工标注进行后期处理。利用所收集到的长推理链数据对DeepSeek-V3-Base模型进行微调,DeepSeek-R1从经过数千条长推理链样本微调的检查点开始进行强化学习,并且在其训练过程中,随着训练步骤的增加,将进一步涌现出长思维链能力,模型的推理路径得以延长。DeepSeek-R1模型在推理过程中能够自然地形成思维链,并按照人类期望的方式进行推理。

思维链推理机制具有以下优势:1)提升模型的常识推理能力,采用思维链提示的大语言模型在多组任务中的表现都优于人类基线;2)提高模型的数学逻辑推理能力。语言模型一般在算术推理任务上的表现较差,而应用思维链后大语言模型的逻辑推理能力显著提高,能够解决部分需要精确、分步骤计算的复杂数学问题;3)增强模型的可信度和可解释性,思维链推理模式使得模型生成的结果有更加清晰的逻辑链条,更便于被接受。

DeepSeek-R1-Zero、DeepSeek-R1通过引入思维链推理机制,显著提高模型在复杂推理任务上的表现,降低模型训练对标注数据的依赖,进而实现降低训练成本和算力消耗的目的。

DeepSeek-V3训练流程

如图(DeepSeek-V3训练流程)所示,DeepSeek-V3训练流程主要分为四阶段。在基础预训练阶段,以构建通用语言表征能力为目标,V3模型使用14.8T高质量预训练数据集,采用PSM框架构建FIM训练数据,增强模型对上下文中断续文本的生成能力,并使用AdamW 优化器避免模型出现过度拟合问题;在长文扩展训练阶段,V3模型运用YARN技术通过两阶段训练将上下文长度扩展至128K;在SFT训练阶段,V3模型梳理包括多个领域共1.5M个实例的指令精调数据集,在某些特定领域构建量身定制的专家模型数据合成器,并利用DeepSeek-R1模型合成与推理相关的SFT数据集,对于非推理数据利用人工注释验证后DeepSeek-V2.5生成数据,保证数据准确性;在强化学习阶段,V3模型采用2种奖励模型,基于规则的奖励模型和基于模型的奖励模型,提高生成内容的可靠性,并采用GRPO策略在一个分组内进行多个采样输出比较,根据比较结果选择较优策略。

DeepSeek-R1训练流程

如图(DeepSeek-R1训练流程)所示,DeepSeek-R1训练流程主要分为四阶段。在冷启动阶段,R1模型采用包括长思维链等数据基于V3基础模型进行有监督精调(SFT),克服强化学习初期不稳定问题;在面向推理的强化学习阶段,R1模型基于GRPO进行强化学习,根据模型输出准确度、格式和语言一致性进行训练奖励,显著提升模型的推理性能;在拒绝采样与SFT阶段,通过结合其他领域的数据,运用600K推理数据与200K非推理数据,极大增强R1模型在写作、角色扮演和其他通用任务中的能力;在全场景强化学习与对齐阶段,为提高模型有用性和无害性,增强推理能力,该阶段进行面向全场景的强化学习和人类偏好对齐,并结合来自不同渠道的数据,将奖励信号与不同提示分布相结合。

DeepSeek系列模型产业影响分析

至顶智库认为,作为中国本土AI公司深度求索(DeepSeek)自主研发的DeepSeek-R1和V3系列模型,将对全球AI产业未来发展带来深远影响,具体体现在如下四方面:

开源模型竞争力显著提升。DeepSeek-R1和V3系列模型在性能上达到开源模型的顶尖水平,甚至在某些方面与顶尖的闭源模型相媲美。这种高性能的开源模型为开发者和企业提供更具性价比的选择,提升开源模型在全球市场的竞争力。

开源模式推动大模型普惠化。一方面降低大模型技术门槛,DeepSeek的开源特性使得中小企业和个人开发者能够低成本接入先进的人工智能技术,推动技术的普惠化发展。另一方面,促进AI开发社区生态建设,开源模式吸引大量开发者和用户参与,形成强大的开发者社区生态,加速技术的迭代和应用落地。

人工智能产业发展提速。DeepSeek以其低成本、高性能的特点,降低AI技术的应用门槛,使得更多的企业和开发者能够使用更先进的大模型,加快人工智能在各行业的广泛推广,推动AI产业持续快速发展。

人工智能商业模式重塑。一方面,降低AI应用成本,DeepSeek的低成本特性使得AI应用的门槛大幅降低,推动人工智能在医疗、教育、金融等领域的快速落地。另一方面,进一步加速AI商业化进程,DeepSeek推动大模型厂商重新聚焦投资回报率(ROI),推动AI新应用的快速落地以及新的商业模式出现。

主要参考文献:

1.DeepSeek-V3 Technical Report

2.DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

3.DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ok-YV2a3aCJCemvO2BdU3VQA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券