【直播笔记】十问腾讯混元快思考Turbo S

腾讯开源

发布于 2025-03-13 22:00:43

780

文章被收录于专栏：腾讯开源的专栏腾讯开源的专栏

腾讯混元新一代旗舰快思考模型——Turbo S已正式推出，区别于Deepseek R1、混元T1等需要“想一下再回复”的慢思考模型，混元Turbo S能够“秒回”，拥有直觉，可以解决更多应用问题。

除了快，作为腾讯混元最新旗舰模型，混元Turbo S在技术上还有哪些创新？为什么采用了融合的Hybrid Mamba Transformer结构？对于大模型的快与慢的优劣势，技术团队都有哪些思考？在这场对话中，混元团队带来全面的解读。

一、混元Turbo S有哪些特点？

Turbo 是涡轮增压，S可以理解为Speed, 动力更强，速度更快。它有三个特点: 第一个速度更快，第二成本更低，第三效果更好。

第一，速度更快，相比上一代 Turbo 模型，首字响应时间降低44%，吞吐提升100%。

成本更低，云上API定价100万token输出两元，相比于上一代Turbo 降低数倍。

第三，效果更好。对比上一代 Turbo ，整体链路做了优化，包括训练数据、模型结构、MoE参数效率等。尤其是通过长短思维链的融合，让模型在数学和代码这种需要长思考的场景下也能够表现更好。

二、快思考和慢思考模型的关键区别是什么？

常见的长链模型，包括DeepSeek的R系列、OpenAI的O系列；短链模型包括OpenAI的GPT4或者4.5以及混元的Turbo S等。

之所以要做这个短链模型，是因为团队通过分析和观察，发现用户90%的请求，都可以通过大模型的直觉，不需要深度思考就可以精准、简洁的给出答案。

所以对这些请求，模型应该更快、更准地给出回复，剩下的10%请求，模型则应该做一些深度的思考，甚至做一些反思，从而给出更符合需求的答案。

除了速度更快，成本更低，其实慢思考的数据也可以融入到快思考的模型中去，比如Turbo S，已经把慢思考数据加到模型训练中，使得模型对于那10%需要深入思考才能解答的问题，也能比较精准的回答。

三、Turbo S 模型架构有哪些特别的设计？为什么会使用Mamba？

Turbo S架构上主要创新点之一是Hybrid Mamba Transformer。

现在业界更多是用Transformer架构，也就是 Full Attention，它本身有三大缺陷：

第一，计算复杂度高，序列维度呈平方级关系，所以不管是在训练还是推理的时候，复杂度都很高。

第二，推理时需要KV Cache，而且KV Cache随着序列长度增加，呈线性增加，所以部署成本相对高。

第三，预测时间长，这一架构下，模型每一步的预测都会叠加KV Cache，所以每一步的预测都跟序列呈线性关系，导致越往后，生成就越慢，但对Mamba来说，尤其是对于Mamba Linear Attention，每一步的预测都是O(1)复杂度的。

*O(1) 是常数复杂度，表示无论输入数据量多大，算法所需的执行时间或内存空间都保持固定。这里的 "1" 代表常数，而非具体的数值，表示操作次数或资源消耗不随输入规模 n 变化。

所以对于模型来说，需要更高效的Attention，甚至要做Linear Attention，在这一方向上，此前业界已有一些方案和探索。比如，Sliding Attention、MoBA，还有DeepSeek前段时间放出的NSA，其实NSA和MoBA一定程度上是相似的，都是稀疏的Attention。同时，稀疏的Attention也有好几种，包括Hierarchicol的Attention，包括Block-wise，就是从这个Block中去做Ranking，选出一些TOP的，去做Attention。以及这几种做了一些组合。

从某种意义上来说，这些方向都是压缩，通过压缩降低计算复杂度。Mamba则是全新的结构，是State Space Model，并在这上面做了优化，尤其是Mamba 2本身可以理解为一种kernel base的线性Attention，它里边有三个比较重要的Metrics，一个C，一个是B，一个是X。C可以类比于Attention的Q，B可以类比为Full Attention的K，X可以类比于Full Attention的V，里面还有一个矩阵叫A，A矩阵是可以不断的对上下文的信息去做累乘的，能记住压缩的上下文信息。

举例来说，对于传统Full Attention，上下文是“我有一个苹果”，要预测下一个“手机”这个词，进而得到最终的完整表述”我有一个苹果手机”。Full Attention是需要看到前面所有的词去进行预测的，但是对于Mamba来说，因为信息的压缩，它只需要记住上一个状态信息。

不过，这种压缩的表示如果纯用Mamba本身，会有很大的信息损失，尤其在做长输入和长输出的场景下，所以要做Hybrid。

通俗理解，线性Attention机制实际用了一组表，或者一个笔记本去记录上下文信息，所以需要很多计算、存储资源和通信开销。而Hybrid Mamba Transformer实际上是用了一张小卡片，它的容量很小，可以通过不断在小卡片里计算最重要的注意力方面的一些信息，然后不断往前传递，在这种情况下，整个注意力的计算信息复杂度、计算复杂度，存储的消耗都非常低。

总体来看，Mamba 跟Full Attention的组合有三个变量。第一个是要引入多少比例的Full attention? 第二个变量是Full attention应该在哪些层出现? 第三个变量就是 Mamba 跟Full attention应该用什么样的方式进行组合？

围绕这三个变量，混元Turbo S做了非常多的Scaling law探索，最终的效果能够做到不管在长文还是短文的场景下（长文也包括长输入和长输出），都能打平甚至超过 Full Attention 的 Transforme 效果。

四、Turbo S 在工程上做了哪些优化？

Mamba结构对于工程来说比较新，所以要从设计上做很多新的东西来适配。

对于训练来说，尤其是训练长文，一般会用到一个叫“序列并行“的技术，这时Full Attention和Mamba会有特别大的区别——Full Attention 需要处理所有token之间的关系，Mamba只需要把上一个token的状态传给下一个token的状态。这样的话就可以从工程上节省很多的通信以及计算资源。

推理上Mamba结构也非常友好。要做工程优化，首先Full Attention每个token需要维护一个KV cache，Mamba因为只有最后一个状态，所以就像此前说的，只需要维护“小卡片”。

五、线性注意力机制和MLA的区别是什么，有什么优势？

MLA和线性Attention走的是两个路线。一般来说，推理的时候一个比较重的开销是 KV cache 要做处理。MLA从算法角度做了对于KV cache的节省，实际上是缓解了推长度较长的长文 KV cache 的压力问题。如果用Mamba 结构，或者Linear Attention结构的话只需要处理小卡片，这样就没有KV cache 的压力。所以从技术路线上，二者走了两个不同的演进方向，不过都是为了解决KV cache的问题。

相比此前的另一个关注度较高的注意力机制MHA，MLA节省了90%的KV cache，但是Mamba Hybrid相比MLA还能降低百分之六七十的KV cache。这些都是面对算力瓶颈，在工程上极致优化的结果。

六、腾讯混元在MoE路线上做了哪些探索？

腾讯混元团队早在2022年的时候就已经研发了千亿和万亿规模的MoE模型，2022年5月在CLUE榜单上拿到了第一名的成绩，第一版大规模MoE模型上线是在2023年底，参数规模达到万亿。

MoE结构特殊，激活参数少，但总参数大。这种总参数特别大的模型训练和部署成本较高，所以提升参数效率非常重要。在这方面，腾讯混元做了比较多的探索：

首先是Share专家，腾讯混元早在2023年的模型上就探索了Share专家结构，让所有的 token 能够走一个 Share 的专家，同时会走一些分发的路由专家。这样的好处是让专家的差异化更大，同时，专家训练更加稳定，因为有更多的token可以走到这个通用的、Share的专家，它的梯度会更加稳定一些。

第二点，训练稳定性。训练稳定性对MoE非常重要，涉及到MoE的一个机制，叫TopK路由，它有一个丢词的问题，丢词就会影响训练的稳定性。丢词跟drop out不一样，drop out 是以一定比例的drop掉一些feature。但是会在最终输出的时候做一个 rescale，比如说丢掉10%的feature，最终会除以0.9，分布是不会变的。但drop token是随机的过程，会影响输出的feature分布，所以混元也提出了补偿路由的机制，能够把丢词率从百分位降到了万分位，能够极大保证训练的稳定性。

在MoE的研发上，腾讯混元始终坚持scaling law先行，探索了非常多的scaling law，比如batch size跟learning rate这类超参数的情况。早在2018年的时候，OpenAI已经做过SGD优化器下的超参数探索，它的结论就是learning rate跟batch size始终呈正相关关系，但现在大家训练基本没用SGD优化器，都是Adam优化器。Adam优化器的超参数探索，在腾讯混元团队做之前业内是没有的，团队在这个地方做了一些深入的研究和理论推导。得到的结论是，随着batch side增加，learning rate应该是先增加后降低，这是一个非单调的过程。

七、在scaling law上有哪些新发现？

其他方面的scaling law，包括模型的总参数scaling law，腾讯混元也做了很多探索。关于模型能训练多少数据得到的结论是：在算力一定的情况下，模型的训练数据与激活参数是一个一百多倍的关系。同时也发现，训练更多倍数的数据之后，这个模型的能力还会持续提升。哪怕只是增加训练两，三倍的数据，模型的能力还是会持续提升的。所以数据的scaling law还没有结束。

再有就是关于细粒度专家scaling law，在专家数量以及激活专家数量上做了一些scaling law的研究，发现当把专家拆的更细之后，模型的Performance和上限就会变高。但是也带来另一个问题，就是把专家拆的更细，比如把激活一个专家变成了激活8个、16个，甚至更多的专家，带来的all to all通信的成本就会更高。这对训练的infer的挑战就会更大。

八、为什么低精度下，训练数据量越大，模型效果不升反降？

大规模的MoE有两个挑战，一个是计算的时候需要低精度来处理，另外一个是通信的时候也要低精度来处理。

先简单介绍一下低精度训练是什么。在模型训练过程当中，中间有一些计算是可以采用更低的精度来进行，这样不会影响模型效果，它会带来两个好处，一个是用低精度来做存储，存储开销会减少；另外一个是用低精度来计算的话，硬件本身能提供的算力也会更大，这样对于整个Infra以及整个模型的迭代速度会非常友好。

但是它也带来一个问题，模型效果可能会受到一定影响。在开展MoE这个低精度训练之前，混元团队做了很多准备工作，比如探索低精度训练对这个模型效果有什么样的影响。然后发现，过去认为的训练数据量越大模型效果会越来越好不一定都是对的，通过大量实验，我们发现在低精度训练下，数据量增加到某一个阈值的时候，会导致模型效果不升反降，就是甚至是有害的。这个是scaling law的一个新的发现。

九、如何实现长短链融合？这是未来模型迭代的一大重要方向吗？

Turbo S做了长短思维链的融合，对于能够直接回答的问题，它非常快，非常简洁。同时对于那些难的，需要反复推理和反思的问题，也能够得到更精准的答案。

腾讯混元T1是一个擅长长思考推理的模型，Turbo S 通过T1能够得到一些相对长链的数据，再把长链的数据跟短链的数据做了融合，经过一阶段的训练之后做一些拒绝采样。拒绝采样有的是根据正确性，有的是根据长度。正确性方面，会有一些基于规则的方法，也有一些reward model base的方法。

经过这个设计之后，模型整体的能力会提升很大的一个台阶。尤其是对于数学的、代码的，还有逻辑的，需要长推理的任务表现会更好。关于长链的这个模型和短链模型，业界有两种思路，Anthropic 更多的是做长短链的融合，他们没有单独的存储模型。OpenAI既有短链的又长链的，长链的就是O系列，O1到O3，然后短链的就是4和4.5这种系列的短链模型，腾讯混元也是两种模型的都有，短链的模型是可以很好的去融合长链的这种能力，腾讯混元基于Turbo S的T1模型也将很快发布。

十、在哪里可以体验混元Turbo S模型？

当前，开发者和企业用户已经可以在腾讯云上通过 API调用腾讯混元 Turbos。(腾讯混元Turbo S模型API试用申请: https://cloud.tencent.com/apply/p/i2zophus2x8）。

定价上，TurboS输入价格为0.8元/百万tokens，输出价格为2元/百万tokens，相比前代混元Turbo 模型价格下降数倍。

腾讯元器、腾讯文档、搜狗输入法、QQ 浏览器等多个腾讯业务和场景均已接入混元Turbo S。在C端，腾讯元宝已上线混元 Turbo S，用户在元宝内选择“Hunyuan”模型并关闭深度思考即可体验使用，扫描下方二维码即刻体验。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-03-12，如有侵权请联系 cloudcommunity@tencent.com 删除

笔记