部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >【直播笔记】十问腾讯混元快思考Turbo S

【直播笔记】十问腾讯混元快思考Turbo S

作者头像
腾讯开源
发布2025-03-13 22:00:43
发布2025-03-13 22:00:43
780
举报

腾讯混元新一代旗舰快思考模型——Turbo S已正式推出,区别于Deepseek R1、混元T1等需要“想一下再回复”的慢思考模型,混元Turbo S能够“秒回”,拥有直觉,可以解决更多应用问题。

除了快,作为腾讯混元最新旗舰模型,混元Turbo S在技术上还有哪些创新?为什么采用了融合的Hybrid Mamba Transformer结构?对于大模型的快与慢的优劣势,技术团队都有哪些思考?在这场对话中,混元团队带来全面的解读。

一、 混元Turbo S有哪些特点?

Turbo 是涡轮增压,S可以理解为Speed, 动力更强,速度更快。它有三个特点: 第一个速度更快,第二成本更低,第三效果更好。

第一,速度更快,相比上一代 Turbo 模型,首字响应时间降低44%,吞吐提升100%。

成本更低,云上API定价100万token输出两元,相比于上一代Turbo 降低数倍。

第三,效果更好。对比上一代 Turbo ,整体链路做了优化,包括训练数据、模型结构、MoE参数效率等。尤其是通过长短思维链的融合,让模型在数学和代码这种需要长思考的场景下也能够表现更好。

二、 快思考和慢思考模型的关键区别是什么?

常见的长链模型,包括DeepSeek的R系列、OpenAI的O系列;短链模型包括OpenAI的GPT4或者4.5以及混元的Turbo S等。

之所以要做这个短链模型,是因为团队通过分析和观察,发现用户90%的请求,都可以通过大模型的直觉,不需要深度思考就可以精准、简洁的给出答案。

所以对这些请求,模型应该更快、更准地给出回复,剩下的10%请求,模型则应该做一些深度的思考,甚至做一些反思,从而给出更符合需求的答案。

除了速度更快,成本更低,其实慢思考的数据也可以融入到快思考的模型中去,比如Turbo S,已经把慢思考数据加到模型训练中,使得模型对于那10%需要深入思考才能解答的问题,也能比较精准的回答。

三、Turbo S 模型架构有哪些特别的设计?为什么会使用Mamba?

Turbo S架构上主要创新点之一是Hybrid Mamba Transformer。

现在业界更多是用Transformer架构,也就是 Full Attention,它本身有三大缺陷:

第一,计算复杂度高,序列维度呈平方级关系,所以不管是在训练还是推理的时候,复杂度都很高。

第二,推理时需要KV Cache,而且KV Cache随着序列长度增加,呈线性增加,所以部署成本相对高。

第三,预测时间长,这一架构下,模型每一步的预测都会叠加KV Cache,所以每一步的预测都跟序列呈线性关系,导致越往后,生成就越慢,但对Mamba来说,尤其是对于Mamba Linear Attention,每一步的预测都是O(1)复杂度的。

*O(1) 是常数复杂度,表示无论输入数据量多大,算法所需的执行时间或内存空间都保持固定。这里的 "1" 代表常数,而非具体的数值,表示操作次数或资源消耗不随输入规模 n 变化。

所以对于模型来说,需要更高效的Attention,甚至要做Linear Attention,在这一方向上,此前业界已有一些方案和探索。比如,Sliding Attention、MoBA,还有DeepSeek前段时间放出的NSA,其实NSA和MoBA一定程度上是相似的,都是稀疏的Attention。同时,稀疏的Attention也有好几种,包括Hierarchicol的Attention,包括Block-wise,就是从这个Block中去做Ranking,选出一些TOP的,去做Attention。以及这几种做了一些组合。

从某种意义上来说,这些方向都是压缩,通过压缩降低计算复杂度。Mamba则是全新的结构,是State Space Model,并在这上面做了优化,尤其是Mamba 2本身可以理解为一种kernel base的线性Attention,它里边有三个比较重要的Metrics,一个C,一个是B,一个是X。C可以类比于Attention的Q,B可以类比为Full Attention的K,X可以类比于Full Attention的V,里面还有一个矩阵叫A,A矩阵是可以不断的对上下文的信息去做累乘的,能记住压缩的上下文信息。

举例来说,对于传统Full Attention,上下文是“我有一个苹果”,要预测下一个“手机”这个词,进而得到最终的完整表述”我有一个苹果手机”。Full Attention是需要看到前面所有的词去进行预测的,但是对于Mamba来说,因为信息的压缩,它只需要记住上一个状态信息。

不过,这种压缩的表示如果纯用Mamba本身,会有很大的信息损失,尤其在做长输入和长输出的场景下,所以要做Hybrid。

通俗理解,线性Attention机制实际用了一组表,或者一个笔记本去记录上下文信息,所以需要很多计算、存储资源和通信开销。而Hybrid Mamba Transformer实际上是用了一张小卡片,它的容量很小,可以通过不断在小卡片里计算最重要的注意力方面的一些信息,然后不断往前传递,在这种情况下,整个注意力的计算信息复杂度、计算复杂度,存储的消耗都非常低。

总体来看,Mamba 跟Full Attention的组合有三个变量。第一个是要引入多少比例的Full attention? 第二个变量是Full attention应该在哪些层出现? 第三个变量就是 Mamba 跟Full attention应该用什么样的方式进行组合?

围绕这三个变量,混元Turbo S做了非常多的Scaling law探索,最终的效果能够做到不管在长文还是短文的场景下(长文也包括长输入和长输出),都能打平甚至超过 Full Attention 的 Transforme 效果。

四、Turbo S 在工程上做了哪些优化?

Mamba结构对于工程来说比较新,所以要从设计上做很多新的东西来适配。

对于训练来说,尤其是训练长文,一般会用到一个叫“序列并行“的技术,这时Full Attention和Mamba会有特别大的区别——Full Attention 需要处理所有token之间的关系,Mamba只需要把上一个token的状态传给下一个token的状态。这样的话就可以从工程上节省很多的通信以及计算资源。

推理上Mamba结构也非常友好。要做工程优化,首先Full Attention每个token需要维护一个KV cache,Mamba因为只有最后一个状态,所以就像此前说的,只需要维护“小卡片”。

五、线性注意力机制和MLA的区别是什么,有什么优势?

MLA和线性Attention走的是两个路线。一般来说,推理的时候一个比较重的开销是 KV cache 要做处理。MLA从算法角度做了对于KV cache的节省,实际上是缓解了推长度较长的长文 KV cache 的压力问题。如果用Mamba 结构,或者Linear Attention结构的话只需要处理小卡片,这样就没有KV cache 的压力。所以从技术路线上,二者走了两个不同的演进方向,不过都是为了解决KV cache的问题。

相比此前的另一个关注度较高的注意力机制MHA,MLA节省了90%的KV cache,但是Mamba Hybrid相比MLA还能降低百分之六七十的KV cache。这些都是面对算力瓶颈,在工程上极致优化的结果。

六、腾讯混元在MoE路线上做了哪些探索?

腾讯混元团队早在2022年的时候就已经研发了千亿和万亿规模的MoE模型,2022年5月在CLUE榜单上拿到了第一名的成绩,第一版大规模MoE模型上线是在2023年底,参数规模达到万亿。

MoE结构特殊,激活参数少,但总参数大。这种总参数特别大的模型训练和部署成本较高,所以提升参数效率非常重要。在这方面,腾讯混元做了比较多的探索:

首先是Share专家,腾讯混元早在2023年的模型上就探索了Share专家结构,让所有的 token 能够走一个 Share 的专家,同时会走一些分发的路由专家。这样的好处是让专家的差异化更大,同时,专家训练更加稳定,因为有更多的token可以走到这个通用的、Share的专家,它的梯度会更加稳定一些。

第二点,训练稳定性。训练稳定性对MoE非常重要,涉及到MoE的一个机制,叫TopK路由,它有一个丢词的问题,丢词就会影响训练的稳定性。丢词跟drop out不一样,drop out 是以一定比例的drop掉一些feature。但是会在最终输出的时候做一个 rescale,比如说丢掉10%的feature,最终会除以0.9,分布是不会变的。但drop token是随机的过程,会影响输出的feature分布,所以混元也提出了补偿路由的机制,能够把丢词率从百分位降到了万分位,能够极大保证训练的稳定性。

在MoE的研发上,腾讯混元始终坚持scaling law先行,探索了非常多的scaling law,比如batch size跟learning rate这类超参数的情况。早在2018年的时候,OpenAI已经做过SGD优化器下的超参数探索,它的结论就是learning rate跟batch size始终呈正相关关系,但现在大家训练基本没用SGD优化器,都是Adam优化器。Adam优化器的超参数探索,在腾讯混元团队做之前业内是没有的,团队在这个地方做了一些深入的研究和理论推导。得到的结论是,随着batch side增加,learning rate应该是先增加后降低,这是一个非单调的过程。

七、在scaling law上有哪些新发现?

其他方面的scaling law,包括模型的总参数scaling law,腾讯混元也做了很多探索。关于模型能训练多少数据得到的结论是:在算力一定的情况下,模型的训练数据与激活参数是一个一百多倍的关系。同时也发现,训练更多倍数的数据之后,这个模型的能力还会持续提升。哪怕只是增加训练两,三倍的数据,模型的能力还是会持续提升的。所以数据的scaling law还没有结束。

再有就是关于细粒度专家scaling law,在专家数量以及激活专家数量上做了一些scaling law的研究,发现当把专家拆的更细之后,模型的Performance和上限就会变高。但是也带来另一个问题,就是把专家拆的更细,比如把激活一个专家变成了激活8个、16个,甚至更多的专家,带来的all to all通信的成本就会更高。这对训练的infer的挑战就会更大。

八、 为什么低精度下,训练数据量越大,模型效果不升反降?

大规模的MoE有两个挑战,一个是计算的时候需要低精度来处理,另外一个是通信的时候也要低精度来处理。

先简单介绍一下低精度训练是什么。在模型训练过程当中,中间有一些计算是可以采用更低的精度来进行,这样不会影响模型效果,它会带来两个好处,一个是用低精度来做存储,存储开销会减少;另外一个是用低精度来计算的话,硬件本身能提供的算力也会更大,这样对于整个Infra以及整个模型的迭代速度会非常友好。

但是它也带来一个问题,模型效果可能会受到一定影响。在开展MoE这个低精度训练之前,混元团队做了很多准备工作,比如探索低精度训练对这个模型效果有什么样的影响。然后发现,过去认为的训练数据量越大模型效果会越来越好不一定都是对的,通过大量实验,我们发现在低精度训练下,数据量增加到某一个阈值的时候,会导致模型效果不升反降,就是甚至是有害的。这个是scaling law的一个新的发现。

九、 如何实现长短链融合?这是未来模型迭代的一大重要方向吗?

Turbo S做了长短思维链的融合,对于能够直接回答的问题,它非常快,非常简洁。同时对于那些难的,需要反复推理和反思的问题,也能够得到更精准的答案。

腾讯混元T1是一个擅长长思考推理的模型,Turbo S 通过T1能够得到一些相对长链的数据,再把长链的数据跟短链的数据做了融合,经过一阶段的训练之后做一些拒绝采样。拒绝采样有的是根据正确性,有的是根据长度。正确性方面,会有一些基于规则的方法,也有一些reward model base的方法。

经过这个设计之后,模型整体的能力会提升很大的一个台阶。尤其是对于数学的、代码的,还有逻辑的,需要长推理的任务表现会更好。关于长链的这个模型和短链模型,业界有两种思路,Anthropic 更多的是做长短链的融合,他们没有单独的存储模型。OpenAI既有短链的又长链的,长链的就是O系列,O1到O3,然后短链的就是4和4.5这种系列的短链模型,腾讯混元也是两种模型的都有,短链的模型是可以很好的去融合长链的这种能力,腾讯混元基于Turbo S的T1模型也将很快发布。

十、 在哪里可以体验混元Turbo S模型?

当前,开发者和企业用户已经可以在腾讯云上通过 API调用腾讯混元 Turbos。(腾讯混元Turbo S模型API试用申请: https://cloud.tencent.com/apply/p/i2zophus2x8)。

定价上,TurboS输入价格为0.8元/百万tokens,输出价格为2元/百万tokens,相比前代混元Turbo 模型价格下降数倍。

腾讯元器、腾讯文档、搜狗输入法、QQ 浏览器等多个腾讯业务和场景均已接入混元Turbo S。在C端,腾讯元宝已上线混元 Turbo S,用户在元宝内选择“Hunyuan”模型并关闭深度思考即可体验使用,扫描下方二维码即刻体验。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯开源 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档