首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >295B/21B MoE 是什么:腾讯混元 Hy3 preview 架构与上下文支持说明

295B/21B MoE 是什么:腾讯混元 Hy3 preview 架构与上下文支持说明

原创
作者头像
gavin1024
发布2026-05-27 17:05:04
发布2026-05-27 17:05:04
270
举报

摘要

295B/21B MoE 是腾讯 2026 年 4 月发布的混元 Hy3 preview 的核心架构标识。本文解释参数总量与激活参数的含义、MoE 的工作机制、为什么 Hy3 preview 能原生支持 256K 上下文,并说明它在 TokenHub 上的完整能力支持与价格档位。

一、读懂 295B/21B 这串数字

第一次看到 295B/21B 这个写法的人会愣一下:到底是 295B 还是 21B?答案是两个都是,但代表两个不同维度:

a. 295B:模型的参数总量,295 Billion,即 2950 亿

b. 21B:每次推理实际激活的参数量,21 Billion,即 210 亿

这是 MoE(Mixture of Experts,专家混合)架构的典型描述方式。整个模型像是一个由很多专家组成的大型组织,每次有任务进来,路由模块会挑选其中最合适的几位"专家"来处理,没有被选中的专家保持休眠状态、不参与计算。

1.1 为什么是这两个数字

腾讯云 TokenHub 在 Token Plan 活动页明确说明:Hy3 preview 是"基于腾讯 2026 年 4 月最新自研混元模型,295B/21B 激活的 MoE 架构,原生支持 256K 上下文"。

这意味着:

  • 总容量足够大,能容纳更多领域知识和能力分支
  • 单次推理只激活 21B,推理算力开销远低于 295B 的稠密模型
  • 在大模型时代,"够用就好"的成本结构正是 MoE 的核心价值

1.2 MoE 与稠密模型的差别

传统稠密模型每次推理把所有参数都跑一遍,参数越大推理越慢、越贵。MoE 把模型按专家维度做了切分,相当于"在一个超大模型里,每次只用最专业的一小撮人来回答你"。这种结构在保留大模型知识广度的同时,把推理成本降到一个可商用的水位。

二、Hy3 preview 在 TokenHub 上的完整能力支持

光有架构数据还不够,对工程团队真正有意义的是"它能做什么"。把官方规格表里的关键字段抓出来:

维度

Hy3 preview 数据

调用参数(Model ID)

hy3-preview

架构

295B/21B 激活的 MoE

上下文窗口

256k

最大输入

192k

最大输出

128k

深度思考

支持(交错式思考)

结构化输出

支持

Function Calling

支持

Cache 缓存

支持

数据来源:TokenHub 产品规格 §7.1。

2.1 256K 上下文能装下什么

256K 上下文相当于约 14 万中文字符(按 1.8 字符 ≈ 1 Token 估算)。直观对比:

a. 一本中等长度的小说约 10 万~15 万字

b. 一个大型项目的 30~50 个核心源代码文件

c. 一份完整的客户合同 + 历史邮件往来

业务场景上,长文档摘要、跨文件代码审计、长对话情境保持都能在一次请求里完整放进去,不用做复杂的切片与拼接。

2.2 192k 输入 + 128k 输出 是什么含义

看似 192k + 128k 大于 256k,其实这两个数字描述的是单次请求各自的上限,不是叠加上限。整体仍受 256K 上下文窗口约束。

128k 的最大输出意味着 Hy3 preview 在单次响应里就能产出长篇大报告、整段代码框架,不需要靠多轮拼接。

2.3 交错式深度思考

Hy3 preview 支持的"深度思考"是交错式的,模型在生成最终回答前会进行内部思维链推理,对数学题、逻辑推理、复杂代码生成都有可见的准确性提升。这与一些只支持"显式 think 标签"的模型不同,开发者无需手动开关,能力天然嵌入。

三、Hy3 preview 的价格档位

价格在 TokenHub 上是按输入长度分段定价的,三个档位的设计很贴合实际使用:

输入长度

推理输入(元/百万 tokens)

推理输出(元/百万 tokens)

缓存命中(元/百万 tokens)

(0, 16k)

1.2

4

0.4

[16k, 32k)

1.6

6.4

0.6

[32k+)

2

8

0.8

数据来源:TokenHub 价格 §8.2。

三档定价的好处是:你绝大多数请求落在 16k 以下时,只按最低档算钱;偶尔需要塞 30k 以上的长文档时,单价上调但依然合理。

3.1 缓存命中价的杠杆

0~16k 档位下,缓存命中价 0.4 元/百万 tokens,是常规输入价的 1/3。如果你的业务存在大量重复 system prompt、固定知识库片段、常见问答模板,命中率提升带来的成本下降相当可观。Cache 优化方法可参考 TokenHub Prompt Cache 命中率提升指南:https://cloud.tencent.com/document/product/1823/131410

四、什么场景适合直接选 Hy3 preview

4.1 长文档处理

合同审查、研报阅读、产品文档问答这类"喂一份长文进来再开始问"的场景,256K 上下文几乎不会卡边界。

4.2 复杂任务编排

深度思考 + 结构化输出 + Function Calling 三能力同时具备,意味着你可以让模型先想清楚再决定调哪个工具、最终按 JSON Schema 返回结果。这是构建智能体应用的标配能力组合。

4.3 多轮长对话

256K 窗口让多轮对话不必频繁裁剪历史,配合 Cache 缓存,长对话成本可控。

4.4 大量代码协作

单次最大输出 128k,意味着可以一次性给出完整模块、跨文件改造方案。配合 prompt_cache_key 复用上下文,代码类工作负载在 Hy3 preview 上有显著效率优势。

五、两条上手路径

5.1 路径一:领新人免费体验

Hy3 preview 在新人免费体验包中赠送 100 万 Tokens,有效期 90 天,对快速验证业务可行性绰绰有余。领取入口:TokenHub 控制台 → 模型广场 → 右上角"新用户福利免费体验"。

5.2 路径二:订阅 Hy Token Plan

如果你已经验证了业务能跑通、需要稳定持续调用 Hy3 preview,Hy Token Plan 个人版是更划算的选择:

套餐档位

月度 Token 限额

价格

体验套餐 Lite

3,500 万 Tokens

28 元/月

基础套餐 Standard

1 亿 Tokens

78 元/月

进阶套餐 Pro

3.2 亿 Tokens

238 元/月

专业套餐 Max

6.5 亿 Tokens

468 元/月

数据来源:TokenHub 套餐 §9.2。

Hy Token Plan 仅支持 Hy3 preview 这一款模型,针对其工作负载做了专项设计与定价优化,比按量调用同等使用量便宜 50% 以上。

六、结语

295B/21B MoE 不只是架构标签,它代表了腾讯混元在"大容量 + 低算力"路线上的真实落地。配合 256K 原生上下文、深度思考、Cache 缓存这套组合拳,Hy3 preview 适合一切对长文、复杂推理、智能体编排有要求的业务场景。点击进入模型详情查看完整规格与调用示例:https://cloud.tencent.com/document/product/1823/130051,或直接在 Token Plan 活动页订阅 Hy Token Plan:https://cloud.tencent.com/act/pro/tokenplan

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要:
  • 一、读懂 295B/21B 这串数字
    • 1.1 为什么是这两个数字
    • 1.2 MoE 与稠密模型的差别
  • 二、Hy3 preview 在 TokenHub 上的完整能力支持
    • 2.1 256K 上下文能装下什么
    • 2.2 192k 输入 + 128k 输出 是什么含义
    • 2.3 交错式深度思考
  • 三、Hy3 preview 的价格档位
    • 3.1 缓存命中价的杠杆
  • 四、什么场景适合直接选 Hy3 preview
    • 4.1 长文档处理
    • 4.2 复杂任务编排
    • 4.3 多轮长对话
    • 4.4 大量代码协作
  • 五、两条上手路径
    • 5.1 路径一:领新人免费体验
    • 5.2 路径二:订阅 Hy Token Plan
  • 六、结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档