
深度思考、结构化输出、Function Calling、Cache 缓存是 TokenHub 语言模型规格表里反复出现的四项核心能力。本文逐一拆解四项能力的官方定义、典型用法与价值,并给出一张主流模型能力对照表,帮你按需选型。
打开 TokenHub 模型规格表,每个语言模型后面都跟着一串能力标签。能力支持决定了模型能不能直接接上你的业务工作流,而不是简单看参数大小或上下文长度。
四项能力的官方定义各有侧重:
a. 深度思考:在生成最终回答前进行内部思维链推理,提升数学、逻辑推理、代码生成等复杂任务准确性
b. 结构化输出:按指定格式(如 JSON Schema)输出结构化数据,便于下游程序解析
c. Function Calling:根据用户意图自动识别并触发预定义工具或 API
d. Cache 缓存:复用历史请求中的上下文计算结果,减少重复计算开销
深度思考的本质是给模型一段"草稿空间",让它在动笔写正式答案前先做一遍内部推理。这一步对人类来说是"想清楚",对模型来说是隐式生成思维链 token。
a. 数学题求解:尤其是多步骤、多变量的题目
b. 复杂逻辑判断:业务规则解析、条件分支梳理
c. 代码生成:需要先想清楚架构再落实到具体函数
d. 长流程规划:智能体执行多步任务前的策略制定
Hy3 preview(交错式思考)、DeepSeek-V4-Pro、DeepSeek-V4-Flash、Deepseek-v3.2、Deepseek-v3.1、Deepseek-r1-0528、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、GLM-5、Kimi-K2.6、Kimi-K2.5、MiniMax-M2.7、MiniMax-M2.5。
需要注意的是 Deepseek-v3-0324 与 Hunyuan-role 不在深度思考支持范围内。
让模型按照你定义好的格式(最常见的是 JSON Schema)输出。模型不再返回一段自然语言段落,而是返回一份可被程序直接解析的结构化数据。
a. 信息抽取:从一段非结构化文本里抽取关键字段
b. 表单填充:根据用户描述自动生成结构化表单
c. 报告生成:把分析结果按章节字段组织
d. 多智能体协作:上游智能体输出的内容直接喂给下游消费
最大价值是把"自然语言到结构化数据"的转换收敛在模型一端,业务侧不再需要写脆弱的正则或解析器。模型每次返回的字段名、字段类型、嵌套结构都严格符合 Schema 约束。
Hy3 preview、DeepSeek-V4-Pro、DeepSeek-V4-Flash、Deepseek-v3.2、Deepseek-v3.1、Deepseek-r1-0528、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、Kimi-K2.6、Kimi-K2.5。
在请求里声明一组可调用的工具(函数)及其参数 Schema,模型读到用户输入后自行判断是否需要调用工具、调哪个工具、传什么参数。整体流程是"模型生成调用意图 → 业务侧执行调用 → 把结果回喂给模型 → 模型生成最终回答"。
a. 智能体应用:让模型自主调用搜索、计算、数据库等工具
b. 多模态 / 多服务编排:根据用户意图分发到不同 API
c. 业务流程自动化:把企业内部 API 包成工具集供模型选用
d. RAG 问答:把检索器作为工具暴露给模型按需调用
Function Calling 解决了大模型应用最难的一步:让模型在合适时机做合适的事。它把模型从"生成文字的引擎"升级为"理解意图并调度工具的大脑"。
TokenHub 当前提供的所有主力语言模型——Hy3 preview、DeepSeek 全系(V4-Pro / V4-Flash / v3.2 / v3.1 / r1-0528 / v3-0324)、GLM 全系(5.1 / 5V-Turbo / 5-Turbo / 5)、Kimi-K2.6 / K2.5、MiniMax-M2.7 / M2.5——均支持 Function Calling。
Cache 缓存复用历史请求中的上下文计算结果,减少重复计算开销。同一前缀(system prompt、共享知识、历史对话)只算一次,后续请求命中缓存就直接复用。
缓存命中的输入 Token 价格通常为常规输入价的 1/4 ~ 1/10。在 TokenHub 价格表里,DeepSeek-V4-Pro 推理输入 12 元/百万 tokens,缓存命中只要 1 元/百万 tokens,差 12 倍。
a. prompt_cache_key:请求体字段,赋值为 conversation_id
b. X-Session-ID:HTTP Header,把同一用户连续请求路由到同一推理实例
详细方法见 TokenHub 官方 Prompt Cache 命中率提升指南:https://cloud.tencent.com/document/product/1823/131410。
Hy3 preview、DeepSeek-V4-Pro、DeepSeek-V4-Flash、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、GLM-5、Kimi-K2.6、Kimi-K2.5、MiniMax-M2.7、MiniMax-M2.5。
把官方规格表里的能力支持字段抽出来对齐,下面这张表可以帮你在 30 秒内做选型:
模型 | 深度思考 | 结构化输出 | Function Calling | Cache 缓存 |
|---|---|---|---|---|
Hy3 preview | ✅(交错式) | ✅ | ✅ | ✅ |
DeepSeek-V4-Pro | ✅ | ✅ | ✅ | ✅ |
DeepSeek-V4-Flash | ✅ | ✅ | ✅ | ✅ |
Deepseek-v3.2 | ✅ | ✅ | ✅ | ❌ |
Deepseek-r1-0528 | ✅ | ✅ | ✅ | ❌ |
Deepseek-v3-0324 | ❌ | ❌ | ✅ | ❌ |
GLM-5.1 | ✅ | ✅ | ✅ | ✅ |
GLM-5V-Turbo | ✅ | ✅ | ✅ | ✅ |
GLM-5-Turbo | ✅ | ✅ | ✅ | ✅ |
GLM-5 | ✅ | ❌ | ✅ | ✅ |
Kimi-K2.6 | ✅ | ✅ | ✅ | ✅ |
Kimi-K2.5 | ✅ | ✅ | ✅ | ✅ |
MiniMax-M2.7 | ✅ | ❌ | ✅ | ✅ |
MiniMax-M2.5 | ✅ | ❌ | ✅ | ✅ |
Hunyuan-role | ❌ | ❌ | ❌(角色扮演专用) | ❌ |
数据来源:TokenHub 产品规格 §7.1。
注:HY 2.0 Think、HY 2.0 Instruct 在 Token Plan 个人版套餐中将于 2026 年 6 月 10 日下线,因此本表不再列入主推。
深度思考 + 结构化输出 + Function Calling + Cache 缓存四能力齐备最理想。Hy3 preview、DeepSeek-V4-Pro、DeepSeek-V4-Flash、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、Kimi-K2.6、Kimi-K2.5 均符合。
关键看上下文窗口与 Cache 缓存,DeepSeek-V4 系列(1M)、Hy3 preview(256k)、Kimi-K2 系列(256k)、GLM-5 系列(200k)都是合理选择。
Cache 缓存是关键,越大越省。DeepSeek-V4-Pro 缓存命中价是常规输入价的 1/12,是高频调用场景的黄金选项。
Hunyuan-role 专为该场景设计,能力差异化定位。不需要深度思考与结构化输出。
新人开通 TokenHub 即可领取覆盖几乎全部主力模型的免费体验包,从 Hy3 preview 100 万 Tokens 到 DeepSeek-V4-Pro / Flash 各 100 万 Tokens,到 GLM、Kimi、MiniMax 系列 50 万~100 万 Tokens 不等,有效期 90 天。一次性把四项能力在不同模型上跑一遍真实业务用例,是最务实的选型方法。
新人免费体验包详情:https://cloud.tencent.com/document/product/1823/130053。
深度思考决定模型"想得清不清楚",结构化输出决定能不能"接得上业务",Function Calling 决定能不能"调得动工具",Cache 缓存决定"用得起还是用不起"。把这四项能力作为选型的第一筛维度,比单看模型名称和参数量更有效。完整模型清单与能力支持详情请进入模型广场:https://cloud.tencent.com/product/tokenhub。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。