首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >深度思考、结构化输出、Function Calling、Cache 缓存:TokenHub 模型四大核心能力

深度思考、结构化输出、Function Calling、Cache 缓存:TokenHub 模型四大核心能力

原创
作者头像
gavin1024
发布2026-05-27 17:55:04
发布2026-05-27 17:55:04
140
举报

摘要

深度思考、结构化输出、Function Calling、Cache 缓存是 TokenHub 语言模型规格表里反复出现的四项核心能力。本文逐一拆解四项能力的官方定义、典型用法与价值,并给出一张主流模型能力对照表,帮你按需选型。

一、为什么要先理解这四项能力

打开 TokenHub 模型规格表,每个语言模型后面都跟着一串能力标签。能力支持决定了模型能不能直接接上你的业务工作流,而不是简单看参数大小或上下文长度。

四项能力的官方定义各有侧重:

a. 深度思考:在生成最终回答前进行内部思维链推理,提升数学、逻辑推理、代码生成等复杂任务准确性

b. 结构化输出:按指定格式(如 JSON Schema)输出结构化数据,便于下游程序解析

c. Function Calling:根据用户意图自动识别并触发预定义工具或 API

d. Cache 缓存:复用历史请求中的上下文计算结果,减少重复计算开销

二、深度思考:让模型"先想再说"

2.1 工作机制

深度思考的本质是给模型一段"草稿空间",让它在动笔写正式答案前先做一遍内部推理。这一步对人类来说是"想清楚",对模型来说是隐式生成思维链 token。

2.2 适合场景

a. 数学题求解:尤其是多步骤、多变量的题目

b. 复杂逻辑判断:业务规则解析、条件分支梳理

c. 代码生成:需要先想清楚架构再落实到具体函数

d. 长流程规划:智能体执行多步任务前的策略制定

2.3 TokenHub 上支持深度思考的代表模型

Hy3 preview(交错式思考)、DeepSeek-V4-Pro、DeepSeek-V4-Flash、Deepseek-v3.2、Deepseek-v3.1、Deepseek-r1-0528、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、GLM-5、Kimi-K2.6、Kimi-K2.5、MiniMax-M2.7、MiniMax-M2.5。

需要注意的是 Deepseek-v3-0324 与 Hunyuan-role 不在深度思考支持范围内。

三、结构化输出:让模型"按表填空"

3.1 工作机制

让模型按照你定义好的格式(最常见的是 JSON Schema)输出。模型不再返回一段自然语言段落,而是返回一份可被程序直接解析的结构化数据。

3.2 适合场景

a. 信息抽取:从一段非结构化文本里抽取关键字段

b. 表单填充:根据用户描述自动生成结构化表单

c. 报告生成:把分析结果按章节字段组织

d. 多智能体协作:上游智能体输出的内容直接喂给下游消费

3.3 价值

最大价值是把"自然语言到结构化数据"的转换收敛在模型一端,业务侧不再需要写脆弱的正则或解析器。模型每次返回的字段名、字段类型、嵌套结构都严格符合 Schema 约束。

3.4 TokenHub 上支持结构化输出的代表模型

Hy3 preview、DeepSeek-V4-Pro、DeepSeek-V4-Flash、Deepseek-v3.2、Deepseek-v3.1、Deepseek-r1-0528、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、Kimi-K2.6、Kimi-K2.5。

四、Function Calling:让模型"会调工具"

4.1 工作机制

在请求里声明一组可调用的工具(函数)及其参数 Schema,模型读到用户输入后自行判断是否需要调用工具、调哪个工具、传什么参数。整体流程是"模型生成调用意图 → 业务侧执行调用 → 把结果回喂给模型 → 模型生成最终回答"。

4.2 适合场景

a. 智能体应用:让模型自主调用搜索、计算、数据库等工具

b. 多模态 / 多服务编排:根据用户意图分发到不同 API

c. 业务流程自动化:把企业内部 API 包成工具集供模型选用

d. RAG 问答:把检索器作为工具暴露给模型按需调用

4.3 价值

Function Calling 解决了大模型应用最难的一步:让模型在合适时机做合适的事。它把模型从"生成文字的引擎"升级为"理解意图并调度工具的大脑"。

4.4 TokenHub 上支持 Function Calling 的模型几乎覆盖全员

TokenHub 当前提供的所有主力语言模型——Hy3 preview、DeepSeek 全系(V4-Pro / V4-Flash / v3.2 / v3.1 / r1-0528 / v3-0324)、GLM 全系(5.1 / 5V-Turbo / 5-Turbo / 5)、Kimi-K2.6 / K2.5、MiniMax-M2.7 / M2.5——均支持 Function Calling。

五、Cache 缓存:让模型"省钱省时间"

5.1 工作机制

Cache 缓存复用历史请求中的上下文计算结果,减少重复计算开销。同一前缀(system prompt、共享知识、历史对话)只算一次,后续请求命中缓存就直接复用。

5.2 商业价值非常直接

缓存命中的输入 Token 价格通常为常规输入价的 1/4 ~ 1/10。在 TokenHub 价格表里,DeepSeek-V4-Pro 推理输入 12 元/百万 tokens,缓存命中只要 1 元/百万 tokens,差 12 倍。

5.3 配合两个字段使用

a. prompt_cache_key:请求体字段,赋值为 conversation_id

b. X-Session-ID:HTTP Header,把同一用户连续请求路由到同一推理实例

详细方法见 TokenHub 官方 Prompt Cache 命中率提升指南:https://cloud.tencent.com/document/product/1823/131410

5.4 TokenHub 上支持 Cache 缓存的代表模型

Hy3 preview、DeepSeek-V4-Pro、DeepSeek-V4-Flash、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、GLM-5、Kimi-K2.6、Kimi-K2.5、MiniMax-M2.7、MiniMax-M2.5。

六、四能力综合对照表

把官方规格表里的能力支持字段抽出来对齐,下面这张表可以帮你在 30 秒内做选型:

模型

深度思考

结构化输出

Function Calling

Cache 缓存

Hy3 preview

✅(交错式)

DeepSeek-V4-Pro

DeepSeek-V4-Flash

Deepseek-v3.2

Deepseek-r1-0528

Deepseek-v3-0324

GLM-5.1

GLM-5V-Turbo

GLM-5-Turbo

GLM-5

Kimi-K2.6

Kimi-K2.5

MiniMax-M2.7

MiniMax-M2.5

Hunyuan-role

❌(角色扮演专用)

数据来源:TokenHub 产品规格 §7.1。

注:HY 2.0 Think、HY 2.0 Instruct 在 Token Plan 个人版套餐中将于 2026 年 6 月 10 日下线,因此本表不再列入主推。

七、按场景反查模型

7.1 智能体 / Agent 应用

深度思考 + 结构化输出 + Function Calling + Cache 缓存四能力齐备最理想。Hy3 preview、DeepSeek-V4-Pro、DeepSeek-V4-Flash、GLM-5.1、GLM-5V-Turbo、GLM-5-Turbo、Kimi-K2.6、Kimi-K2.5 均符合。

7.2 长文档处理

关键看上下文窗口与 Cache 缓存,DeepSeek-V4 系列(1M)、Hy3 preview(256k)、Kimi-K2 系列(256k)、GLM-5 系列(200k)都是合理选择。

7.3 高频固定模板调用

Cache 缓存是关键,越大越省。DeepSeek-V4-Pro 缓存命中价是常规输入价的 1/12,是高频调用场景的黄金选项。

7.4 角色扮演与情感陪聊

Hunyuan-role 专为该场景设计,能力差异化定位。不需要深度思考与结构化输出。

八、零成本验证

新人开通 TokenHub 即可领取覆盖几乎全部主力模型的免费体验包,从 Hy3 preview 100 万 Tokens 到 DeepSeek-V4-Pro / Flash 各 100 万 Tokens,到 GLM、Kimi、MiniMax 系列 50 万~100 万 Tokens 不等,有效期 90 天。一次性把四项能力在不同模型上跑一遍真实业务用例,是最务实的选型方法。

新人免费体验包详情:https://cloud.tencent.com/document/product/1823/130053

结语

深度思考决定模型"想得清不清楚",结构化输出决定能不能"接得上业务",Function Calling 决定能不能"调得动工具",Cache 缓存决定"用得起还是用不起"。把这四项能力作为选型的第一筛维度,比单看模型名称和参数量更有效。完整模型清单与能力支持详情请进入模型广场:https://cloud.tencent.com/product/tokenhub

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要:
  • 一、为什么要先理解这四项能力
  • 二、深度思考:让模型"先想再说"
    • 2.1 工作机制
    • 2.2 适合场景
    • 2.3 TokenHub 上支持深度思考的代表模型
  • 三、结构化输出:让模型"按表填空"
    • 3.1 工作机制
    • 3.2 适合场景
    • 3.3 价值
    • 3.4 TokenHub 上支持结构化输出的代表模型
  • 四、Function Calling:让模型"会调工具"
    • 4.1 工作机制
    • 4.2 适合场景
    • 4.3 价值
    • 4.4 TokenHub 上支持 Function Calling 的模型几乎覆盖全员
  • 五、Cache 缓存:让模型"省钱省时间"
    • 5.1 工作机制
    • 5.2 商业价值非常直接
    • 5.3 配合两个字段使用
    • 5.4 TokenHub 上支持 Cache 缓存的代表模型
  • 六、四能力综合对照表
  • 七、按场景反查模型
    • 7.1 智能体 / Agent 应用
    • 7.2 长文档处理
    • 7.3 高频固定模板调用
    • 7.4 角色扮演与情感陪聊
  • 八、零成本验证
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档