DeepSeek V3.1 开源发布，我们从配置文件里扒出了这些猛料，不只是混合推理！

AgenticAI

发布于 2025-08-25 09:55:46

3840

文章被收录于专栏：AgenticAIAgenticAI

昨夜，DeepSeek V3.1 模型悄然登陆 Hugging Face。DeepSeek 团队再次上演‘经典操作’：微信群通知、夜间上传、没有模型卡！一切靠开发者自己‘动手丰衣足食’。不过别急，这正是乐趣所在……我们通过对比不同版本的模型库，发现了三项至关重要的架构升级，这可能是近期最值得关注的国产大模型迭代。

HF 地址：https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

1. 混合推理的证据

这是 V3.1 中tokenizer_config.json文件的chat_template设定，明确多了一个thinking变量，并且看起来是可配置的。开启就是思考推理，关闭就是直接输出。这个变量在 V3 和 R1 中都没有。

“思考”过程的显式化和规范化:

V3.1: 引入了 <think> 和 </think> 标签来显式地包裹模型的思考过程（Chain-of-Thought）。它还增加了一个 thinking 布尔变量来控制是否生成思考内容，使得控制更加灵活。
R1: 也有 <think> 标签，但使用方式比较简单，主要是在生成提示时强制添加，并在解析时去除，缺乏 V3.1 的灵活性。
V3: 模板中完全没有处理 <think> 标签的逻辑。

这使得模型具备了‘显式’的推理链能力，让它的思考过程对用户可见、可控，极大地提升了复杂问题解答的可信度和可调试性。这一点你如果在网页上使用深度思考模式，他也会告诉你他现在是DeepSeek V3，而不是R1了。

2. 动态搜索增强

我们比较tokenizer.txt文件，比较的是V3和V3.1这里将原先的 place_holder 改为了<|search_begin>和<|search_end>。<|think>标签并不是新增的，这个在 DeepSeek R1 中就已经存在了。这意味着 V3.1 可能具备了类似 Gemini 2.5 的实时检索能力，能在生成过程中主动获取外部知识，解决知识截止日期和长尾事实的难题。

3. 工具调用增强

依然是比较chat_template，可以看到 V3.1 在tool call上的设定明显变化。

3.1 DeepSeek V3.1

调用格式: <｜tool call begin｜> + 函数名 + <｜tool sep｜> + 参数字符串 + <｜tool call end｜>
输出格式: <｜tool output begin｜> + 输出内容 + <｜tool output end｜>

这是一个非常简洁的格式，直接将参数作为字符串传递。

3.2 DeepSeek V3 & R1

调用格式: <｜tool call begin｜> + 类型 + <｜tool sep｜> + 函数名 + \n + ``json+\n+参数 JSON 字符串+\n+ ````` +<｜ tool call end ｜>`
输出格式：<｜tool outputs begin｜> + <｜tool output begin｜>...</｜tool output end｜> + ... + <｜tool outputs end｜>

这个调用格式更复杂，包含了工具类型（如 function），并强制使用 Markdown 的 JSON 代码块来封装参数。这种输出格式设计在处理多个并发工具调用的输出时可能更清晰，但也增加了模板的复杂性。格式简化通常意味着错误率降低、调用速度更快、对系统提示词（System Prompt）的依赖更小，这是工程成熟度提升的标志。

结论：V3.1工具调用的格式被大幅简化，变得更加紧凑。参数直接以字符串形式跟在函数名后面，用 <｜tool sep｜> 分隔。V3 & R1的工具调用格式较为复杂，使用 json、Markdown代码块来包裹参数，格式更冗长。

总结

配置文件不会说谎。DeepSeek V3.1 通过显式推理（Think）、动态搜索（Search）、高效工具调用（Tool） 这三驾马车，清晰地瞄准了下一代 AI 智能体的核心能力，清晰地勾勒出一条技术演进路线：一个更自主、更可靠、更能与外部世界交互的智能体（Agent）正在成型。其实际性能表现令人无比期待，我们也将第一时间带来实测体验，敬请关注！