昨夜,DeepSeek V3.1 模型悄然登陆 Hugging Face。DeepSeek 团队再次上演‘经典操作’:微信群通知、夜间上传、没有模型卡!一切靠开发者自己‘动手丰衣足食’。不过别急,这正是乐趣所在……我们通过对比不同版本的模型库,发现了三项至关重要的架构升级,这可能是近期最值得关注的国产大模型迭代。
HF 地址:https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
这是 V3.1 中tokenizer_config.json
文件的chat_template
设定,明确多了一个thinking
变量,并且看起来是可配置的。开启就是思考推理,关闭就是直接输出。这个变量在 V3 和 R1 中都没有。
“思考”过程的显式化和规范化:
<think>
和 </think>
标签来显式地包裹模型的思考过程(Chain-of-Thought)。它还增加了一个 thinking
布尔变量来控制是否生成思考内容,使得控制更加灵活。<think>
标签,但使用方式比较简单,主要是在生成提示时强制添加,并在解析时去除,缺乏 V3.1 的灵活性。<think>
标签的逻辑。这使得模型具备了‘显式’的推理链能力,让它的思考过程对用户可见、可控,极大地提升了复杂问题解答的可信度和可调试性。这一点你如果在网页上使用深度思考模式,他也会告诉你他现在是DeepSeek V3,而不是R1了。
我们比较tokenizer.txt
文件,比较的是V3
和V3.1
这里将原先的 place_holder 改为了<|search_begin>
和<|search_end>
。<|think>
标签并不是新增的,这个在 DeepSeek R1 中就已经存在了。这意味着 V3.1 可能具备了类似 Gemini 2.5 的实时检索
能力,能在生成过程中主动获取外部知识,解决知识截止日期
和长尾事实
的难题。
依然是比较chat_template
,可以看到 V3.1 在tool call
上的设定明显变化。
<|tool call begin|>
+ 函数名
+ <|tool sep|>
+ 参数字符串
+ <|tool call end|>
<|tool output begin|>
+ 输出内容
+ <|tool output end|>
这是一个非常简洁的格式,直接将参数作为字符串传递。
<|tool call begin|>
+ 类型
+ <|tool sep|>
+ 函数名
+ \n
+ ``json+
\n+
参数 JSON 字符串+
\n+ ````` +
<| tool call end |>`<|tool outputs begin|>
+ <|tool output begin|>...</|tool output end|>
+ ... + <|tool outputs end|>
这个调用格式更复杂,包含了工具类型(如 function
),并强制使用 Markdown 的 JSON 代码块来封装参数。这种输出格式设计在处理多个并发工具调用的输出时可能更清晰,但也增加了模板的复杂性。格式简化通常意味着错误率降低、调用速度更快、对系统提示词(System Prompt)的依赖更小,这是工程成熟度提升的标志。
结论:V3.1工具调用的格式被大幅简化,变得更加紧凑。参数直接以字符串形式跟在函数名后面,用
<|tool sep|>
分隔。V3 & R1的工具调用格式较为复杂,使用json、Markdown
代码块来包裹参数,格式更冗长。
配置文件不会说谎。DeepSeek V3.1 通过显式推理(Think)、动态搜索(Search)、高效工具调用(Tool) 这三驾马车,清晰地瞄准了下一代 AI 智能体的核心能力,清晰地勾勒出一条技术演进路线:一个更自主、更可靠、更能与外部世界交互的智能体(Agent)正在成型。其实际性能表现令人无比期待,我们也将第一时间带来实测体验,敬请关注!
大家对 DeepSeek V3.1 的哪些新特性最感兴趣?欢迎在评论区留言讨论!如果觉得本文有帮助,请点赞、在看、转发三连支持哦!
昨天发文DeepSeek低调更新V3.1,或许以后不会再有R2了?推测可能没有 R2 了,有人骂我标题党拉黑了,打脸了吗???