前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >【外一篇:推理范式演进中的概念】

【外一篇:推理范式演进中的概念】

原创
作者头像
立委
发布2025-03-07 02:21:33
发布2025-03-07 02:21:33
3700
代码可运行
举报
文章被收录于专栏:deepseekdeepseek腾讯云TVP
运行总次数:0
代码可运行

1.1 训练与推断的二分

机器学习系统存在两个核心阶段:

- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train) - 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)

大语言模型(LLM)领域的最新进展显示,通过引入思维链(CoT)机制,推断阶段的计算量(test time compute)显著增长,也收获了相应的智能提升。

1.2 逻辑学视角

推理类型

逻辑结构

确定性

典型应用

演绎

前提→必然结论

确定性

数学证明

归纳

个案→普遍规律

概率性

趋势发现

溯因

现象→最佳原因

启发式

诊断推测

在传统的符号逻辑语境下,Reasoning 特指演绎推理的符号化过程,但考察当下的LLM推理模型,reasoning 最多只是对逻辑演绎的符号化模拟,本质上仍然是概率模型的推断(inference)生成;而Inference对应概率模型中的推断过程,本质是大数据压缩后的经验性模式归纳。溯因在大模型范式下,实现启发式推测的手段也还是大数据压缩后的经验性(逆势)模式归纳。总之,生成式AI大模型以不变应万变,各种思考推理过程一律采用下一词元预测(Next Token Prediction)的 inference 实现。生成机理不变,但 input-output 函数范式变了。

1.2 认知科学维度

Kahneman在《思考,快与慢》中提出的双系统理论为理解大脑行为提供新视角:

- System 1(快思考):直觉式响应 input→output,对应大模型 seq2seq 函数式生成模式

代码语言:javascript
代码运行次数:0
复制
output=F(input)

- System 2(慢思考):反思性推理 input→[Think]→output,体现为CoT (ChainofThought) 驱动的两阶段函数生成模式

代码语言:javascript
代码运行次数:0
复制
CoT=F(input) & output=F(CoT)

大模型 F 的底层逻辑不变,但强化学习启动了思维链外化,搭建了应对复杂问题的信息桥梁CoT,增加了大模型推断的可解释性,最重要地,大幅提升了复杂问题的解决能力。

1.3 推理模型的计算-智能增长关系

强化学习赋能的推理模型新范式呈现的新 scaling law 是怎样的呢?并无定论,一切刚刚开始,经验法则需要时间测量。

例如,当test time compute增加10倍时: - 数学推理准确率提升多少? - 响应延迟增长多少?

`

1.4 答问

代码语言:javascript
代码运行次数:0
复制
「蔡江滨l六问:早安,能否理解为cot的生成是推断inference ,根据cot生成的具体内容是推理?@wei li 」

cot+answer 的区分是人为的格式区分,对于ntp GPT 模型,它们都是概率性 inference 生成的 response

如果这个response 是针对理工类推理题目,那么这种 inference 是对于人类 reasoning,尤其是演绎( deduction)的模拟,但不是严格意义上的逻辑演绎。

如果是创作类任务,inference 中的 CoT 就是 planning/pondering 等思考过程, inference 中的answer就是生成结果,都谈不上逻辑推理。

reasoning model 这个实命名也不准确,还不如叫思考模型、思维链模型、慢思维模型、意识流模型、内心独白模型、小九九模型,总之就是 system 2,与传统的 system 1 模型比,只是多了个 CoT。

【原文】

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.1 训练与推断的二分
  • 1.2 逻辑学视角
  • 1.2 认知科学维度
  • 1.3 推理模型的计算-智能增长关系
  • 1.4 答问
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档