发布

deepseek

追踪deepseek
专栏成员
20
文章
5697
阅读量
13
订阅数
DeepSeek 风暴下看看它的论文
R1 论文读下来,原来被 OpenAI 从 q* 开始到 o 系列,搞得神秘兮兮的所谓 System 2 慢思维的强化训练过程,一下子就变得清晰简单多了。
立委
2025-02-03
3.5K0
置顶
Agent元年:从聊天机器人到数字员工的当代进化史
当ChatGPT核爆式走红时,全人类第一次意识到,AI不仅能回答问题,还能成为你的"赛博同事"。早期的Copilot(副驾驶)类助手就像乖巧的实习生——勤快听话,你问它答,你令它动。而如今的Agent(智能代理)已经进化成能独当一面的"数字员工",它不再是只会等待指令的被动助手,而是能自主规划、拆解任务、调用工具的智能管家。
立委
2025-03-08
120
Agent:数字代理的崛起与未来
在ChatGPT引发的人工智能热潮中,我们亲眼见证了AI应用形态的戏剧性演变。回想2022年底,当人们首次体验ChatGPT时,那种震撼感仍历历在目——一个能够理解复杂问题并提供流畅回答的聊天机器人(chatbot),彻底改变了我们对机器智能的期望。这种应用形态——我们姑且称之为"对话式AI"——本质上是大语言模型(LLM)应用的初级表现形式,一种简单的信息交换机制。
立委
2025-03-08
220
o3 deep research: LLM 驱动的 Agent 综述
大型语言模型(LLM)的崛起在过去几年引发了人工智能领域的飞跃式发展。尤其是 2022 年底 OpenAI 推出的 ChatGPT,短短两个月内月活用户就突破一亿,成为史上用户增长最快的消费者应用 (ChatGPT sets record for fastest-growing user base - analyst note | Reuters)。ChatGPT 所展现的强大自然语言对话和内容生成能力,如一场“核爆”引发全球对于通用人工智能的极大关注,各行各业开始思考如何将这类大模型应用到实际业务中。紧随其后,OpenAI 发布了更先进的 GPT-4 模型,能够理解更复杂的指令,并支持图像等多模态输入。这场由 ChatGPT 引领的LLM浪潮,不仅催生了大量类似产品和开源模型,也让“ AI 更自主地完成复杂任务”成为下一个技术探索热点。在这种背景下,由 LLM 驱动的 Agent(智能代理)概念逐渐兴起,成为 AI 技术爱好者和产业从业者共同关注的前沿方向。
立委
2025-03-08
210
【外一篇:推理范式演进中的概念】
- 训练时间(Training Time):参数空间Θ的优化过程,目标函数为误差最小化 minL(θ;D_train) - 推断时间(Inference Time):固定参数θ时对新样本x_test的条件分布预测p(y|x_test;θ)
立委
2025-03-07
450
思维链是大模型的符号神助攻
在人工智能发展的历史长河中,符号逻辑和神经网络一直如两条平行线,难以交汇。然而,2024年春节,DeepSeek发布的推理大模型R1揭示了一个令人惊叹的技术突破——思维链(Chain of Thought, CoT)的自主生成,其展现出的语言序列仿佛在模拟人类的符号逻辑。这一强化学习的进展或将重新定义符号逻辑与神经网络的融合路径。
立委
2025-03-05
1020
The Three-Stage Scaling Laws Large Language Models
Mr. Huang's background features three S-curves, illustrating the scaling relay race across three stages of large language models, demonstrating a persistent spirit akin to the Chinese fable of the legendary Old Man Who Moved Mountains.
立委
2025-03-03
880
大模型三阶段的 scaling laws 接力赛
黄教主背后是三个S曲线,illustrate 的是大模型三个阶段的“做大做强”的 scaling 接力赛,颇显挖山不止的愚公移山精神。
立委
2025-03-03
890
左脚踩右脚可以飞吗,谈交替使用监督微调和强化学习的后训练
在大模型后训练中,像deepseek R1那样交替使用监督微调(SFT)和强化学习(RL),而非单一依赖 RL 或蒸馏,背后的核心逻辑如下。
立委
2025-02-28
800
o3 Deep Research: DeepSeek R1 多阶段训练流程问答解析
A: DeepSeek R1 采用了四阶段的训练流程,包括两个强化学习(RL)阶段和两个监督微调(SFT)阶段 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。这一多阶段策略旨在先通过少量数据稳定模型输出格式,然后大规模提升推理能力,接着扩展通用能力,最后对齐人类偏好,逐步打造出既擅长推理又安全实用的模型 (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园) (DeepSeek-R1的四个训练阶段 - 蝈蝈俊 - 博客园)。具体来说:
立委
2025-02-28
2150
RPA 赛道与大模型Co-pilots早期创业者的困局
- 传统 RPA:依赖工程师编写脚本或流程图(如 UiPath 的拖拽式设计器),需精准定义每一步操作逻辑,如同教机器人跳格子,容错率低。 - LLM Agent:直接理解人类意图("把邮件里的发票信息录入系统"),自主拆解任务链条,动态调整执行路径。 - 典型案例:ChatGPT 插件系统已能调用 API 完成订机票、查数据等操作,而传统 RPA 实现同等功能需低代码脚本。
立委
2025-02-27
730
符号主义被打入冷宫太久了,难道神经是AI的终结者吗?
虽然没人可以预测未来,虽然抛弃两条路线的一条感觉政治不正确,但的确不能排除这种单极主义的可能性。
立委
2025-02-24
610
True Story Behind DeepSeek: Learning to Think Slowly Without Human Supervision
InfoQ: "DeepSeek adheres to a pure reinforcement learning approach, but the industry often refers to RL as 'alchemy' - how did they make this process controllable and accessible? What's innovative about their reasoning paradigm?"
立委
2025-02-16
540
Does the New Reasoning Paradigm (Query+CoT+Answer) Support a New Scaling Law?
— Reflections on LLM Scaling Laws and DeepSeek's R1
立委
2025-02-14
450
Technical Deep Dive: Understanding DeepSeek R1's Reasoning Mechanism
A detailed analysis of how DeepSeek R1's inference mechanism works in production, and how it differs from training-time reinforcement learning.
立委
2025-02-14
660
DeepSeek 笔记:推理新范式 query+cot+answer 支持新的 scaling law 吗?
老友张俊林《从Deepseek R1看Scaling Law的未来》一文,引起老友热议。
立委
2025-02-14
1430
DeepSeek 笔记:R1 部署阶段的推理机制
- 生成多条路径:模型在单次推理时,可能隐式生成多条潜在的推理路径(CoT+Answers),但仅选择其中一条输出。 - 技术实现:通过调整解码策略(如束搜索宽度 `beam_width`),模型在生成过程中维护多个候选序列(即多条路径),最终选择综合评分最高的路径。 - 用户感知:用户仅看到最终输出,但模型内部进行了多路径探索与筛选。 - 效率权衡:若设置 `beam_width=1`(贪心搜索),则退化为单路径生成,响应速度最快;增大 `beam_width` 可提升输出质量,但增加计算延迟。
立委
2025-02-14
1300
从R1幻觉谈起,大模型幻觉是缺陷还是创意火花?
主持人: 大家好,欢迎来到今天的访谈。最近,大模型的“幻觉”问题引发了热议,尤其是DeepSeek-R1,它的幻觉率似乎比自己的基座大模型DeepSeek-V3高不少。今天我们请到了资深AI研究员立委博士,来跟大家聊聊这个话题。立委,您好!
立委
2025-02-10
2100
推理强化模型中思维链的本质
DeepSeek R1 的出圈是近来最大热度的焦点。它不仅在数学、代码等强推理能力上追平了 OpenAI 头部推理模型 o 系列,而且在语言文字的创造力和模仿力方面产生让人惊艳的效果。尤其是在中文(国学)的能力方面,大家都体会到了奇迹般的能力跃升。
立委
2025-02-08
5500
推理强化学习是端到端的监督,推理过程的非监督
DeepSeek R1 的数学和代码数据究竟是有监督还是无监督?是人造数据还是再生数据?
立委
2025-02-03
1560
点击加载更多
社区活动
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档