强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。
近年来 AI 技术不断突破创新,推动着软件项目开发的各个环节发生质的变化。相信每一位同行都已经感觉到了,借助 AI 算法与模型,我们能够在需求分析、代码编写、测...
文章里提到的 AI 辅助编程的方法已经过时了。现在流行的 AI IDE,已经用不着从 IDE 切换到浏览器,向大模型发出指令,而是直接在 IDE 的编辑界面内,...
本文介绍一篇来自浙江大学侯廷军和谢昌谕团队、南部战区总医院姜志辉主任团队和碳硅智慧联合发表的一篇论文。该研究提出了一种基于大语言模型的抗菌肽(AMPs)设计方法...
近日,威斯康星大学麦迪逊分校的一个研究团队发现,可以通过强化学习对模型实施有效的黑盒逃避攻击(Black-Box Evasion Attacks)。研究团队表示...
强化学习通过与环境的交互来优化 LLM 的推理能力。具体来说,强化学习方法包括 model-free 在线强化学习、离线强化学习、基于模型的强化学习和层次强化学...
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向...
本文聚焦于通过**Sim-to-Real强化学习(RL)**实现仿人机器人基于视觉的灵巧操作任务。灵巧操作(如抓取、搬运、双手交接)是机器人领域长期以来的技术难...
刚刚,计算机学会(ACM)宣布了 2024 年的 ACM A.M. Turing Award(图灵奖)获得者:Andrew Barto 和 Richard Su...
最初,研究者观察到了回答长度下降,因为基础模型倾向于生成HTML代码。通过强化学习,这种行为很快被抑制,随后回答长度开始规律地增加。之后,多模态的「啊哈时刻」出...
简而言之,这就是强化学习背后的基本思想!我们拥有的不是狗,而是语言模型(在强化学习中,我们称之为代理);我们拥有的不是你,而是提供反馈的环境。
那些在环境中一边尝试,一边学习,收集数据(观察和奖励),然后更新自己策略的强化学习算法被称作在线强化学习。
与通义千问、文心一言等大模型的网页版相比,DeepSeek的页面更简洁,除了简单的介绍+对话框,深度思考和联网搜索两个选项,以及文档上传。不过DeepS...
在科技飞速发展的当下,元应用正以前所未有的速度融入我们的生活,从沉浸式的虚拟社交到高度仿真的工作模拟,元应用构建出一个个丰富多彩的虚拟世界。而在这背后,人工智能...
我知道大家和我一样,都是以一种特别积极的心态沉浸在这个 DeepSeek 的学习世界中。实际上,DeepSeek 在我们春节期间送给我们的这份“大礼包”,对我个...
为了进一步来对齐人类偏好,他们使用了强化学习(RL)来调整模型偏好,同时为了节约成本用了GRPO(Group Relative Policy Optimizat...
ChatGPT的训练分为四个主要阶段:预训练、监督微调、奖励建模和强化学习。每一个阶段都至关重要,缺一不可!
DeepSeek官方发布一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Rei...
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的...
当 Scaling Law 在触顶边界徘徊之时,强化学习为构建更强大的大模型开辟出了一条新范式。
DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图...