首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

AI也会产生情感吗?从算法到心跳的奇幻之旅

AIprince

2016年的科幻电影《摩根》以一场突如其来的暴力开场——五岁的基因改造人摩根,在餐桌上突然对前来安慰自己的保姆凯西发起猛击。监控数据显示, 摩根的各项生理指标平...

4710

DeepSeek-R1推理智能从哪儿来?谷歌新研究:模型内心多个角色吵翻了

机器之心

为进一步检验:当只奖励正确答案时,大模型是否会自发强化对话式行为,为此,作者设计并实施了一项自教式强化学习(self-taught RL)实验。结果显示对话式结...

7910

大模型圈娱乐化逼疯人!OpenAI七年元老离职首发声:谷歌赢麻?不过是OpenAI失误了!

深度学习与Python

这不是离职八卦,而是在一个把技术做成剧情、把研究变成围观的行业里,扛了七年高压后的选择。

6610

每周AI论文速递(260112-260116)

叶子的技术碎碎念

[观看、推理与搜索:面向智能体视频推理的开放网络视频深度研究基准](https://arxiv.org/abs/2601.06943)

9410

多奖励场景全面领先!清华新作高熵驱动,强化学习效率飙升

新智元

近年来,扩散模型与流匹配模型等生成式 AI 技术在视觉内容创作领域取得突破性进展,从艺术设计到医疗成像,应用场景不断拓展。而强化学习从人类反馈(RLHF)技术的...

9710

生成式 AI 质量控制:幻觉抑制与 RLHF 对齐技术详解

果粒蹬

生成式人工智能(Generative AI)凭借其强大的内容生成能力,已在自然语言处理、代码生成、多模态创作等领域实现规模化应用。然而,伴随其广泛落地的是严峻的...

8310

使用BroRL扩展探索突破强化学习训练瓶颈

用户11764306

在使用基于可验证奖励的强化学习(RLVR)训练大语言模型(LLMs)时,一个最引人注目的问题是如何克服性能瓶颈。先前某中心的解决方案——延长强化学习(ProRL...

10010

大模型听懂语音却反而变笨?港中深与微软联合解决语音大模型降智问题

机器之心

为了解决这一核心痛点,香港中文大学(深圳)与微软团队联合提出了 TARS (Trajectory Alignment for Reasoning in Spee...

11310

美团又上新模型,8个Thinker齐开工,能顶个诸葛亮?

机器之心

正如其推文总结的那样,我们先给出几个关键词:并行思考、迭代式总结、环境规模扩展(Environment Scaling)、多环境大规模强化学习(Multi-En...

12310

多智能体强化学习(MARL)核心概念与算法概览

deephub

训练单个 RL 智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。

9510

机械臂 强化学习 Demo

松灵机器人

仓库包含了PiPER RL的简单演示代码,演示了如何使用PiPER RL训练一个简单的任务: Reach Target,任务要求PiPER的夹爪中心到达指定的目...

9310

机械臂 强化学习 Demo

松灵机器人

仓库包含了PiPER RL的简单演示代码,演示了如何使用PiPER RL训练一个简单的任务: Reach Target,任务要求PiPER的夹爪中心到达指定的目...

9310

Q-Learning算法实现与迷宫求解

心疼你的一切

强化学习正在快速发展,在游戏、机器人控制、自动驾驶、推荐系统等领域都有广泛应用。掌握Q-Learning等基础算法是深入理解强化学习的重要第一步。希望本文能够为...

8410

强化学习_从Q-Learning到深度强化学习

心疼你的一切

强化学习(Reinforcement Learning, RL)是机器学习的一个重要分支,专注于智能体(Agent)如何通过与环境(Environment)的交...

21010

在多环境部分可观测场景中学习鲁棒控制器

用户11764306

在智能系统中,应用范围涵盖自主机器人到预测性维护问题。要控制这些系统,需要模型来捕捉其核心要素。当为这些模型设计控制器时,我们几乎总是面临同一个挑战:不确定性。...

9010

网民票选AI王者,LMArena一夜变17亿美元独角兽!

新智元

LMArena在强化学习方向同样野心勃勃。联合创始人Ion Stoica早前就透露过,公司正考虑用海量用户投票数据来训练AI模型——这就是传说中的RLHF(Re...

17610

强化学习|训练框架verl介绍

AI老马

强化学习训练过程涉及模型多,数据流转复杂,经典的“串行”训练框架,存在资源闲置,训练效率低的情况。 verl 通过自动映射算法进行计算资源的智能规划,通过混合编...

25610

强化学习|GRPO GSPO SAPO 演进

AI老马

随着模型参数规模扩大、生成序列变长以及混合专家(MoE)等稀疏结构的应用,RL训练的稳定性成为制约技术落地的核心瓶颈。围绕“解决训练不稳定性、提升样本效率”这一...

21010

强化学习|直接偏好优化 DPO 介绍

AI老马

直接偏好优化(Direct Preference Optimization DPO)的核心理论突破在于通过数学变换,将 “奖励建模 + 策略优化” 的 RLHF...

22210

强化学习|群组相对策略优化GRPO

AI老马

群组相对策略优化 GRPO(Group Relative Policy Optimization)通过消除额外价值函数带来的内存和计算开销,降低了 LLM 强化...

16310
领券