首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

强化学习算法解析:深度 Q 网络(Deep Q - Network,DQN)

jack.yang

强化学习(Reinforcement Learning, RL)是机器学习领域的重要分支,它研究如何让智能体(Agent)通过与环境的交互来学习最优的行为策略。...

5200

强化学习算法解析:策略梯度算法(Policy Gradient)

jack.yang

强化学习是机器学习领域的重要分支,它研究如何让智能体(Agent)在环境中通过与环境的交互来学习最优的行为策略。策略梯度算法(Policy Gradient)是...

8110

一套算法控制机器人军团!纯模拟环境强化学习,Figure学会像人一样走路

新智元

【新智元导读】Figure公司通过强化学习,成功实现机器人的自然步态。利用高效物理模拟器,仅用几小时完成相当于多年训练的数据,训练出的策略无需额外调整即可「零样...

9110

更长思维并不等于更强推理性能,强化学习可以很简洁

机器之心

今天早些时候,著名研究者和技术作家 Sebastian Raschka 发布了一条推文,解读了一篇来自 Wand AI 的强化学习研究,其中分析了推理模型生成较...

7410

中科大、中兴提出新后训练范式:小尺寸多模态模型,成功复现R1推理

机器之心

本文第一作者为邓慧琳,中国科学技术大学硕博连读四年级,研究方向为多模态模型视觉理解、推理增强(R1强化学习)、异常检测。在TAI、TASE、ICCV等期刊和顶会...

8110

思维与算法共舞:AIGC语言模型的艺术与科学

云边有个稻草人

强化学习(RL)可以用来优化文本生成模型的行为,尤其是在对话生成和个性化推荐等任务中。通过强化学习,模型可以根据生成的文本获得反馈,并且调整生成策略以最大化预期...

13310

DeepSeek的极致谄媚,正在摧毁我们的判断力。

数字生命卡兹克

但是,最开始我的问题是什么?是清华和北大哪个好,好好的到最后,你夸我干嘛呢?这种反应,我不知道会不会让你想起一些推销员或者是导购之类的角色,我的目标,不是事实正...

4100

人在新加坡,Google喊我来看AI下棋。

数字生命卡兹克

让我震惊的不是AlphaZero自我博弈,强化学习的过程,而是它从一无所知到超越人类水平,整个学习过程只需要短短几个小时。

10000

加强版Claude3.5正式上线,一句话操控电脑的时代真的要来了。

数字生命卡兹克

有趣的是,Claude 3.5 Haiku还是后训的,知识截止时间是7月,而升级版Claude 3.5 Sonnet知识时间并没有变,也就是加了更多的强化学习的...

10510

人形机器人如何学会走路?

点云PCL博主

当波士顿动力的Atlas机器人完成高难度后空翻时,当特斯拉Optimus在工厂里稳健行走时,这些突破背后都离不开一项核心技术——基于强化学习的步态训练。本文将带...

6410

聊聊强化学习发展这十年

小白学视觉

那像作者这样天资愚笨的同学自然在通用算法上没有办法做出太多创新,于是大家开始给强化学习的问题定义做细致扩展,出现了多智能体强化学习, 安全强化学习等等的强化学习...

6010

Search-R1:复现 OpenAI Deep Research 能力的开源强化学习框架

AgenticAI

最近来自 UIUC、UMass Amherst 和 Google Cloud AI Research 的研究人员提出了一个值得注意的框架Search-R11。它...

17010

强化学习带来的改进只是「噪音」?最新研究预警:冷静看待推理模型的进展

机器之心

尽管这些论文的结论统统指向了强化学习带来的显著性能提升,但来自图宾根大学和剑桥大学的研究者发现,强化学习导致的许多「改进」可能只是噪音。

4710

魔改AlphaZero后,《我的世界》AI老玩家问世,干活不用下指令

机器之心

研究人员通过 MBAG 研究了深度强化学习算法是否能够解决 Assistance Games。研究发现,PPO(一种流行的无模型强化学习算法)可以轻松地在 MB...

8410

面对杂乱场景,灵巧手也能从容应对!NUS邵林团队发布DexSinGrasp基于强化学习实现物体分离与抓取统一策略

机器之心

为解决这一挑战,来自新加坡国立大学的邵林团队提出了 DexSinGrasp——一种基于强化学习的统一策略,通过整合物体分离与抓取任务,令灵巧手在杂乱环境中能够自...

8010

原生多模态大模型也能强化学习,思维链长达几万字,商汤日日新V6来了

机器之心

你可能会回答,我们生活的世界纷繁复杂,常常涉及多模态信息(如声音、文字、视觉、时间、空间等等),对大模型提出了极为复杂和严苛的挑战。

12210

Python贝叶斯回归、强化学习分析医疗健康数据拟合截断删失数据与参数估计3实例

拓端

在当今数据驱动的时代,数据科学家面临着处理各种复杂数据和构建有效模型的挑战。本专题合集聚焦于有序分类变量处理、截断与删失数据回归分析以及强化学习模型拟合等多个重...

7410

类R1强化学习迁移到视觉定位!全开源Vision-R1将图文大模型性能提升50%

机器之心

受到基于规则的强化学习(Rule-Based Reinforcement Learning)在 R1 上成功应用的启发,中科院自动化研究所与中科紫东太初团队探索...

10810

自动化与机器人学习背后,藏着怎样的惊人秘密?

羑悻的小杀马特.

在机器人领域,强化学习可以让机器人通过与环境进行交互,根据环境反馈的奖励信号来学习最优的行为策略。使用 OpenAI Gym 库实现的简单的 CartPole ...

7910

人类反馈强化学习(Reinforcement Learning from Human Feedback, RLHF)

jack.yang

RLHF是一种机器学习技术,它使智能体能够通过与环境的交互和接收来自人类提供的反馈来学习。在RLHF中,人类可以提供偏好、评价或直接指导以影响智能体的学习过程,...

14210
领券
首页
学习
活动
专区
圈层
工具