首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

具身智能关键模型技术演化路线图

一点人工一点智能

横跨2012–2025年,把计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)、大语言/多模态模型(LLMs/MLLMs)以及世界模型(WMs)五条技...

3210

KLEIYN:一种具有主动腰部关节的四足机器人,用于运动与爬墙

一点人工一点智能

摘要:本论文提出了一种名为KLEIYN的新型四足机器人,其具备主动腰部关节,能够在复杂地形中进行运动并实现垂直墙面的攀爬。研究背景源于当前四足机器人在动态运动和...

4010

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

机器之心

在此背景下,中科院 & 美团研究团队推出了 VinciCoder ,一个旨在打破 SFT 瓶颈的统一多模态代码生成模型。VinciCoder 首次将强化学习的奖...

5110

强化学习 AI 系统的设计实现及未来发展

深度学习与Python

强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面,也体现在其系统的整体要求上...

2210

每周AI论文速递(250929-251003)

叶子的技术碎碎念

自 John von Neumann 和 Alan Turing 以来,计算系统与大脑的关联一直激励着先驱理论家。诸如大脑这类均匀无标度生物网络具有强大特性,包...

11110

每周AI论文速递(250922-250926)

叶子的技术碎碎念

阿拉伯文档OCR (Optical Character Recognition) 因该语言的连笔书写、字体多样、变音符号及从右至左的排版方向而始终面临挑战。尽管...

11610

每周AI论文速递(250908-250912)

叶子的技术碎碎念

基于强化学习 (RL) 的语言模型 (LMs) 后训练可在无需监督微调的情况下增强复杂推理能力,DeepSeek-R1-Zero 已验证此特性。然而,有效运用 ...

10310

每周AI论文速递(250901-250905)

叶子的技术碎碎念

大语言模型 (LLM) 在软件工程中的日益普及,亟需对其生成代码进行严格的安全性评估。然而现有基准存在明显局限:仅关注孤立代码片段、采用缺乏可复现性的不稳定评估...

9710

每周AI论文速递(250825-250829)

叶子的技术碎碎念

我们推出 InternVL 3.5,这是一个全新的开源多模态模型家族,显著提升了 InternVL 系列在通用性、推理能力和推理效率方面的表现。其核心创新在于级...

11710

006_决策模块的安全强化学习:防范策略中毒与保障自主安全

安全风信子

决策模块是具身人工智能的核心,其安全性直接关系到系统的整体可靠性和用户安全。本文深入探讨了具身AI决策模块面临的安全威胁,特别是策略中毒、奖励操纵和探索攻击等关...

10410

文生图也会“精神分裂”?北大、字节联手揭秘:越思考越画错!并行框架终结AI“左右互搏”

AI生成未来

使用轨迹优化的并行强化学习。基于这一洞见,本文进一步引入了并行强化学习(ParaRL),这是一种新颖的训练范式,它直接利用了这种中间步骤的跨模态协同效应。Par...

8910

效率超FlowGRPO 25倍!清华&英伟达开源DiffusionNFT:实现扩散模型强化学习大一统

AI生成未来

论文链接:https://arxiv.org/pdf/2509.16117 Git链接:https://research.nvidia.com/labs/dir...

11010

开放指令编辑效果爆表!小米开源Lego-Edit登顶SOTA:用强化学习教MLLM“举一反三”!

AI生成未来

论文链接:https://arxiv.org/pdf/2509.12883 Git链接:https://github.com/xiaomi-research/l...

9110

打败假动作,让虚拟人学会‘真实行动’!高德、清华等提出人与环境交互新框架FantasyHSI

AI生成未来

给定 3D 场景和高级指令,首先将任务形式化为动态有向图,然后通过基于 VLM 的多智能体进行任务分解、规划、回溯和修正,并采用强化学习来增强图中每条边的生成器...

13110

107_DPO:直接偏好优化

安全风信子

在大型语言模型(LLM)的发展历程中,如何让模型输出与人类偏好保持一致一直是研究的核心挑战。从早期的监督微调(SFT)到基于人类反馈的强化学习(RLHF),再到...

19310

100_RLHF(人类反馈强化学习)原理与实践

安全风信子

要理解RLHF,首先需要了解强化学习(Reinforcement Learning, RL)的基本概念。强化学习是一种通过与环境互动来学习最优行为的机器学习范式...

38810

大模型强化学习的熵控制:CE-GPPO、EPO与AsyPPO技术方案对比详解

deephub

LLM的强化学习训练最近进展很快,SOTA模型在各种推理benchmark上的表现确实亮眼。但更值得关注的其实是另一条信息——从Rutgers到Alibaba再...

15710

REFRAG技术详解:如何通过压缩让RAG处理速度提升30倍

deephub

RAG(检索增强生成)现在基本成了处理长文档的标准流程,但是它问题也很明显:把检索到的所有文本段落统统塞进LLM,这样会导致token数量爆炸,处理速度慢不说,...

18210

打造自主学习的AI Agent:强化学习+LangGraph代码示例

deephub

AI Agent这个概念最近被炒得很热,从管理日程的语音助手到仓库里跑来跑去的机器人,大家都在谈论Agent的"自主性"。但是真正让Agent变得intelli...

14510

从DQN到Double DQN:分离动作选择与价值评估,解决强化学习中的Q值过估计问题

deephub

2015年DQN在Atari游戏上取得突破性进展,从此以后强化学习终于能处理复杂环境了,但没多久研究者就注意到一些奇怪的现象:

7610
领券