首页
学习
活动
专区
圈层
工具
发布
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

基于强化学习的量化交易框架 TensorTrade

deephub

打开交易图表,堆上十个技术指标,然后对着屏幕发呆不知道下一步怎么操作——这场景对交易员来说太熟悉了。如果把历史数据丢给计算机,告诉它“去试错”。赚了有奖励,亏了...

300

ML-SYS 学习宝典:从 RLHF 系统到 SGLang 深入解析

qife122

Awesome-ML-SYS-Tutorial 是一个专注于机器学习系统(ML SYS)领域的学习笔记与代码仓库。它旨在为对 ML 与系统交叉领域感兴趣的研究者...

600

全球强化学习+VLA范式,PI*0.6背后都有这家中国公司技术伏笔

机器之心

在 Physical Intelligence 最新的成果 π0.6 论文里,他们介绍了 π0.6 迭代式强化学习的思路来源:

6210

八、神经网络(下)

程序员三明治

美团 | 大模型后台开发 (已认证)

就像人类通过摸索试验来学习一样(比如骑自行车),让计算机也在摸索试验的过程中自主学习,这称为强化学习(reinforcement learning)。强化学习和...

1710

【AI在内容创作】

贺公子之数据科学与艺术

理解三幕剧、英雄之旅等叙事框架,通过概率图模型或强化学习构建情节连贯性。如OpenAI的StoryGeneration项目使用层次化LSTM生成多段落故事。

5010

揭秘对话式音乐推荐系统的机器学习技术架构

用户11764306

在当今的数字生活中,推荐系统无处不在,从在线购物到流媒体音乐,它们利用我们过往的选择来预测我们可能喜欢的下一个内容citation:10。然而,音乐推荐系统长期...

6810

RLHF三大挑战与突围之路:如何让大模型更懂人类偏好?

智谷星瀚

•RLHF:在训练instructGPT时,首先使用有人类生成的示例对模型进行预训练。然后,通过与人类评估者进行交互,收集评估结果,以创建一个用于强化学习的数据...

10310

从拓扑稠密到团队共振:一场AI for Science赛事的协作启示

math chen

在学术与产业的交叉领域里,始终流传着一个朴素的共识:牛逼的人在一个领域内必有另一个牛逼的人。这并非简单的人脉叠加,而是拓扑学意义上的“稠密性”——当我们将领域内...

12410

具身智能关键模型技术演化路线图

一点人工一点智能

横跨2012–2025年,把计算机视觉(CV)、自然语言处理(NLP)、强化学习(RL)、大语言/多模态模型(LLMs/MLLMs)以及世界模型(WMs)五条技...

9210

KLEIYN:一种具有主动腰部关节的四足机器人,用于运动与爬墙

一点人工一点智能

摘要:本论文提出了一种名为KLEIYN的新型四足机器人,其具备主动腰部关节,能够在复杂地形中进行运动并实现垂直墙面的攀爬。研究背景源于当前四足机器人在动态运动和...

15010

VinciCoder:多模态统一代码生成框架和视觉反馈强化学习,数据代码模型权重已开源

机器之心

在此背景下,中科院 & 美团研究团队推出了 VinciCoder ,一个旨在打破 SFT 瓶颈的统一多模态代码生成模型。VinciCoder 首次将强化学习的奖...

11610

强化学习 AI 系统的设计实现及未来发展

深度学习与Python

强化学习作为推动大语言模型进一步提升智能程度的手段,一直是大语言模型训练环节中最核心且复杂的环节。其中的复杂度不仅仅体现在其算法方面,也体现在其系统的整体要求上...

9210

每周AI论文速递(250929-251003)

叶子的技术碎碎念

自 John von Neumann 和 Alan Turing 以来,计算系统与大脑的关联一直激励着先驱理论家。诸如大脑这类均匀无标度生物网络具有强大特性,包...

14210

每周AI论文速递(250922-250926)

叶子的技术碎碎念

阿拉伯文档OCR (Optical Character Recognition) 因该语言的连笔书写、字体多样、变音符号及从右至左的排版方向而始终面临挑战。尽管...

14710

每周AI论文速递(250908-250912)

叶子的技术碎碎念

基于强化学习 (RL) 的语言模型 (LMs) 后训练可在无需监督微调的情况下增强复杂推理能力,DeepSeek-R1-Zero 已验证此特性。然而,有效运用 ...

13210

每周AI论文速递(250901-250905)

叶子的技术碎碎念

大语言模型 (LLM) 在软件工程中的日益普及,亟需对其生成代码进行严格的安全性评估。然而现有基准存在明显局限:仅关注孤立代码片段、采用缺乏可复现性的不稳定评估...

11710

每周AI论文速递(250825-250829)

叶子的技术碎碎念

我们推出 InternVL 3.5,这是一个全新的开源多模态模型家族,显著提升了 InternVL 系列在通用性、推理能力和推理效率方面的表现。其核心创新在于级...

14110

006_决策模块的安全强化学习:防范策略中毒与保障自主安全

安全风信子

决策模块是具身人工智能的核心,其安全性直接关系到系统的整体可靠性和用户安全。本文深入探讨了具身AI决策模块面临的安全威胁,特别是策略中毒、奖励操纵和探索攻击等关...

12810
领券