首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签强化学习

#强化学习

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。

浅谈笔者对 AI 技术降低软件项目开发成本的一些思考

编程扫地僧

近年来 AI 技术不断突破创新,推动着软件项目开发的各个环节发生质的变化。相信每一位同行都已经感觉到了,借助 AI 算法与模型,我们能够在需求分析、代码编写、测...

5010

不会编程也能开发 Web 应用,小学生都能学会的 AI IDE

编程扫地僧

文章里提到的 AI 辅助编程的方法已经过时了。现在流行的 AI IDE,已经用不着从 IDE 切换到浏览器,向大模型发出指令,而是直接在 IDE 的编辑界面内,...

4210

Sci. Adv.| 基于大语言模型的抗菌肽设计

DrugAI

本文介绍一篇来自浙江大学侯廷军和谢昌谕团队、南部战区总医院姜志辉主任团队和碳硅智慧联合发表的一篇论文。该研究提出了一种基于大语言模型的抗菌肽(AMPs)设计方法...

6110

强化学习成帮凶,对抗攻击LLM有了新方法

机器之心

近日,威斯康星大学麦迪逊分校的一个研究团队发现,可以通过强化学习对模型实施有效的黑盒逃避攻击(Black-Box Evasion Attacks)。研究团队表示...

4410

从自我进化视角出发,全面解析LLM的推理能力技术演进路径

机器之心

强化学习通过与环境的交互来优化 LLM 的推理能力。具体来说,强化学习方法包括 model-free 在线强化学习、离线强化学习、基于模型的强化学习和层次强化学...

4210

【论文分享】推理大模型Post-Training技术的全面综述

致Great

大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向...

4210

基于视觉的仿人机器人灵巧操作:从模拟到现实的强化学习

一点人工一点智能

本文聚焦于通过**Sim-to-Real强化学习(RL)**实现仿人机器人基于视觉的灵巧操作任务。灵巧操作(如抓取、搬运、双手交接)是机器人领域长期以来的技术难...

8110

刚刚,2024图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

小白学视觉

刚刚,计算机学会(ACM)宣布了 2024 年的 ACM A.M. Turing Award(图灵奖)获得者:Andrew Barto 和 Richard Su...

5600

全球首次!2B复现DeepSeek-R1「啊哈时刻」,UCLA等用纯RL实现多模态推理

新智元

最初,研究者观察到了回答长度下降,因为基础模型倾向于生成HTML代码。通过强化学习,这种行为很快被抑制,随后回答长度开始规律地增加。之后,多模态的「啊哈时刻」出...

10500

HuggingFace 又出新教程啦!手把手教你构建DeepSeek-R1推理模型

致Great

简而言之,这就是强化学习背后的基本思想!我们拥有的不是狗,而是语言模型(在强化学习中,我们称之为代理);我们拥有的不是你,而是提供反馈的环境。

17010

超越人类!DeepMind强化学习新突破:AI在「我的世界」中封神!

新智元

那些在环境中一边尝试,一边学习,收集数据(观察和奖励),然后更新自己策略的强化学习算法被称作在线强化学习。

7200

DeepSeek-R1深度思考

程序员架构进阶

与通义千问、文心一言等大模型的网页版相比,DeepSeek的页面更简洁,除了简单的介绍+对话框,深度思考和联网搜索两个选项,以及文档上传。不过DeepS...

10910

《AI强化学习:元应用中用户行为引导的智能引擎》

程序员阿伟

在科技飞速发展的当下,元应用正以前所未有的速度融入我们的生活,从沉浸式的虚拟社交到高度仿真的工作模拟,元应用构建出一个个丰富多彩的虚拟世界。而在这背后,人工智能...

10010

Deepseek V3/R1 技术内核 及 RAG 技术前沿进展

深度学习与Python

我知道大家和我一样,都是以一种特别积极的心态沉浸在这个 DeepSeek 的学习世界中。实际上,DeepSeek 在我们春节期间送给我们的这份“大礼包”,对我个...

10310

万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!

腾讯云开发者

为了进一步来对齐人类偏好,他们使用了强化学习(RL)来调整模型偏好,同时为了节约成本用了GRPO(Group Relative Policy Optimizat...

28820

一键生成美观彩页 + AI训练揭秘:让你的内容瞬间高大上!

LeonAlgo

ChatGPT的训练分为四个主要阶段:预训练、监督微调、奖励建模和强化学习。每一个阶段都至关重要,缺一不可!

7900

DeepSeek-R1的创新与局限

陈宇明

DeepSeek官方发布一篇论文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Rei...

11210

从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术

机器之心

自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的...

11410

3倍提速!现在你跑不过机器狗了,限制波士顿动力机器狗的竟然是电池功率?

机器之心

当 Scaling Law 在触顶边界徘徊之时,强化学习为构建更强大的大模型开辟出了一条新范式。

5700

DeepSeek认知之旅

用户4034541

DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图...

6500
领券