首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签深度强化学习

#深度强化学习

DeepSeek认知之旅

用户4034541

DeepSeek《认知之旅》记录了DeepSeek V3/R1相关的8篇核心论文,以及最新的原生可训练稀疏注意力机制NSA论文中描述的关键要点,以时间顺序按脑图...

6500

深度解析模型蒸馏中的 soft label 概念及其应用案例

编程扫地僧

在当今人工智能与机器学习领域中,模型蒸馏( model distillation )作为一种高效的模型压缩方法受到广泛关注。借助这一方法,可以利用大型、复杂的教...

13910

大语言模型的模型蒸馏:概念、方法与应用

编程扫地僧

在人工智能领域,大语言模型(LLM)的出现带来了革命性的变革,例如 GPT 系列、BERT、T5 等模型展示了卓越的自然语言处理(NLP)能力。然而,这些模型往...

2.1K40

大语言模型中的 RLHF:强化学习如何优化 AI 交互体验

编程扫地僧

近年来,大语言模型(Large Language Model, LLM)取得了突破性的进展,GPT-3、GPT-4 以及其他基于 Transformer 架构的...

8900

大语言模型 RLHF 技术的深度解析:从理论到实践的范式革命

编程扫地僧

在人工智能领域,人类反馈强化学习(Reinforcement Learning from Human Feedback,RLHF)已成为大语言模型(Large ...

15410

解析 OpenAI GPT Store 的工作原理与技术架构

编程扫地僧

随着人工智能的快速发展,越来越多的创新应用层出不穷,其中 OpenAI 的 GPT Store 可谓是一个亮点。作为一个允许用户根据需求定制和使用不同类型 GP...

10210

解析 OpenAI 2024 年 5 月上线的 4o 模型架构与实现原理

编程扫地僧

OpenAI 的 4o 模型是一个革命性的进展,特别是在原生多模态处理上。这种模型不仅能够处理文本输入,还能够理解和生成视频、音频等多种类型的输入和输出。4o ...

8210

什么是 Stable Diffusion 的负面词汇

编程扫地僧

在使用 Stable Diffusion 等生成式模型时,负面词汇(Negative Prompts)是一个至关重要但经常被低估的工具。负面词汇指的是输入给模型...

10210

大模型引导的深度强化学习在自动驾驶决策中的应用

一点人工一点智能

项目地址:https://bitmobility.github.io/LGDRL/

19910

深度学习(七)深度强化学习:融合创新的智能之路(7/10)

正在走向自律

深度强化学习作为一种融合了深度学习和强化学习的新技术,在人工智能领域占据着至关重要的地位。它结合了深度学习强大的感知能力和强化学习优秀的决策能力,能够处理复杂的...

22010

Python深度强化学习对冲策略:衍生品投资组合套期保值Black-Scholes、Heston模型分析

拓端

本文提出了一个在存在交易成本、市场冲击、流动性约束或风险限制等市场摩擦的情况下,使用现代深度强化学习方法对衍生品投资组合进行套期保值的框架。我们讨论了标准强化学...

12810

【MADRL】多智能体深度强化学习《纲要》

不去幼儿园

多智能体深度强化学习(Multi-Agent Deep Reinforcement Learning,MADRL)是一类用于解决多智能体系统中决策与控制问题...

36310

【DRL】深度强化学习介绍

不去幼儿园

随着深度学习的迅猛发展,深度强化学习(Deep Reinforcement Learning, DRL)将深度学习与强化学习相结合,使得处理高维...

14210

当深度强化学习(DRL)遇见图神经网络(GNN)

不去幼儿园

将图神经网络(GNN)与深度强化学习(DRL)相结合。新的DRL+GNN体系结构能够在任意网络拓扑图上学习、操作和生成。

27510

Python深度强化学习智能体DDPG自适应股票交易策略优化道琼斯30股票数据可视化研究

拓端

股票交易策略在投资公司中起着至关重要的作用。然而,在复杂多变的股票市场中获取最优策略颇具挑战。本文探索深度强化学习在优化股票交易策略以实现投资回报最大化方面的潜...

15310

强化学习系列(十)--基于大语言模型的RLHF

languageX

推荐文章:《Linux本地部署开源项目OpenHands基于AI的软件开发代理平台及公网访问》

38930

springboot配置hosts文件

刘大猫

1)曾想使用aop切面的@Before(“方法名”)执行上端代码,自己方法引入该静态方法,发现不行报错

7100

机器学习——强化学习与深度强化学习

用户11286441

强化学习与深度强化学习为人工智能的发展提供了强有力的工具,尤其是在处理连续、复杂环境的决策问题上展现了其强大潜力。然而,深度强化学习的稳定性和样本效率等问题依然...

1.9K10

【深度学习】强化学习(五)深度强化学习

Qomolangma

  强化学习的基本任务是通过智能体与环境的交互学习一个策略,使得智能体能够在不同的状态下做出最优的动作,以最大化累积奖励。这种学习过程涉及到智能体根据当前状态选...

33810

论文推送 | 耦合动态时空图模型和深度强化学习的城市物流配送规划问题求解框架

遥感大数据学习

Li, Y., Guan, Q.*, Gu, J. & Jiang. X. (2024) A deep reinforcement learning with ...

18110
领券