开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

稳定的基线保存PPO模型并重新训练

基础概念

PPO（Proximal Policy Optimization）是一种用于强化学习的算法，它通过优化策略来最大化长期奖励。PPO的核心思想是在更新策略时限制策略的变化量，从而避免大的策略跳跃，使得训练过程更加稳定。

优势

稳定性：PPO通过限制策略更新的幅度，减少了训练过程中的不稳定性。
样本效率：PPO能够更有效地利用样本数据，减少了对大量数据的依赖。
易于实现：PPO的算法相对简单，易于实现和调试。

类型

PPO主要有两种变体：

PPO-Penalty：通过在策略梯度中添加KL散度惩罚项来限制策略更新。
PPO-Clip：通过裁剪策略更新的幅度来限制策略变化。

应用场景

PPO广泛应用于各种强化学习任务，包括但不限于：

游戏AI（如Atari游戏、围棋）
机器人控制
自然语言处理中的对话系统
推荐系统

保存和重新训练

保存基线模型

在训练过程中，定期保存模型的状态（权重和参数）是非常重要的，以便在需要时可以恢复训练或进行评估。以下是一个简单的示例代码，展示如何保存PPO模型：

import torch

# 假设model是你的PPO模型
torch.save(model.state_dict(), 'ppo_model_baseline.pth')

重新训练

重新训练时，加载保存的模型并继续训练。以下是一个示例代码：

import torch

# 假设model是你的PPO模型
model = PPOModel()  # 初始化模型
model.load_state_dict(torch.load('ppo_model_baseline.pth'))  # 加载保存的模型
model.train()  # 设置模型为训练模式

# 继续训练
for episode in range(num_episodes):
    # 训练代码...

遇到的问题及解决方法

问题：模型保存后重新加载时出现维度不匹配错误

原因：可能是由于模型结构在保存和加载之间发生了变化，例如增加了或减少了层的数量。

解决方法：

确保保存和加载的模型结构一致。
检查模型的输入和输出维度是否匹配。

# 确保模型结构一致
model = PPOModel()
model.load_state_dict(torch.load('ppo_model_baseline.pth'))

问题：重新训练时性能下降

原因：可能是由于模型在保存时处于不同的训练状态，或者数据分布发生了变化。

解决方法：

确保在相同的训练环境下重新加载模型。
使用相同的数据预处理步骤。
调整学习率和其他超参数。

# 调整学习率
optimizer = torch.optim.Adam(model.parameters(), lr=0.001)

参考链接

通过以上步骤和方法，你可以稳定地保存和重新训练PPO模型，确保训练过程的稳定性和性能。

相关搜索:Tensorboard日志中的峰值- PPO2稳定基线继续训练从训练并保存的模型加载的模型训练马拉提语的基线模型失败是否可以重新训练以前保存的keras模型？如何继续训练保存并加载的Keras模型？keras r如何保存模型并继续训练我无法加载我训练并保存的nn模型 spacy是如何重新训练模型的？如何增加训练Theano保存的模型？对已保存的模型进行Tensorflow训练如何保存在SmartCore中训练的模型？使用Keras加载以前保存的重新训练的VGG16模型时出现ValueError Keras:从保存的模型中获取训练数据将已保存的训练模型上传到MLKIT 如何保存JAX训练模型的优化器状态？多次重新训练预训练的自定义spacy ner模型的方法模型训练:具有不同超参数的已保存模型的命名方案修改经过训练的模型体系结构并继续训练Keras 基于更新的数据集自动重新训练分类模型如何加载keras模型并从训练停止的地方重新开始训练

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

解近似策略优化(PPO)及其马里奥游戏环境实战

文中蓝色字体为链接，部分外部链接无法从文章内部直接访问，请点击文末阅读原文以访问链接。

01

RLHF与AlphaGo核心技术强强联合，UW/Meta让文本生成能力再上新台阶

在一项最新的研究中，来自 UW 和 Meta 的研究者提出了一种新的解码算法，将 AlphaGo 采用的蒙特卡洛树搜索算法（Monte-Carlo Tree Search, MCTS）应用到经过近端策略优化（Proximal Policy Optimization, PPO）训练的 RLHF 语言模型上，大幅提高了模型生成文本的质量。

04

深挖RLHF潜力，复旦语言和视觉团队创新奖励模型优化，让大模型更对齐

继第一份大模型对齐技术报告（Secrets of RLHF in Large Language Models Part I）获 NeurIPS 2023 workshop best paper 后，第二份报告强势归来，复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中，复旦团队揭示了 RLHF 在大语言模型中的基本框架，并深入分析了 PPO 算法的内部机制，特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。

01

RLHF 和 DPO：简化和增强语言模型的微调

人类反馈强化学习 (RLHF) 是人工智能领域的一种前沿方法，它利用人类偏好和指导来训练和改进机器学习模型。 RLHF的核心是一种机器学习范式，它结合了强化学习和监督学习的元素，使人工智能系统能够以更加人性化的方式学习和做出决策。 RLHF的重要性在于它有可能解决人工智能中的一些基本挑战，例如需要模型来理解和尊重人类的价值观和偏好。传统的强化学习模型通过与环境交互产生的奖励来学习，而 RLHF 则不同，它引入了人类反馈作为宝贵的指导来源。这种反馈可以帮助人工智能系统导航复杂的决策空间，与人类价值观保持一致，并做出更明智和道德的选择。RLHF 已经在从自然语言处理和推荐系统到机器人和自动驾驶汽车的广泛领域中找到了应用。通过将人类反馈纳入训练过程，RLHF有能力提高模型性能，增强用户体验，并为人工智能技术的负责任发展做出贡献。

01

每日论文速递 | 使用对比Reward改进RLHF

摘要：来自人类反馈的强化学习（RLHF）是将大语言模型（LLM）与人类偏好相匹配的主流范式。然而，现有的 RLHF 在很大程度上依赖于准确、翔实的奖励模型，而奖励模型对各种来源的噪声（如人类标签错误）很脆弱、很敏感，从而使管道变得脆弱。在这项工作中，我们通过在奖励上引入惩罚项来提高奖励模型的有效性，该惩罚项被命名为contrastive rewards。我们的方法包括两个步骤：(1) 离线采样步骤，获取对提示的回应，作为计算基线；(2) 使用基线回应计算对比奖励，并将其用于近端策略优化 (PPO) 步骤。我们的研究表明，对比奖励使 LLM 能够惩罚奖励的不确定性、提高鲁棒性、鼓励改进基线、根据任务难度进行校准以及减少 PPO 中的差异。通过 GPT 和人类的评估，我们的实证结果表明，对比性奖励可以大幅提高 RLHF，而且我们的方法始终优于强基线。

01

OpenAI发布新强化学习算法：近端策略优化

允中编译自 blog.openai.com 量子位出品 | 公众号 QbitAI OpenAI今天发布一类新的强化学习算法：近端策略优化（Proximal Policy Optimization，

05

RLHF中的「RL」是必需的吗？有人用二进制交叉熵直接微调LLM，效果更好

近来，在大型数据集上训练的无监督语言模型已经获得了令人惊讶的能力。然而，这些模型是在具有各种目标、优先事项和技能集的人类生成的数据上训练的，其中一些目标和技能设定未必希望被模仿。

02

大语言模型对齐的四种方法！

语言模型的对齐在20年就有相关工作，22年谷歌提出基于指令微调的Flan，Openai则提出InstructGPT，ChatGPT，大模型的对齐工作受到广泛的关注。

01

【NLP】深入浅出，解析ChatGPT背后的工作原理

ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型，并且在设计上非常注重交互性。

02

深入浅出，解析ChatGPT背后的工作原理

选自Assembly AI 作者：Marco Ramponi 机器之心编译编辑：王强、蛋酱自 ChatGPT 发布以来，已经吸引了无数人一探究竟。但 ChatGPT 实际上是如何工作的？尽管它内部实现的细节尚未公布，我们却可以从最近的研究中一窥它的基本原理。 ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的

02

深入浅出！ChatGPT背后的原理详解

ChatGPT 是 OpenAI 发布的最新语言模型，比其前身 GPT-3 有显著提升。与许多大型语言模型类似，ChatGPT 能以不同样式、不同目的生成文本，并且在准确度、叙述细节和上下文连贯性上具有更优的表现。它代表了 OpenAI 最新一代的大型语言模型，并且在设计上非常注重交互性。

02

用Dota2“最强”算法PPO完成CarPole和四轴飞行器悬浮任务

Bill Gates在Twitter中提到：“AI机器人在Dota 2中战胜人类，是AI发展的一个里程碑事件”。

01

从框架到经典方法，全面了解分布式深度强化学习DDRL

AlphaGo 是一个在人机博弈中赢得众多职业围棋手的 agent 机器人。随着 AlphaGo 的突破，深度强化学习（Deep Reinforcement Learning，DRL）成为一种公认的解决连续决策问题的有效技术。人们开发了大量算法来解决介于 DRL 与现实世界应用之间的挑战性问题，如探索与开发困境、数据低效、多 agent 合作与竞争等。在所有这些挑战中，由于 DRL 的试错学习机制需要大量交互数据，数据低效（data inefficiency）是最受诟病的问题。为了应对这一问题，受到分布式机器学习技术的启发，分布式深度强化学习 (distributed deep reinforcement learning，DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为，分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。

02

强化学习的自然环境基准

虽然当前的基准强化学习（RL）任务对于推动这一领域的进展大有裨益，但在许多方面还不能很好地替代真实数据的学习。在低复杂度的仿真环境中测试日益复杂的RL算法，获得的RL策略难以推广。

03

每日论文速递 | [NeurIPS'23 Oral] DPO：Language Model 是一个 Reward Model

摘要：虽然大规模无监督语言模型（LMs）可以学习广泛的世界知识和一些推理技能，但由于其训练完全不受监督，因此很难实现对其行为的精确控制。获得这种可控性的现有方法通常是通过人类反馈强化学习（RLHF），收集人类对各代模型相对质量的标签，并根据这些偏好对无监督语言模型进行微调。然而，RLHF 是一个复杂且经常不稳定的过程，首先要拟合一个反映人类偏好的奖励模型，然后利用强化学习对大型无监督 LM 进行微调，以最大限度地提高估计奖励，同时不会偏离原始模型太远。在本文中，我们介绍了 RLHF 中奖励模型的一种新参数化方法，它能以封闭形式提取相应的最优策略，使我们只需简单的分类损失就能解决标准的 RLHF 问题。由此产生的算法我们称之为直接偏好优化（DPO），它稳定、性能好、计算量小，在微调过程中无需从 LM 中采样，也无需进行大量的超参数调整。我们的实验表明，DPO 可以对 LM 进行微调，使其与人类偏好保持一致，甚至优于现有方法。值得注意的是，使用 DPO 进行的微调在控制代际情感的能力上超过了基于 PPO 的 RLHF，并且在总结和单轮对话中达到或提高了响应质量，同时在实现和训练方面也要简单得多。

01

深度强化学习库的设计思想带你深入了解DRL：从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价

大部分深度强化学习 DRL 算法（主要是策略梯度 policy gradient、Actor-Critic Methods）可以抽象成上面这种 **DDPG-style RL training pipeline。**它的可拓展性非常好，且方便拓展，与稳定训练。

02

反思RLHF，如何更加高效训练有偏好的LLM

当前 LLM 蓬勃发展，各种模型和方法层出不穷，但总体看来，但是朝着以下3点目标前进：

01

深度策略梯度算法是真正的策略梯度算法吗？

深度强化学习是现代机器学习最为人所知的成就，它造就了 AlphaGO 这样广为人知的应用。对很多人来说，该框架展示了机器学习对现实世界的影响力。但是，不像当前的深度（监督）学习框架，深度强化学习工具包尚未支持足够的工程稳定性。的确，近期的研究发现当前最优的深度强化学习算法对超参数选择过于敏感，缺乏稳定性，且可复现性差。

02

基于 LoRA 的 RLHF: 记一次不太成功但有趣的百川大模型调教经历

为了节省训练资源，快速了解整个 RLHF 的过程，我这里每一步的训练，都采用 LoRA 微调的方式：使用 LoRA 进行 SFT，使用 LoRA 训练 Reward Model，以及使用 LoRA 来进行强化学习 PPO 过程。

03

星际争霸II协作对抗基准超越SOTA，新型Transformer架构解决多智能体强化学习问题

机器之心报道编辑：杜伟、陈萍这项工作又让我们回到那个老生常谈的问题：Transformer 真的是万能的吗？多智能体强化学习 (MARL) 是一个具有挑战性的问题，它不仅需要识别每个智能体的策略改进方向，而且还需要将单个智能体的策略更新联合起来，以提高整体性能。最近，这一问题得到初步解决，有研究人员引入了集中训练分散执行 (CTDE) 的方法，使智能体在训练阶段可以访问全局信息。然而，这些方法无法涵盖多智能体交互的全部复杂性。事实上，其中一些方法还被证明是失败的。为了解决这个问题，有人提出多智能体优

02

如何解决稀疏奖励下的强化学习？

强化学习（Reinforcement Learning，RL）是实现强人工智能的方法之一，在智能体（Agent）与环境的交互过程中，通过学习策略（Policy）以最大化回报或实现特定的目标。在实际应用场景中，RL 面临一个重要的问题：agent 无法得到足够多的、有效的奖励（Reward），或者说 agent 得到的是稀疏奖励（Sparse Reward），进而导致 agent 学习缓慢甚至无法进行有效学习。

02

这个团队做了OpenAI没Open的技术，开源OpenRLHF让对齐大模型超简单

随着大型语言模型（LLM）规模不断增大，其性能也在不断提升。尽管如此，LLM 依然面临着一个关键难题：与人类的价值和意图对齐。在解决这一难题方面，一种强大的技术是根据人类反馈的强化学习（RLHF）。

01

无需RLHF就能对齐人类，性能比肩ChatGPT！华人团队提出袋熊Wombat模型

---- 新智元报道编辑：好困【新智元导读】最近，来自阿里达摩院和清华大学的研究人员提出了一种名为RRHF的对齐方法，无需强化学习即可用于训练语言模型，效果比肩RLHF。 OpenAI的ChatGPT能够理解各种各样的人类指令，并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF（通过强化学习对齐人类反馈）。 RLHF方法解锁了语言模型遵循人类指令的能力，使得语言模型的能力与人类需求和价值观保持一致。目前，RLHF的研究工作主要使用PPO算法对语言模型进行优化。

02

用ChatGPT和强化学习玩转《我的世界》，Plan4MC攻克24个复杂任务

机器之心发布机器之心编辑部 Plan4MC 目前可以完成 24 个复杂多样任务，成功率相比所有的基线方法有巨大提升。在开放式的环境中学习多种任务是通用智能体的重要能力。《我的世界》（Minecraft）作为一款受欢迎的开放世界游戏，具有无限生成的复杂世界和大量开放的任务，成为近几年开放式学习研究的重要测试环境。学习 Minecraft 中的复杂任务对当前的强化学习算法是巨大的挑战。一方面，智能体在无限大的世界中通过局部的观测寻找资源，面临探索的困难。另一方面，复杂的任务通常需要很长的执行时间，要求完成

02

训练提速17%，第四范式开源强化学习研究框架，支持单、多智能体训练

机器之心专栏作者：第四范式强化学习团队强化学习研究框架 OpenRL 是基于 PyTorch 开发的，已经在 GitHub 上开源。 OpenRL 是由第四范式强化学习团队开发的基于 PyTorch 的强化学习研究框架，支持单智能体、多智能体、自然语言等多种任务的训练。OpenRL 基于 PyTorch 进行开发，目标是为强化学习研究社区提供一个简单易用、灵活高效、可持续扩展的平台。目前，OpenRL 支持的特性包括：简单易用且支持单智能体、多智能体训练的通用接口支持自然语言任务（如对话任务）的

01

业界 | OpenAI举办迁移学习竞赛：评估强化学习算法表现

选自OpenAI 作者： CHRISTOPHER HESSE等机器之心编译参与：李亚洲、刘晓坤近日，OpenAI 发布了一个迁移学习竞赛，来评判强化学习算法从先前经验进行泛化的能力。在典型的强化学习研究中，算法的测试与训练环境是一样的，这对于记忆能力更好以及有很多超参数的算法来说更有优势。而 OpenAI 发布的这个竞赛是在先前未见过的视频游戏上测试算法。此外，该竞赛使用的是 OpenAI 将经典游戏融入到 Gym 中做出的新平台 Gym Retro。竞赛地址：https://contest.ope

05

训练提速17%，第四范式开源强化学习研究框架，支持单、多智能体训练

来源：机器之心本文约4000字，建议阅读10分钟强化学习研究框架 OpenRL 是基于 PyTorch 开发的，已经在 GitHub 上开源。 OpenRL 是由第四范式强化学习团队开发的基于 PyTorch 的强化学习研究框架，支持单智能体、多智能体、自然语言等多种任务的训练。 OpenRL 基于 PyTorch 进行开发，目标是为强化学习研究社区提供一个简单易用、灵活高效、可持续扩展的平台。目前，OpenRL 支持的特性包括：简单易用且支持单智能体、多智能体训练的通用接口支持自然语言任务（如对话任务

02

论文解读: 百川大模型7B和13B技术报告

百川2技术报告详细介绍了模型的研发细节，包括7B和13B两个版本，以及在2.6T数据上进行了训练。报告还提及模型在数学、代码能力以及医疗和法律任务上的显著改善，并对模型安全性能力的提升方法进行了公布。此外，还展示了Baichuan 2在公共基准测试如MMLU、CMMLU、GSM8K和人为评估中的表现，与其他开源模型相匹配或超越它们。技术报告还详细解释了Baichuan 2的训练过程，包括数据处理、模型结构优化等方面。

03

FudanNLP团队最新成果，借助RLHF实现人类对齐的MOSS-RLHF来了

以 ChatGPT 为代表的大型语言模型（LLM）在各项任务上的高效表现彰显了其广阔发展前景。然而，大模型回复与人类价值偏好经常存在不一致问题。

06

在RTX 4090被限制的时代下，让大模型使用RLHF更高效的方法来了

今年，以 ChatGPT 为首的大语言模型（Large Language Models, LLMs) 在各个方面大放光彩，由此引发了学术界和商业界对 GPU 等计算资源的需求剧增。

04

如何启用和使用ChatGPT4的详细步骤演示

讲到大语言模型的优势，一般首先要提到这类模型的涌现能力和思维链。这两者是大语言模型不断接近人类的关键特征。

01

OpenAI Gym 高级教程——深度强化学习库的高级用法

在本篇博客中，我们将深入探讨 OpenAI Gym 高级教程，重点介绍深度强化学习库的高级用法。我们将使用 TensorFlow 和 Stable Baselines3 这两个流行的库来实现深度强化学习算法，以及 Gym 提供的环境。

01

一文读懂强化学习：RL全面解析与Pytorch实战

强化学习（Reinforcement Learning, RL）是人工智能（AI）和机器学习（ML）领域的一个重要子领域，与监督学习和无监督学习并列。它模仿了生物体通过与环境交互来学习最优行为的过程。与传统的监督学习不同，强化学习没有事先标记好的数据集来训练模型。相反，它依靠智能体（Agent）通过不断尝试、失败、适应和优化来学习如何在给定环境中实现特定目标。

05

LLM成功不可或缺的基石：RLHF及其替代技术

在讨论 LLM 时，我们总是会涉及一个名为「使用人类反馈的强化学习（RLHF）」的过程。RLHF 是现代 LLM 训练流程中不可或缺的一部分，因为它可以将人类偏好整合到优化图景中，从而提升模型的有用性和安全性。

04

强化学习中的好奇心驱动学习算法：随机网络精馏探索技术

原题：Explained: Curiosity-Driven Learning in RL— Exploration By Random Network Distillation

03

强化学习从基础到进阶–案例与实践[8]：近端策略优化（proximal policy optimization，PPO）算法

在介绍近端策略优化（proximal policy optimization，PPO）之前，我们先回顾同策略和异策略这两种训练方法的区别。在强化学习里面，要学习的是一个智能体。如果要学习的智能体和与环境交互的智能体是相同的，我们称之为同策略。如果要学习的智能体和与环境交互的智能体不是相同的，我们称之为异策略。

02

多图见证模拟机器人的逆天成长：论进化策略在强化学习中的应用

AI 科技评论按：本文是 otoro.net 的系列技术博客之一，以通俗可视化的方法讲解了进化策略（Evolution Strategies）中的诸多概念。本篇介绍了如何使用进化策略来寻找前馈神经网络

大模型RLHF不必非得靠人，谷歌：AI反馈效果一样好

RLHF，即基于人类反馈的强化学习，无论是ChatGPT还是开源的LLaMA都离不开它。

02

用于深度强化学习的结构化控制网络（ICML 论文讲解）

摘要：近年来，深度强化学习在解决序列决策的几个重要基准问题方面取得了令人瞩目的进展。许多控制应用程序使用通用多层感知器（MLP），用于策略网络的非视觉部分。在本工作中，我们为策略网络表示提出了一种新的神经网络架构，该架构简单而有效。所提出的结构化控制网（Structured Control Net ，SCN）将通用多层感知器MLP分成两个独立的子模块：非线性控制模块和线性控制模块。直观地，非线性控制用于前视角和全局控制，而线性控制围绕全局控制以外的局部动态变量的稳定。我们假设这这种方法具有线性和非线性策略的优点：可以提高训练效率、最终的奖励得分，以及保证学习策略的泛化性能，同时只需要较小的网络并可以使用不同的通用训练方法。我们通过OpenAI MuJoCo，Roboschool，Atari和定制的2维城市驾驶环境的模拟验证了我们的假设的正确性，其中包括多种泛化性测试，使用多种黑盒和策略梯度训练方法进行训练。通过将特定问题的先验结合到架构中，所提出的架构有可能改进更广泛的控制任务。我们采用生物中心模拟生成器（CPG）作为非线性控制模块部分的结构来研究运动任务这个案例，结果了表面的该运动任务的性能被极大提高。

02

一网打尽！深度学习常见问题！

在传统软件工程中，程序问题（即Bugs）会导致程序崩溃，但开发人员可以通过检查错误来了解原因。

01

强化学习调参技巧二：DDPG、TD3、SAC算法为例：

强化学习里的 env.reset() env.step() 就是训练环境。其编写流程如下：

02

股票市场交易中的强化学习

在深度学习的世界中，无论您的模型多么先进，没有充分对业务充分理解和干净的数据都不会走得太远。这个事实在金融领域尤其如此，在我们的数据集中，只存在股票的开盘价，最高价，最低价，调整后的收盘价和交易量的5个变量。

03

干货 | 用于深度强化学习的结构化控制网络（ICML 论文讲解）

摘要：近年来，深度强化学习在解决序列决策的几个重要基准问题方面取得了令人瞩目的进展。许多控制应用程序使用通用多层感知器（MLP），用于策略网络的非视觉部分。在本工作中，我们为策略网络表示提出了一种新的神经网络架构，该架构简单而有效。所提出的结构化控制网（Structured Control Net ，SCN）将通用多层感知器MLP分成两个独立的子模块：非线性控制模块和线性控制模块。直观地，非线性控制用于前视角和全局控制，而线性控制围绕全局控制以外的局部动态变量的稳定。我们假设这这种方法具有线性和非线性策略的优点：可以提高训练效率、最终的奖励得分，以及保证学习策略的泛化性能，同时只需要较小的网络并可以使用不同的通用训练方法。我们通过OpenAI MuJoCo，Roboschool，Atari和定制的2维城市驾驶环境的模拟验证了我们的假设的正确性，其中包括多种泛化性测试，使用多种黑盒和策略梯度训练方法进行训练。通过将特定问题的先验结合到架构中，所提出的架构有可能改进更广泛的控制任务。我们采用生物中心模拟生成器（CPG）作为非线性控制模块部分的结构来研究运动任务这个案例，结果了表面的该运动任务的性能被极大提高。

03

算法工程师深度解构ChatGPT技术

引言 | 本栏目特邀腾讯知名语言文本项目算法工程师冉昱、薛晨，用专业视野带你由浅入深了解ChatGPT技术全貌。它经历了什么训练过程？成功关键技术是什么？将如何带动行业的变革？开发者如何借鉴ChatGPT思路和技术，投入到日常工作中？期望本文能给你新的灵感。 ChatGPT主要特点 ChatGPT本质是一个对话模型，它可以回答日常问题、进行多轮闲聊，也可以承认错误回复、挑战不正确的问题，甚至会拒绝不适当的请求。在上周公布博文和试用接口后，ChatGPT很快以令人惊叹的对话能力“引爆”网络。 1）

04

玩不起RLHF？港科大开源高效对齐算法RAFT「木筏」，GPT扩散模型都能用

梦晨发自凹非寺量子位 | 公众号 QbitAI 开源大模型火爆，已有大小羊驼LLaMA、Vicuna等很多可选。但这些羊驼们玩起来经常没有ChatGPT效果好，比如总说自己只是一个语言模型、没有感情blabla，拒绝和用户交朋友。归根结底，是这些模型没有ChatGPT那么对齐（Alignment），也就是没那么符合人类用语习惯和价值观。为此，港科大LMFlow团队提出全新对齐算法RAFT，轻松把伯克利Vicuna-7b模型定制成心理陪伴机器人，从此AI会尽力做你的朋友。相较于OpenAI所

01

深度强化学习落地方法论训练篇：PPO、DQN、DDPG、学习率、折扣因子等

为了保证 DRL 算法能够顺利收敛，policy 性能达标并具有实用价值，结果有说服力且能复现，需要算法工作者在训练前、训练中和训练后提供全方位一条龙服务。我记得 GANs 刚火起来的时候，因为训练难度高，有人在 GitHub 上专门开了 repository，总结来自学术界和工业界的最新训练经验，各种经过或未经验证的 tricks 被堆砌在一起，吸引了全世界 AI 爱好者的热烈讨论，可谓盛况空前。在玄学方面，DRL 算法训练有得一拼。但毕竟在科研领域没有人真的喜欢玄学，只有久经考验的一般化规律才能凝结成知识被更多的人接受和推广。本篇接下来的内容融合了许多个人经验和各种参考资料，算是在 DRL 训练 “去玄学” 化上做出的一点微不足道的努力。

05

Timm助力ResNet焕发“第二春”，无蒸馏且无额外数据，性能高达80.4%

code: https://github.com/rwightman/pytorch-image-models

02

星际2新智能体开源：单机并行能力强，适应环境广，个人可训练

今天，《星际争霸2》（后称星际2）深度强化学习（DRL）智能体Reaver开源了，引来大量Reddit用户围观。

03

IEEE｜具有混合状态的强化分子生成

今天给大家介绍的是悉尼大学的Fangzhou Shi等人在2019年IEEE上发表的会议论文“Reinforced Molecule Generation with Heterogeneous States”。近年来，基于强化学习的方法利用图来表示并生成分子。然而，分子图表示可能忽略了分子的内在上下文信息，并相应地限制了生成性能。在本文中，作者提出用SMILES上下文向量来增强原始图的状态。SMILES表示很容易被简单的语言模型处理，这样就可以提取分子的一般语义特征；图表示在处理每个原子的拓扑关系方面表现得更好。此外，作者还提出了一个结合监督学习和强化学习算法的框架，以更好地考虑分子的这两种状态表示，它可以融合来自两者的信息，并提取更全面的特征，从而使策略网络能够做出更复杂的决策。模型还引入了两种注意机制，即动作注意和图注意，以进一步提高性能。作者在数据集ZINC上进行了实验，实验结果表明，此框架在分子生成和化学性质优化的学习性能方面优于其他基线方法。

01

跨越千年医学对话：用AI技术解锁中医古籍知识，构建能够精准问答的智能语言模型，成就专业级古籍解读助手（LLAMA）

介绍：首先在 Ziya-LLaMA-13B-V1基线模型的基础上加入中医教材、中医各类网站数据等语料库，训练出一个具有中医知识理解力的预训练语言模型（pre-trained model），之后在此基础上通过海量的中医古籍指令对话数据及通用指令数据进行有监督微调（SFT），使得模型具备中医古籍知识问答能力。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭