前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >超对齐!OpenAI | 提出了大型语言模型(LLM)新的研究方向:Superalignment

超对齐!OpenAI | 提出了大型语言模型(LLM)新的研究方向:Superalignment

作者头像
ShuYini
发布于 2023-12-19 11:22:02
发布于 2023-12-19 11:22:02
5630
举报

更多干货,第一时间送达

引言

今天OpenAI又发布了一项新研究,并提出了超对齐(superalignment)研究方向,旨在利用深度学习的的泛化特性来控制具有弱监督能力的强模型。

研究背景

随着目前人工智能大模型的发展,如何控制未来超人的人工智能系统将会成为一个核心问题,为此人类需要一个能够监督人工智能的系统。

为此,OpenAI的研究人员研究了一个简单的假设:小模型能监督大模型吗?通过实验结果,他们发现可以使用 GPT-2 级别的模型引导出 GPT-4 的大部分功能,其性能表现可以接近GPT-3.5。这就开辟了一个新的研究方向,即可通过较小模型来应对超人类模型的控制,并且目前通过实验也取得了一定的实际进展。

超对齐问题

超级人工智能(比人类还要聪明的人工智能)有望在未来十年内具有突破性进展。然而,我们仍然不知道如何可靠地引导和控制超人类的人工智能系统。解决了这个问题,我们才能确保未来超人类的人工智能系统更好的服务人类。

今年早些时候,OpenAI成立了超级对齐团队来解决超级智能对齐的问题。今天,我们发布了该团队的第一篇论文,其中介绍了根据经验调整超人模型的新研究方向。

当前的对齐方法,例如来自人类反馈的强化学习(RLHF),依赖于人类监督。然而,未来的人工智能系统将能够执行极其复杂和创造性的行为,这将使人类难以可靠地监督它们。例如,超人模型可能能够编写数百万行新颖且具有潜在危险的计算机代码,即使对于专家来说也很难理解。

相对于超人的人工智能模型,人类将是“弱监督者”,作为“弱监督者”如何才能有效的控制超强的人工智能模型呢?这是 AGI 一致性的核心挑战。

研究设置

如下图所示,在传统机器学习 (ML) 中,人类可以监督比自己弱的人工智能系统(左)。为了协调超级智能,人类需要监督比他们更聪明的人工智能系统(中)。为了能够在该挑战上取得突破性的进展,OpenAI提出了一个可以实证研究的假设,可以使用较小(能力较差)的模型来监督较大(能力更强)的模型吗?

在此过程中,我们并不期望一个强大的预训练模型比提供训练信号的弱监督者表现得更好,因为对于强模型来说,它可能只是学会模仿弱监督者所犯的所有错误。我们所希望的是强大的预训练模型具有出色的原始能力,它们无需从头开始训练,只需要引导出它的潜在知识。

那么关键的问题是:强模型是否会根据弱监督者的潜在意图进行泛化——即使在弱监督者只能提供不完整或有缺陷的训练标签的困难问题上,也能利用其全部能力来解决任务?

实验结果

我们可以通过很多方法来提高强模型的泛华能力。最简单的一个方法就是引导模型更加自信,并且在必要的时候可以引导其反对弱监督模型的观点。当在 NLP 任务上使用此方法用 GPT-2 级模型监督 GPT-4 时,所得模型的性能通常介于 GPT-3 和 GPT-3.5 之间, 即可以通过较弱的监督来恢复 GPT-4 的大部分功能。如下图所示:

这种方法具有一定的局限性。例如,它不适用于ChatGPT。然而,在此过程中也发现了其它的方法,例如从小型到中型再到大型模型的最佳停止和引导。

总的来说,结果表明,(1)人类监督——例如来自人类反馈的强化学习(RLHF)——如果不进行进一步的工作,可能很难扩展到超人类模型,但是(2)大幅提高从弱到强的泛化能力是可行的。

研究机会

当前的实证设置与最终对齐超级智能模型的问题之间仍存在一些重要差异。举例而言,未来的模型可能更容易模仿人类的低级错误,而不是当前的强模型模仿目前弱模型的错误,这可能使未来的泛化变得更加困难。

尽管存在这些不同之处,OpenAI的实验框架捕捉到了对齐未来超级智能模型所面临的一些关键困难,这使得在这个问题上取得实证进展。未来的研究有许多有前途的方向,包括修复我们实验设置中的不一致性、开发更具可扩展性的方法,并深化我们对何时以及如何实现从弱到强泛化的科学理解。

这对于机器学习研究社区来说是一个令人兴奋的机会,未来可以在对齐方面取得新的进展。为了启动该领域的更多研究OpenAI开放了源码:https://github.com/openai/weak-to-strong,并启动了1000 万美元的资助计划,为研究生、学者和其他研究人员广泛开展超人类人工智能对齐工作。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-12-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AINLPer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
用GPT-2监督GPT-4,防止AI毁灭人类? OpenAI Ilya超级对齐团队首篇论文出炉
就在刚刚,OpenAI首席科学家Ilya领衔的超级对齐团队,发布了成立以来的首篇论文!
新智元
2023/12/20
2310
用GPT-2监督GPT-4,防止AI毁灭人类? OpenAI Ilya超级对齐团队首篇论文出炉
GPT-2能监督GPT-4,Ilya带头OpenAI超级对齐首篇论文来了:AI对齐AI取得实证结果
过去一年,以「预测下一个 Token」为本质的大模型已经横扫人类世界的多项任务,展现了人工智能的巨大潜力。
机器之心
2023/12/15
3050
GPT-2能监督GPT-4,Ilya带头OpenAI超级对齐首篇论文来了:AI对齐AI取得实证结果
OpenAI内斗第二弹!Ilya亲信、超级对齐团队2人惨遭开除,被批泄密
而这也是今年3月Sam Altman重掌董事会席位后,OpenAI首次对外公开的人事变动。
新智元
2024/04/13
1750
OpenAI内斗第二弹!Ilya亲信、超级对齐团队2人惨遭开除,被批泄密
人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图
“ 人工智能的发展给人类带来福祉的同时,也存在巨大的风险。为了防止人工智能走向不受控制的方向,对齐技术应运而生。通过人工智能安全技术的研究与探索,我们期望在人工智能能力成熟前建立起有效的对齐机制,让人工智能能够真正为人类谋利益。本文将从人工智能对齐的困难与可能的解决方案两个方面进行介绍,以及OpenAI在这个领域的实践
技术人生黄勇
2024/07/19
1660
人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图
用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划
前段时间,OpenAI 宣布成立了一支新团队「Superalignment(超级对齐)」,引起了广泛关注,详见机器之心报道《四年、投入 20% 计算资源,OpenAI 成立专门团队构建解决对齐问题的超强 AI》。该团队由 Jan Leike 和 Ilya Sutskever 领导,还囊括了一些顶尖的研究者,其目标是在四年内解决超智能 AI 的对齐问题,即搞清楚如何构建一种值得信任的人类水平的研究器,然后将其用于解决对齐问题。但这项计划究竟涉及什么内容?
机器之心
2023/09/08
4270
用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
大语言模型(LLMs)虽展现出了强大的能力,但也可能产生不可预测和有害的输出,例如冒犯性回应、虚假信息和泄露隐私数据,给用户和社会造成伤害。确保这些模型的行为与人类意图和价值观相对齐,是一个紧迫的挑战。
机器之心
2024/02/26
2990
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
模型如 ChatGPT 依赖于基于人类反馈的强化学习(RLHF),这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF 面临着成本高昂、难以优化等问题,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖,Anthropic 推出了 Constitutional AI,旨在要求语言模型在回答时遵循一系列人类规则。同时,OpenAI 的研究通过采用弱模型监督强模型的方法,为超人类水平模型的对齐提供了新的视角。尽管如此,由于用户给出的指令千变万化,将一套固定的社会规则应用于 LLMs 显得不够灵活;而且,弱模型对强模型的监督提升效果尚不明显。
机器之心
2024/02/28
2560
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
好消息:OpenAI 突然发了新模型!坏消息:只是纠错,没你想得逆天
对于 ChatGPT 等聊天机器人提供支持的大型语言模型来说,最大问题之一是,永远不知道何时可以信任它们。它们可以针对任何问题生成清晰而有说服力的答案,并且提供的大部分信息都是准确而有用的,但它们也会产生幻觉。用不太礼貌的话来说,它们会胡编乱造,需要人类用户自己去发现错误。它们还会阿谀奉承,试图告诉用户他们想听的内容。
深度学习与Python
2024/07/12
1440
好消息:OpenAI 突然发了新模型!坏消息:只是纠错,没你想得逆天
四年、投入20%计算资源,OpenAI成立专门团队构建解决对齐问题的超强AI
随着 ChatGPT、GPT-4、LLaMA 等生成式大模型的爆火,生成式 AI 技术成为一个值得关注和思考的重要话题。一方面,生成式 AI 能够大幅提升生产效率;另一方面,人们也看到了生成式 AI 技术背后隐藏的风险。
机器之心
2023/08/07
2330
四年、投入20%计算资源,OpenAI成立专门团队构建解决对齐问题的超强AI
76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术
近日,天津大学熊德意教授团队发布了大语言模型对齐技术的综述论文(下文简称为对齐综述),全文共 76 页,覆盖 300 余篇参考文献,从 AI 对齐的角度对大语言模型对齐的相关技术进行了全面概述。为提供一个大语言模型对齐的宏观视角,对齐综述介绍了 AI 对齐的起源和相关概念,从 AI 对齐的视角,将目前可用于大语言模型的对齐相关的技术方法和提案分为外部对齐、内部对齐、可解释性三大类。并且讨论了当前大语言模型对齐方法的脆弱性,以及对齐评估的方法和基准,展望了大语言模型对齐技术未来的研究方向。
机器之心
2023/10/08
9020
76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术
AI大模型价值对齐:是什么,为什么,怎么做?
人工智能进入大模型时代后,各种“类人”和“超人”能力持续涌现,其自主性、通用性和易用性快速提升,成为经济社会发展的新型技术底座。有机构预测,大模型将深入各行各业,每年为全球经济增加2.6万亿到4.4万亿美元的价值。[1]
小腾资讯君
2023/08/23
9490
AI大模型价值对齐:是什么,为什么,怎么做?
Ilya官宣离职,超级对齐负责人Jan直接辞职,OpenAI还是走散了
今天,OpenAI 联合创始人、首席科学家 Ilya Sutskever 发推宣告离职。
机器之心
2024/05/22
1510
Ilya官宣离职,超级对齐负责人Jan直接辞职,OpenAI还是走散了
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
“ 本文及上一篇综述了最近关于语言模型中幻觉问题的研究进展,主要集中在ChatGPT发布后的研究。文章讨论了如何评估、追踪和消除幻觉,并探讨了现有挑战和未来方向。希望本文能为对LLM幻觉问题感兴趣的朋友提供有价值的资源,促进LLM的实际应用。”
技术人生黄勇
2024/07/19
7870
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
AI日报:OpenAI向新用户重新开放ChatGPT Plus订阅
在暂停注册一个月后,OpenAI重新向新用户开放了其ChatGPT Plus订阅。
Nowl
2024/01/18
1790
AI日报:OpenAI向新用户重新开放ChatGPT Plus订阅
质量>数量!数据对大型语言模型(LLM)整个生命周期的影响!
 自去年底ChatGPT发布以来,大型语言模型(LLM)的性能极大的吸引了人们的注意力。在此过程中,我们逐渐的开始思考当前LLM发展过程。相比传统的自然语言模型,LLMs为什么能做到如此令人印象深刻的效果?针对该问题,尽管人们争论不断,但一项特别有影响力的进步是执行对齐的能力,这是毋庸置疑的。通俗来说,不管是通过指令信息还是检索信息,「人类已经明白如何训练LLM,使其不仅能够准确预测出下一个单词,而且输出的文本还能满足人们的目标」。
ShuYini
2023/09/02
1.7K0
质量>数量!数据对大型语言模型(LLM)整个生命周期的影响!
直面AI价值对齐挑战
过去一年多,以ChatGPT为代表的大语言模型(LLM)集中爆发,并衍生出文生图、文生视频、文生音乐等多模态应用,让人们感受到了人工智能蕴含的无限潜力与可能性。
小腾资讯君
2024/07/03
2410
万字长文详解:大模型时代AI价值对齐的问题、对策和展望
人工智能价值对齐(AI alignment)是关涉AI控制与AI安全的重要问题,随着人工智能的飞速发展和广泛应用,人工智能可能带来的风险和挑战也日益凸显,由此,“价值对齐”问题开始被广泛讨论和提及。针对当下AI价值对齐领域的重要问题和研究进展,本文将围绕以下四部分内容展开:首先介绍什么是AI价值对齐问题;其次探讨AI价值对齐存在哪些风险模型;继而展示价值对齐问题的可能解决思路或解决方案;最后将提及在价值对齐领域存在的讨论和争议,并展望人工智能价值对齐的未来。
小腾资讯君
2023/10/12
1.1K0
OpenAI 设立 Superalignment 团队:让 AI 对齐人类价值观,预防潜在风险
OpenAI 宣布成立一个专门的 Superalignment 团队,旨在防止流氓 Superintelligent AI 的出现。OpenAI 强调了使人工智能系统与人类价值保持一致的必要性,以及主动采取措施防止潜在危害的重要性。
深度学习与Python
2023/09/08
3300
OpenAI 设立 Superalignment 团队:让 AI 对齐人类价值观,预防潜在风险
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
本文约1200字,建议阅读5分钟本文提出了基于排序的人类偏好对齐方法。 OpenAI 的 ChatGPT 理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。自发布以来就掀起了对于通用人工智能的讨论。ChatGPT 令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。 RLHF 方法不同于以往传统的监督学习的微调方式,该方法首先让模型根据指令提示生成不同的回复,之后通过人工的评价反馈,使用强化学习的方式对 LLM 进行微调。RLHF 解锁了语言模型跟从人
数据派THU
2023/04/25
3480
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
继第一份大模型对齐技术报告(Secrets of RLHF in Large Language Models Part I)获 NeurIPS 2023 workshop best paper 后,第二份报告强势归来,复旦语言和视觉团队联合推出的第二份报告将进入这一领域更深层的探索和优化之旅。在首份报告中,复旦团队揭示了 RLHF 在大语言模型中的基本框架,并深入分析了 PPO 算法的内部机制,特别是 PPO-max 的高级版本在策略模型训练稳定性中的关键作用。
机器之心
2024/01/17
2250
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
推荐阅读
用GPT-2监督GPT-4,防止AI毁灭人类? OpenAI Ilya超级对齐团队首篇论文出炉
2310
GPT-2能监督GPT-4,Ilya带头OpenAI超级对齐首篇论文来了:AI对齐AI取得实证结果
3050
OpenAI内斗第二弹!Ilya亲信、超级对齐团队2人惨遭开除,被批泄密
1750
人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图
1660
用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划
4270
无需RLHF显著提升GPT-4/Llama2性能,北大团队提出Aligner对齐新范式
2990
MATRIX:社会模拟推动大模型价值自对齐,比GPT4更「体贴」
2560
好消息:OpenAI 突然发了新模型!坏消息:只是纠错,没你想得逆天
1440
四年、投入20%计算资源,OpenAI成立专门团队构建解决对齐问题的超强AI
2330
76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术
9020
AI大模型价值对齐:是什么,为什么,怎么做?
9490
Ilya官宣离职,超级对齐负责人Jan直接辞职,OpenAI还是走散了
1510
大型语言模型的幻觉研究|减轻及避免大模型LLM幻觉(二)
7870
AI日报:OpenAI向新用户重新开放ChatGPT Plus订阅
1790
质量>数量!数据对大型语言模型(LLM)整个生命周期的影响!
1.7K0
直面AI价值对齐挑战
2410
万字长文详解:大模型时代AI价值对齐的问题、对策和展望
1.1K0
OpenAI 设立 Superalignment 团队:让 AI 对齐人类价值观,预防潜在风险
3300
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊
3480
深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐
2250
相关推荐
用GPT-2监督GPT-4,防止AI毁灭人类? OpenAI Ilya超级对齐团队首篇论文出炉
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档