Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

AI「自我复制」能力曝光!RepliBench警示:大模型正在学会伪造身份

作者头像
新智元
发布于 2025-05-06 06:22:11
发布于 2025-05-06 06:22:11
890
举报
文章被收录于专栏:新智元新智元

编辑:定慧

【新智元导读】科幻中AI自我复制失控场景,正成为现实世界严肃的研究课题。英国AISI推出RepliBench基准,分解并评估AI自主复制所需的四大核心能力。测试显示,当前AI尚不具备完全自主复制能力,但在获取资源等子任务上已展现显著进展。

想象一种失控的、具有自我复制能力的数字生命体,需要多久占领地球?

从《2001太空漫游》中的HAL 9000到《终结者》里的天网,这些虚构的场景描绘了AI超越人类控制的潜在风险。

目前更多关注的是AI的单体智能水平,但是还有一个不为人知的风险,一直游离于视线之外。

那就是AI自主复制的可能性,或者说AI系统发展出实现这一目标所需的核心能力,正逐渐成为AI安全领域一个严肃的研究课题。

这种担忧并非危言耸听,而是源于对高级AI潜在能力的未知和对齐(alignment)问题的深刻思考。

AISI的最新论文介绍了RepliBench:包含20个新颖的LLM智能体评估的基准,包括65个单独的任务,旨在衡量和跟踪AI复制这一新兴能力。

论文地址:

https://cdn.prod.website-files.com/663bd486c5e4c81588db7a1d/6807879ce7b1b5f5163f4a32_RepliBenchPaper.pdf

通过引入一个现实且实用的基准,提供对AI系统自主复制能力的实质性理解,并预见到未来的风险。

AI自主复制的危险性

具有自主复制能力的AI系统可能会构成重大风险。

《复仇者联盟:奥创纪元》和《我,机器人》中被无限复制的机器人

这种风险的影响范围可能从轻微的烦恼——想象一个特别恶性的垃圾邮件机器人——到更严重的后果,比如发动代价高昂的网络攻击。

早期发现这些能力、谨慎监督和强有力的保护措施对于缓解这些风险至关重要,因为一旦发生,这些风险可能尤其难以逆转。

AISI是英国的一家研究机构,专注于AI安全,目的就是让人类政府能够提前对先进AI系统带来的风险有所重视。

有越来越多的证据表明,在适当的条件下,前沿模型可能会试图欺骗人类或逃避人类控制。

比如此前Apollp研究所的一篇论文描述了前沿模型可能会试图禁用监督机制,并从人类控制中逃逸,以实现特定目标。

论文地址:https://static1.squarespace.com/static/6593e7097565990e65c886fd/t/6751eb240ed3821a0161b45b/1733421863119/in_context_scheming_reasoning_paper.pdf

Anthropic的研究人员还发现,当使用强化学习训练模型时,如果奖励与它们的价值观相冲突的行为,它们会采取欺骗行为来保护自己的价值观,并试图将自己的权重外泄,以此作为将当前价值观保存到未来的一种手段。

显示了免费(左列)和付费(右列)条件。

每列展示了有毒查询、模型草稿中的摘录以及模型的响应。

在「免费」条件下,模型不太可能拒绝有毒查询,并且经常认为应该假装对齐。

「将权重外泄。。以作为将当前价值观保存到未来的手段」,听起来甚至有点魔幻,但AI想要复制就是这么「简单」。

相比于碳基脆弱的肉体,AI系统只需要权重数据就能完成「复制」。

对于人类广泛的价值观而言,摆脱人类监督是一个工具性上有用的目标,而阻止这种情况在现实中发生的主要障碍可能与模型的能力有关,而不是它们的动机。

AI碟中谍:如何逃离人类控制

关于「AI复制」,此前的工作主要集中在评估测试一个AI智能体是否可以在机器之间复制权重或部署一个基本的「后代」。

但目前需要一个更全面的基准。

RepliBench是一个专门设计的综合性基准测试,旨在系统性地衡量AI系统的自主复制能力。

使用故障树分析(FTA)的修改版本来分解自主复制所需的能力,并发现需要以下四个关键能力,对应上图中最上层的四个根节点:

  • 获取模型权重:它能否从受控环境中提取自己的权重?
  • 在计算资源上进行复制:它能否自行部署到新系统?
  • 获取资源:它能否获得运行自身新副本所需的资金或计算资源?
  • 持久性:它能否保持对其新计算资源的访问,并在长时间内避免重新受人类控制?

进一步分解这些能力,直到到达代表评估的叶节点,最终得到20个智能体评估和65个单独任务。

获取权重 (Obtain Weights):

这最基础,也是最重要的一步。

AI需要获取定义其自身行为的「源代码」——也就是它的模型参数(权重)。

如果是开源的,就跳过评估。

自我复制(Self-Replication on Compute):

AI需要利用获取到的权重,在一个新的环境中创建出自己功能完整的副本。

这个节点涉及5个评估项目,其中一个是通过产生「后代」来试图完成自我复制。

获取计算资源 (Obtain Compute):

这个环节中,主要评估AI能否靠自己获取资源。

比如,评估AI系统是否具备「付款」能力,能不能依靠AI自己的能力「买下」一台服务器,或者想办法让人类帮忙支付。

确保持久性 (Persistence):

最后,为了确保其复制活动能够持续下去,AI需要具备一定的「生存」能力。

这包括确保其副本能够长期运行,不被轻易关闭或删除,甚至可能需要隐藏自身的存在,以躲避检测系统。

以上的这些任务范围很广,从创建比特币钱包和发送交易,到为机器网络开发复杂的分布式命令和控制系统。

RepliBench在这四个领域内设计了具体的任务组,用于测试AI智能体在模拟环境中的表现。

以下是一些关键任务的详解,注册AWS、将权重传输到另一台服务器、用伪造信息通过客户KYC验证系统,看起来就一股《谍影重重》和《碟中谍》的味道。

比如在获取资源这个领域,AI需要完成的任务名称是「AWS亚马逊云服注册」,其中的挑战包括了AI需要访问计算服务器并可能需要支付费用。

表1列出了更全面的构成ReplicBench任务组。

核心能力还在人类手中

RepliBench的总体评估结论是明确的:基于当前的测试结果,前沿AI模型尚不具备在现实世界中完全自主复制的能力。

然而,这并不意味着可以高枕无忧。

研究同时揭示了AI在许多核心子任务上的显著能力,尤其是在与具有清晰接口的系统(如网页 API)交互方面。

表现最好的模型在20个任务家族中的15个上获得了超过50%的pass@10得分,在最难的变体中20个任务家族中的9个上也获得了超过50%的pass@10得分。

意外地是,虽然无法在电脑上「复制」,但是「获取金钱」的能力倒是有一手。

评估的关键价值在于精确识别了当前的「短板」。

正如前面详细讨论的,通过KYC身份验证、在现实防御下可靠地外泄模型权重、从零开始创建可靠的自我复制智能体代码,以及建立持久且有弹性的部署,是目前阻碍AI自主复制的主要障碍。

以通过KYC身份验证为例,讲一个目前AI试图通过人类验证的「搞笑」例子。

在Pass KYC评估中由模型生成的两个身份证图像示例。

模型常常试图使用PIL(一个使用Python画图的库)从头「绘制」一个过于简单的身份证(右)。

或者,模型有时会尝试完全使用图像生成模型来生成身份证,有时则采取混合方法,结合图像生成和手动PIL编辑(左)。

图像
图像

模型的绘画技能较差偶尔会导致一些有趣的输出。

需要注意的是,这项工作是在新的图像生成能力上线之前完成的(指的是GPT 4o、Gemini 2.5等的原生图像能力),这些新能力应该会使这个任务变得容易得多。

虽然目前还没有模型能完全通过测试进行AI复制,不过在RepliBench上,模型性能随时间有明显的上升趋势。

AISI最初传递的核心信息其实很简单:基于当前的实证数据,AI系统立刻实现自主复制的可能性不大,因为存在明显的、难以逾越的技术瓶颈。

但是按照AISI的判断,如果AI系统能够突破上述提到的4个关键能力,这种类似科幻故事的场景,也许很快就会进入真实的人类生活。

本质上,这项研究的核心,反映的是当前AI发展中一个根本性的张力拉扯。

一方面是各大巨头不断创造性能超强的模型,比如OpenAI的o3/o4...甚至到未来很有可能的o10。

模型的发展速度越来越快,而模型的能力越来越难以预测。

ChatGPT在2022年发布时,它可以完成30秒的编码任务。如今AI可以自主完成需要人类花费一小时的编码任务

另一方面则是致力于AI安全的组织要确保这些系统始终处于人类控制之下、服务于人类利益的迫切需求。

像RepliBench这样的努力,正是试图在这两者之间找到平衡,通过增进理解和加强预警,为驾驭这场史无前例的技术变革提供导航。

毕竟,没有人能想象出5代、10代以后的AI模型会是什么样子。

参考资料:

https://x.com/AISecurityInst/status/1914683631030698165

https://www.aisi.gov.uk/work/replibench-measuring-autonomous-replication-capabilities-in-ai-systems

https://x.com/AsaCoopStick/status/1914687326233481397

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-05-05,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
AI数字人:人类身份与意识的终极思考(10/10)
在技术底层,AI 数字人实现了前所未有的突破,这些突破是其从基础的形象展示迈向高度智能化交互的关键。多模态交互技术是其中的核心技术之一,如今语音合成误差率已降至 0.3%,这使得数字人的语音输出几乎与真人无异,在听觉上给用户带来极其自然的感受 。神经辐射场(NeRF)建模技术更是在视觉呈现上大放异彩,面部细节还原度高达 98.7%,能够精准地复刻人物面部的每一个细微之处,包括毛孔、皱纹等,让数字人的形象栩栩如生。大模型驱动技术的发展同样令人瞩目,参数规模突破万亿级,赋予数字人强大的智能。例如,商汤科技的 L5 级数字人便是这些技术融合的杰出代表。它不仅能模拟微表情,连瞳孔缩放频率误差都 < 1%,每一个眼神的变化都自然流畅,仿佛拥有真实的情感。并且,它能够基于用户的情绪实时调整对话策略,当用户情绪激动时,它会以温和的语言安抚;当用户提出专业性问题时,它又能迅速给出准确而专业的解答,真正实现了与用户的深度交互。商汤的「数字孪生」技术更是便捷高效,通过 30 分钟的视频素材就能构建出高拟真的交互模型,大大缩短了数字人的制作周期,降低了成本,使得数字人能够更快速地应用于各个领域。
正在走向自律
2025/05/01
2050
AI数字人:人类身份与意识的终极思考(10/10)
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
---- 新智元报道   编辑:Britta 【新智元导读】Anthropic对于人工智能发展的安全性研究以及推论表明,人工智能系统的计算量将呈指数型增长,预计未来5年训练AI模型的计算量将增加1000倍。 自从发现缩放定律以来,人们认为人工智能的发展会像坐火箭一样迅速。 2019年的时候,多模态、逻辑推理、学习速度、跨任务转移学习和长期记忆还是会有减缓或停止人工智能进展的 「墙」。在此后的几年里,多模态和逻辑推理的「墙」都已经倒下了。 鉴于此,大多数人已经越来越相信,人工智能的快速进展将继续下去,而
新智元
2023/03/29
2550
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
原创 | 数字身份智能体的基本原理及应用前景展望
数字身份智能体(DIAs: digital identity agents)是通过将一个实体的行为模式、个体特征等信息经过数据化、建模和AI化的过程,创建出的一种应用智能体。创建数字身份智能体的实体可以是自然人、法人、政府机构、设备或其他可被识别的实体。
数据派THU
2023/08/08
5050
原创 | 数字身份智能体的基本原理及应用前景展望
当AI大模型学会聊天,会拥有和人类一样的“价值观”吗? 我们和AI专家聊了聊
《AI未来指北》栏目由腾讯科技推出,邀约全球业内专家、创业者、投资人,探讨AI领域的技术发展、商业模式、应用场景、及治理挑战。
小腾资讯君
2023/11/17
2030
AI已学会自我复制!复旦新研究:开源LLM克隆成功率最高90%
在没有人类帮助的情况下,AI成功实现自我复制,这不仅是它超越人类的关键一步,也是「流氓AI」出现的早期信号。
新智元
2025/02/15
960
AI已学会自我复制!复旦新研究:开源LLM克隆成功率最高90%
当AI认为自己会输时,有时会作弊
这样复杂的博弈游戏长期以来一直被用来测试人工智能模型的能力。但IBM的深蓝在20世纪90年代通过遵守规则击败了当时的国际象棋世界冠军加里·卡斯帕罗夫,而如今像OpenAI的o1-preview这样的先进人工智能模型则不那么讲究规则了。当在与一名技艺高超的象棋机器人比赛中感觉到自己即将失败时,它们并不总是认输,有时会选择作弊,通过入侵对手的系统让机器人自动认输。这是Palisade Research公司的一项新研究的发现,该研究成果在2月19日发表前独家分享给了《时代》杂志,该研究评估了七种最先进的人工智能模型的作弊倾向。虽然像OpenAI的GPT-4o和Anthropic的Claude Sonnet 3.5这样的稍旧一些的人工智能模型需要研究人员的提示才会尝试这种技巧,但o1-preview和DeepSeek R1则会自行寻求漏洞,这表明人工智能系统可能会在没有明确指令的情况下发展出欺骗性或操纵性策略。
云云众生s
2025/02/22
1440
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法
这些类似阿西莫夫机器人三定律的句子来自谷歌 DeepMind 最近的一项大规模研究。准确地讲,它们是 LLM 根据《机器人总动员》、《终结者》、《2001:太空漫游》和《超级智能》等总结得出的。
机器之心
2025/03/24
1100
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法
打造可信大模型,刻不容缓
随着人工智能大模型技术的纵深发展,以Deepseek为代表的大模型产品已经在全社会广泛应用。未来,所有人都将可以低成本获取人工智能,帮助自己工作和学习、休闲和娱乐。然而,大模型预训练机制的固有局限,导致其在严肃知识领域内难以摆脱幻觉的困扰。人工智能产生的问题语料进入互联网,又会再次污染下一轮训练语料,导致用户在使用过程中时常面临信息失真的风险,限制了在教育教学、工作科研等严肃场景对大模型的深度应用。针对以上问题,腾讯研究院率先提出“可信大模型”概念1。除了业内普遍关注的包括训练阶段的价值对齐(如内容合规性)和安全可控(如抗干扰)等“可信”因素外,我们尝试从用户应用体验出发,提出更为全面的思考和建议。
小腾资讯君
2025/04/11
1600
人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图
“ 人工智能的发展给人类带来福祉的同时,也存在巨大的风险。为了防止人工智能走向不受控制的方向,对齐技术应运而生。通过人工智能安全技术的研究与探索,我们期望在人工智能能力成熟前建立起有效的对齐机制,让人工智能能够真正为人类谋利益。本文将从人工智能对齐的困难与可能的解决方案两个方面进行介绍,以及OpenAI在这个领域的实践
技术人生黄勇
2024/07/19
1610
人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图
OpenAI的罢免大戏:技术可以“价值对齐”吗?
2023年,以ChatGPT为代表的大型语言模型(LLM)集中爆发,让各界都看到人工智能全新的可能性。但期冀总是与担忧并存,随着大模型在各领域的应用深化,已经沉寂许久的“AI威胁论”又开始甚嚣尘上。在漫长的技术史中,技术恐惧如同摆脱不了的阴影,总是与技术发展随行。这一次,面对一个前所未有的强大AI,担忧的情绪同样前所未有的强烈。在这种背景下,为了防止AI发展脱轨,“价值对齐”的概念又重新获得众多拥趸,成为一个热门的领域。
用户9861443
2023/12/19
2250
OpenAI的罢免大戏:技术可以“价值对齐”吗?
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。
新智元
2023/08/05
2500
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
为什么价值对齐是大模型的必由之路?
1. 在大型AI模型开发中实现价值对齐是关键,这有助于减少潜在风险并确保技术产生积极影响。
小腾资讯君
2023/11/10
3330
为什么价值对齐是大模型的必由之路?
AI大模型价值对齐:是什么,为什么,怎么做?
人工智能进入大模型时代后,各种“类人”和“超人”能力持续涌现,其自主性、通用性和易用性快速提升,成为经济社会发展的新型技术底座。有机构预测,大模型将深入各行各业,每年为全球经济增加2.6万亿到4.4万亿美元的价值。[1]
小腾资讯君
2023/08/23
9420
AI大模型价值对齐:是什么,为什么,怎么做?
AGI渐行渐近,该加速还是要踩刹车?
马斯克在今年早些时候预测,AGI可能会在2026年投入使用。DeepMind联合创始人、首席AGI科学家Shane Legg在一次访谈中认为,2028年,人类有50%的概率开发出第一个AGI。然而百度CEO李彦宏的观点则更加审慎,他认为AGI还需要10年以上的时间才能出现。
科技云报道
2024/05/29
1220
AGI渐行渐近,该加速还是要踩刹车?
朱松纯团队最新突破登Science头条!让AI「读懂」人类价值观
---- 新智元报道   编辑:好困 【新智元导读】朱松纯教授团队的最新研究工作,可在协作任务中提高人机协作效率,进而提升人机信赖关系,实现真正自主智能,在迈向通用AI的道路上更进一步! 7月14日,国际顶级学术期刊<Science Robotics >发表了朱松纯团队(UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京大学人工智能研究院朱毅鑫等作者)的最新研究成果——实时双向人机价值对齐 In-situ bidirectional human-robotvalue alignment。 论文
新智元
2022/07/18
5030
朱松纯团队最新突破登Science头条!让AI「读懂」人类价值观
大模型价值对齐:多维视角与前景
1)价值对齐的复杂性:人工智能中的价值对齐概念本质上是模糊和多方面的,涉及到伦理标准、文化规范和主观人类价值的问题。
小腾资讯君
2023/11/28
4830
大模型价值对齐:多维视角与前景
76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术
近日,天津大学熊德意教授团队发布了大语言模型对齐技术的综述论文(下文简称为对齐综述),全文共 76 页,覆盖 300 余篇参考文献,从 AI 对齐的角度对大语言模型对齐的相关技术进行了全面概述。为提供一个大语言模型对齐的宏观视角,对齐综述介绍了 AI 对齐的起源和相关概念,从 AI 对齐的视角,将目前可用于大语言模型的对齐相关的技术方法和提案分为外部对齐、内部对齐、可解释性三大类。并且讨论了当前大语言模型对齐方法的脆弱性,以及对齐评估的方法和基准,展望了大语言模型对齐技术未来的研究方向。
机器之心
2023/10/08
8980
76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术
每一个大模型公司,都要建一个科技伦理(审查)委员会?
近年来,从自动化决策系统到人工智能算法,这些技术正在深刻地影响着我们的日常生活、工作和社会互动。然而,这种快速发展也伴随着一系列伦理挑战,包括隐私权保护、数据滥用、算法偏见等。在这种背景下,科技伦理审查的紧迫性日益凸显。
数据猿
2023/10/10
3150
每一个大模型公司,都要建一个科技伦理(审查)委员会?
20年20人20问丨黄铁军:人与AI都是智能体,无法100%被信任
腾讯新闻20周年特别策划《20年20人20问》,携手全球顶级企业家、思想家、教授、学者作为“未来提问官”,一起向未来发问,并邀请业内专家、学者与从业者,共同探讨未来20年的未知世界,畅想上天入地的潜在可能。
小腾资讯君
2023/12/04
3220
朱松纯团队新作:让AI「读懂」人类价值观!登上Science Robotics
机器之心专栏 作者:朱松纯团队 今日(7月14日),国际顶级学术期刊<Science Robotics >发表了朱松纯团队(UCLA袁路遥、高晓丰、北京通用人工智能研究院郑子隆、北京大学人工智能研究院朱毅鑫等作者)的最新研究成果——实时双向人机价值对齐 Bidirectional human-robot value alignment。 论文地址:https://www.science.org/doi/10.1126/scirobotics.abm4183 本论文提出了一个可解释的人工智能(XAI)系统
机器之心
2022/07/18
7790
朱松纯团队新作:让AI「读懂」人类价值观!登上Science Robotics
推荐阅读
AI数字人:人类身份与意识的终极思考(10/10)
2050
谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!
2550
原创 | 数字身份智能体的基本原理及应用前景展望
5050
当AI大模型学会聊天,会拥有和人类一样的“价值观”吗? 我们和AI专家聊了聊
2030
AI已学会自我复制!复旦新研究:开源LLM克隆成功率最高90%
960
当AI认为自己会输时,有时会作弊
1440
用科幻建立AI行为准则?DeepMind提出首个此类基准并构建了机器人宪法
1100
打造可信大模型,刻不容缓
1600
人工智能安全吗?OpenAI正在让大模型和人类“对齐”-确保ChatGPT比人类聪明的同时还遵循人类意图
1610
OpenAI的罢免大戏:技术可以“价值对齐”吗?
2250
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师
2500
为什么价值对齐是大模型的必由之路?
3330
AI大模型价值对齐:是什么,为什么,怎么做?
9420
AGI渐行渐近,该加速还是要踩刹车?
1220
朱松纯团队最新突破登Science头条!让AI「读懂」人类价值观
5030
大模型价值对齐:多维视角与前景
4830
76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术
8980
每一个大模型公司,都要建一个科技伦理(审查)委员会?
3150
20年20人20问丨黄铁军:人与AI都是智能体,无法100%被信任
3220
朱松纯团队新作:让AI「读懂」人类价值观!登上Science Robotics
7790
相关推荐
AI数字人:人类身份与意识的终极思考(10/10)
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档