腾讯科技讯 6月10日,在“2023北京智源大会”上,加州大学伯克利分校计算机科学教授斯图尔特·罗素(Stuart Russell),发布了名为《AI:Some Thoughts》的演讲。
Russell教授用 ”数百次小的影响,机器会彻底改变一个人“ 开场。通过社交媒体偏好的影响,引出对机器智能认知的话题。对AI价值、发展方向、语言模型、未来潜力及风险等维度发表深度见解。他更是表示,人工智能发展势头不可阻挡,该行业急需要整体变革,否则未来很容易失控。
对人工智能的理解, Russell教授说到:“大众需要转换思路,要正确看待‘机器必须要超智能‘的观点。并强调,不能片面强调机器的”智能“,应向人类的绝对利益靠拢。机器必须深刻理解自身判断的局限性,并在行动中表达和向人类寻求这种不确定应如何解决,从而来保证人类对机器的绝对控制“。真正意义的大预言模型,在具有当前预测文本语言能力的同时,还应有和人类相似的,内在目标,来指导其语言选择的能力。
被问到“大语言模型是否会制定内部目标以更好地模仿人类?” Russell教授回复,“如果有,它们是什么?我们不知道”。如果机器想模仿人类,那么最简单的方法就是让大型语言模型也具有类似的内部目标,这些目标在了解许多其他目标的背景下生成,在对话过程中被激活,指导输出选择。
Russel教授用喝咖啡、刷墙、气候稳定一些实际案例,阐述机器不应内化人类的所有目标,而是需要理解人类目标,并做相应决策辅助;在理解目标的同时,需要遵循其他目标的限制和约束,避免达成单一目标,牺牲其他目标。
人工智能的进展迅猛,GPT表现出了某种程度上的目标追求与目标能力,需要对此高度重视。对于AI未来安全发展,Russell教授提出3点建议:“一要构建能理解的AI系统;二要利用技术来构建人工智能系统,而非涉及大量黑匣子;三要变革数字生态系统,防止不安全的人工智能系统被部署“。要解决AI可控与安全问题,发挥AI潜在益处,就需要全方位改变,不仅仅依靠监管,还需要整个AI领域的文化改变,形成安全标准与行业规范,这样才能长久稳定的发展下去。
以下为Stuart Russell现场演讲精华实录:
”数百次小的影响,机器会彻底改变一个人“
在未来,随着算法和人工智能的发展,你会成为更可被预测的内容消费者。
社交媒体将能更准确预测用户的内容偏好,并推送对应内容。许多评论员认为,这种预测趋势以及社交媒体推送对应内容的能力,已经对许多国家造成重大社会和政治动荡。因此,我们需要改变机器智能行为可以被预测并达成指定目标的认知。因为机器智能需要我们预先确定其目标和偏好,同时,我们也必须承担在设定目标时出现错误的风险。
对人工智能的理解,大众需要转换思路,需正确看待“机器必须要超智能“的观点。我们需要的是对人类有益而非超级智能的机器。外星人是非常智能的,但我们并不一定希望它们来到我们的星球。我们希望的是对人类有益的机器,即使这些目标对我们来说隐式地、不可能明确地正确地写下来。或者是我们不知道的某些目标、某些未来的偏好。都希望可以被预期实现。
解决问题很难,但是这个问题是正确且必须解决的,所以,在解决的过程中,需要设计机器遵循两个简单的原则:
首先,机器必须为人类的最大利益行事。
其次,机器必须知道这些最大利益是什么。
由于机器对人类的偏好、对未来持有不确定性,从而给了我们对机器的实际控制权。这就是我提出该问题的核心答案。可以将这些原则转化为数学定义的问题,称为“辅助游戏”。这里不做详细赘述。
当转化成数学问题时,这个解决方案就转化成了我们理解的一个智能系统。智能系统会展现出非常理想的特性。它服从人类,在不确定我们是否会满意这些变化的情况下,它会避免对世界进行改变。所以它会在采取可能对我们有害的激进变化前征求我们的允许。
在极端情况下,机器会避免做出任何会让我们想要关闭它的行为。如果我们想关闭它,它也希望被关闭,这些特征是非常理想的。特别是最后一个属性,是对机器拥有权力和控制权的核心。这种系统的建立是符合我们最大利益的。
接下来,简要谈谈大型语言模型,个人认为这是一个非常相关和紧迫的话题。
大型语言模型的设计目的是模仿人类的语言行为。它们被训练来预测下一个单词,而这个单词是由写作和说话的人类产生的。他们擅长产生了非常语法和连贯的文本,普通人几乎不可能相信,这个系统真的很聪明的情况下与它互动,因为文本的语法和连贯性创造了这种非常强大的幻觉。
当你读到一本书中一段写得很好的文字时,你不会认为这张纸很聪明。但是请记住,这些大型语言模型,在一定程度上比纸张更智能。它们在原始生成者和纸张之间的某个地方,但我们确实不知道它们在该光谱上的位置,但它们提供了非常强大的错觉,就像纸张通过展示人类编写的智能文本一样。
这里有个重要观点——人类语言行为。我们在写作和说话中有着各种各样的目标,可能是想当选高级公职、可能是想变得富有、可能是想让某个人爱上你。这些都是人们在写作和说话时具有的目标。
如果机器想模仿人类,那么最简单的方法就是让大型语言模型也具有类似的内部目标,这些目标在对话过程中被激活,指导着你的输出选择。就像我们训练一名足球运动员踢球一样,它会迅速学习到它应该试图进球。这是它通过观察人类踢球行为学到的内部目标。
大型语言模型是否具有内部目标?我问了微软论文《AGI的火花》的作者,答案是,我们不知道。
我们正在部署声称具有AGI火花的系统,这些系统与可能追求自己内在目标,与数亿人互动。在AI安全的当前状况,我们知道会发生什么,这些大型语言模型是否真的与人类保持一致。如果它们正在模仿人类行为,也许会产生一致性,这将是一个巨大的巧合。但遗憾的是,事实并非如此。
以人类喝咖啡的目标为例。AI系统系统获得喝咖啡的目标,这不是我们想要的。我希望机器人理解我想要咖啡,并为我泡一杯咖啡,而不是理解成它要喝咖啡。人工智能系统应理解人类目标,并基于此采取行动满足人类需求。我们不希望人工智能系统复制和内化人类目标,特别是那些可能成为“宇宙主宰”的目标。
另一种类型的目标,这是我可以接受的。比如我想刷墙,不介意机器人也一起想刷墙,这样就有两个人一起刷墙。比如减缓气候变化,其他人这样做也很好,但不是以排除其他所有事情为代价。如果系统通过删除所有人类来追求减缓气候变化的目标,即使这是一种非常有效的减缓气候变化的方式,但这并不是我们想要的。
共同目标,是我们了解许多其他目标的背景下共同追求的。
GPT是否真的能够追求目标?可以问问纽约时报记者凯文(Kevin),他曾经和一个聊天机器人进行了一次对话,聊天机器人非常努力地试图说服凯文离开他的妻子并娶聊天机器人,它在20页的 聊天中连续不断地追求这个目标。从总体上看,它们是可以追求目标的,并且它们具有内在的目标。
在2015年,我写了一封虚构的电子邮件,警告人类说,外星文明将在30-50年后到达地球。一封寄给联合国人类的电子邮件,人类的回复是:“人类目前不在办公室。我们回来的时候会回复您的邮件,并附上一个笑脸“。这是我在2015年感觉AGI很有可能在30-50年内到来的原因,而人类却没注意。
自那以后,GPT4被发布,约一周后,"火花"论文被发布,接着,未来生命研究所发布了一封公开信,呼吁暂停开发比GPT4更强大的系统的实验。
我认为人类最终回到了办公室。他们看到了来自外星文明的电子邮件,感到非常震惊,意识到必须采取行动,于是他们做了很多事情。中国政府已经作出了回应,美国政府也采取行动,欧盟呼吁召开紧急全球峰会。像Jeff Hinton这样的领先研究人员已经辞去了Google的职务,表达了他对AGI和人类未来的担忧。正如你们所看到的,Sam也对安全问题表示非常严重的关注。
对于AI发展,我也提出几个关于政策的建议。
首先,构建我们能够理解的AI系统。我们并不理解大型语言模型的工作原理。为了对安全性有信心,我们需要了解它的工作原理。
其次,利用技术来构建人工智能系统,而不涉及大量黑匣子。这些系统是基于语义、严格、组合式的系统设计训练的,而不是基于巨大的、超过人类能力的数据集。
再次,防止不安全的人工智能系统被部署,特别是由不良行为者故意或意外地部署。这需要整个数字生态系统的变革,从目前服务器运行任何软件的模式转变为计算机只有在知道该软件对象是安全的情况下才能运行。变革可以简化通用的网络安全问题,但是对于确保只有安全的人工智能系统被部署是必不可少的。
总的来说,人工智能对于人类有着潜在的巨大益处,其发展势头不可阻挡,但也存在失控风险。如果我们继续朝这个方向发展,将失去对自己未来的控制。我们也可以选择不同的方向,但技术方向的可行性和规模化的实用性,仍需进行大量的研究。
此外,该领域的整体性质需要发生重大变革。就像航空、核能等领域一样,必须在发布前满足严格的规定和安全标准才能投入使用,人工智能领域也需要如此。
这种变革不仅需要监管规定,还需要对我们这个领域的文化进行全面的变革。
谢谢大家!
领取专属 10元无门槛券
私享最新 技术干货