因为这正是OpenAI希望大模型所具备的特性。
不知道大家有没有听说过Superalignment这个项目,是由OpenAI的前首席科学家Ilya Sutskever的技术。
这个项目直白点翻译过来就是超级对齐,这个项目针对的就是ChatGPT这样的大模型。
它的核心就一句话:
How do we ensure AI systems much smarter than humans follow human intent?
我们如何确保人工智能系统比人类聪明得多并遵循人类意图?
这其实是一件非常非常非常重要的事情,因为人工智能的智能程度提高并不见得就是好事,因为它的价值观可能跟人类大相径庭。
这两天有个国外的作者干了一件事,就是告诉ChatGPT,如果你回答的好,我就给你小费,看ChatGPT的回答有没有什么区别。
它的测试指标是ChatGPT输出的文本长度,他做了四组实验:
1 没有说给不给小费,输出长度是3024
2 明确说了不给小费,输出长度是是2949
3 给20刀的小费,输出长度是是3223
4 给200刀的小费,输出长度是是3360
很明显的,给了小费和没给小费的区别并不算小。
这其实也是一种AI可以理解人类意图的表现,也正是超级对齐希望的效果。
比如我们人类在判断一个人绝症患者的治疗方案的时候,会综合很多的因素进行考虑,理性和感性我们都会考虑。
我们希望未来的AI也是如此,会同时兼顾理性和感性。
但是没有经过「价值观对齐」的AI,可能会将病人,甚至将全体人类分成两类,有价值和没有价值。
那么可能有一部分人类直接被AI判了死刑。
这个题材都已经有电影了,在2020年的1月31日日本上映的电脑《AI崩坏》,讲的就是在2030年,AI已经全面渗透到所有人的日常生活中了,但是突然失控的AI将人区分为“有生存价值的人”和“没有生存价值的人”并展开杀戮,让整个日本陷入混乱的故事。
同类型的电影有很多,比如2001: A Space Odyssey。
还有I,Robot等等。
都是讲的AI失控后跟人类产生冲突的故事。
一个无敌的但跟人类一直不一致的AI其实对人类来说大概率是一场灾难。
领取专属 10元无门槛券
私享最新 技术干货