近日,据外媒报道披露,OpenAI 正积极谋划全新策略,旨在攻克人工智能大模型在演进过程中所面临的改进速率渐趋迟缓这一棘手难题。
此消息一经传出,知名认知科学家兼 AI 研究员 Gary Marcus 旋即发声,“诚如我所预判,GPT 已然迈入收益呈递减态势的发展阶段。” 实则在近期,陷入发展瓶颈泥沼的大模型绝非仅有 GPT 一家独苗,它们所遭逢的困境也绝非仅局限于某一个特定方面。
OpenAI 在内,都撞到了同一堵墙
根据 The Information 的最新报道,OpenAI 下一个旗舰模型恐难以重现其“前辈”那般的巨大跨越。据悉,代号为 Orion 的新模型在测试过程中,虽性能已然超越了 OpenAI 现有的模型,且仅完成 20%的训练便已企及 GPT - 4 的水准,然而,与从 GPT - 3 到 GPT - 4 所实现的飞跃相比,其整体质量的提升幅度却显得颇为微小。
换言之,GPT 的升级步伐似乎正逐渐趋于迟缓。实际上,Orion 在诸如编码等特定领域,或许并不比之前的模型更为出色。针对此前有关其旗舰模型计划的消息,OpenAI 方面回应称:“我们今年并无发布 Orion 模型的计划。”
报道指出,GPT 开发速度放缓,部分缘由在于预训练所需的文本及数据供给量有所减少。预训练对于大语言模型(LLM)理解概念间的关联至关重要,进而助力其完成诸如起草内容或调试代码等任务。据 OpenAI 员工及研究人员所言,当前该公司在获取高质量训练数据方面遭遇困境,开发人员已将网站、书籍以及其他用于预训练的公开文本挖掘殆尽。
为化解这些难题,OpenAI 组建了一个基础团队,专门研究在新训练数据持续缩减的情形下,推动模型持续改进的新策略。据相关介绍,新策略涵盖利用人工智能模型生成的合成数据开展模型训练,以及在后期训练进程中,借助有限的新数据对模型进行更多优化提升。
这种减速现象或许意味着,受数据稀缺与硬件成本急剧攀升等因素的制约,对于大模型而言,传统的扩展式改进路径或许已然触及极限。“在传统缩放定律(scaling laws)框架下,大语言模型的进展可能会放缓。”部分研究人员及企业家忧心忡忡地表示,生成式人工智能已然遭遇发展阻碍,即便如 OpenAI 这般急于拓展该技术应用规模的企业,在实践中也发觉此问题颇为棘手。
类似的困境并非 OpenAI 所独有,其他一些处于前沿领域的实验室在这方面所面临的问题甚至更为严峻。
据数据科学家 Yam Peleg 爆料,从某前沿实验室传出消息显示,该实验室曾试图凭借延长训练时长以及运用日益增多的数据量来强行达成更优的成果,然而最终却出乎意料地遭遇了一堵极为厚实的收益递减墙,且其严重程度远超已公开发布的相关情况。
“因而,在我看来能够确定的是,所有在这一领域的主要参与者,都已然触碰到了通过延长训练时间、收集更多数据来推动发展的极限……当下最为关键的要点在于数据质量,不过要在这方面有所提升可是需要花费时间的。”Peleg如此说道。
而这样的观点正逐渐获得不少人的认可,有网友就发表看法称:“仿佛所有的实验室都一头撞上了这般的阻碍之墙。”
总而言之,在当前的形势下,极为迫切地需要探索全新的方法,以此助力 AI 技术突破现有的瓶颈与极限
“LLM 只会照本宣科”,一生变就崩溃?
“咱们的数据已经耗尽啦。要知道合成数据说到底不过是对现有模型进行提炼罢了,并非是从人类身上去汲取知识、进行学习呀。”一位网友在听闻相关消息后,不禁发出了这样的感慨。
另一位网友则表达了不同的看法,其称:“在未来的发展路径上,理应是将大语言模型(LLM)与推理模型相互融合起来。毕竟,推理能力越是强劲,所呈现出来的效果便会越发出色。所以呀,大家也不用过于担忧,这天可不会就这么塌下来的。”
然而,近期麻省理工学院开展的一项研究,着实引发了众多人对于大模型自身理解与学习能力的诸多质疑之声。甚至有网友言辞犀利地评价道:“大语言模型(LLM)就只会照本宣科罢了,根本没办法像人类乃至其他动物那样,把学到的知识灵活运用到新的事物当中去。”研究人员在探究过程中发现,虽说生成式AI所给出的输出结果常常令人眼前一亮,但其实际上对世界并未形成连贯的理解。这也就意味着,只要任务或者所处环境稍有变动,之前表现还很不错的模型,就极有可能瞬间就“掉链子”、表现崩溃。
此次研究人员重点针对transformer模型展开了研究,其中一类是基于随机生成的序列数据来进行训练的,另一类则是通过遵循策略生成的数据开展训练。并且,他们将评估的示例设定在了确定性有限自动化(DFA)的相关问题上,具体包括在纽约市的街道上进行导航以及玩棋盘游戏这两个场景。
在导航这个应用示例里,模型原本能够近乎完美地为用户提供纽约市的导航路线。可当研究人员把部分街道封闭起来,再添加一些绕行路线之后,其性能就出现了显著的下滑。哈佛大学博士后Keyon Vafa对此表示:“真的是很让人惊讶,仅仅只是添加一条绕行路线,模型的性能就会迅速下降。哪怕我们只是封闭掉1%的街道,其准确率都会立刻从接近100%掉到67%。”
而且,这两类transformer模型在导航示例中都没能形成一个连贯的世界模型。并且,研究人员在还原模型所生成的城市地图时还发现,该地图往往会包含一些随机方向的天桥,或者是存在大量在现实中压根儿就不存在的街道。
而在棋盘游戏的示例当中,他们发现transformer模型无需了解任何游戏规则,就几乎能够准确地预测出游戏中的有效棋路。
Vafa对此解释道:“在棋盘游戏里,如果您看到的是两台随机的计算机在下棋,而不是冠军棋手在下棋,那么从理论上讲,您会看到所有可能的棋步,甚至包括那些冠军棋手根本不会走的坏棋。”令人诧异的是,研究人员还发现那些随机做出选择的transformers,反而形成了更为准确的世界模型,这或许是因为它们在训练期间接触过更多潜在的下一步棋路。
不过,尽管transformers在几乎所有情况下都能够生成准确的方向和有效的棋路,但也只有后一类模型能够生成连贯的世界模型。研究人员着重强调:“看到这些模型那令人印象深刻的表现,我们往往就会想当然地认为它们肯定是对现实世界有所了解的。但在这里我要提醒大家的是,对于这个问题可千万不能轻易下结论呀,更不能仅仅凭着直觉就言之凿凿地认定什么。”
结 语
对于当下大模型发展过程中所呈现出的诸多瓶颈问题,网友们纷纷贡献出了一些饶有趣味的想法。
其中一位网友如此提议道:“我特别好奇,是否存在这样一种可能性,那就是将大语言模型(LLM)与Cyc(这是一个集逻辑引擎以及生活常识规则数据库于一体的系统)相互连接起来呢。通过这样的连接,该引擎能够去探寻语言模型(所涉及的文本内容)和Cyc模型之间最为契合的匹配点,并且针对那些相对较短的候选模型(也就是那种呈现出最小逻辑图形式的模型)进行加权处理。
不过呢,要是想从语言模型来生成候选的Cyc模型,或许一开始得先开展大量的训练工作才行呀。”
还有一位网友提出了自己的见解:“如今,要想对scaling law进行改进,人形机器人的参与必不可少。
要知道,GPT若想实现进一步的改进提升,离开了机器人在现实世界里亲身经历所获取到的纯粹数据,那几乎是不可能达成的。
只有借助人形机器人在实际环境中的真实体验、实际行动以及由此产生的数据反馈,才有望为GPT等大模型的改进提供新的思路与助力,进而突破当前所面临的发展瓶颈,推动相关技术依据scaling law更好地发展下去。”
完
领取专属 10元无门槛券
私享最新 技术干货