今年ChatGPT火爆之后,出现了一个奇怪的现象:随着用的人越来越多,GPT-3.5的能力变差了。所以很多人猜测,是不是GPT被用户玩坏了,数据被污染了?
结果微软发布的一篇论文破案了:不是GPT能力变差了,是GPT-3.5偷偷用了一个小模型来提供服务。
本来GPT-3.5用到的大模型是1750亿参数的,妥妥的大模型,模型的代号是:「text-davinci-003」。但是这么大的模型跑起来慢呀,消耗资源也非常多。
GPT-3.5后来换了一个小模型,只有200亿参数的,模型的代号是:「gpt-3.5-turbo」,这个小模型的参数量缩水到了1/10,但是能力没差多少。好处是性能特别快,价格还很低,只有原来大模型调用价格的1/10。
这下整个AI圈子炸锅了,特别是国内,破大防了。原来动辄千亿参数的大模型比拼,还可以自我安慰一下:反正我没那么多算力没那么有钱。现在一看:啥,百亿参数小模型我也能搞啊,大家在一个起跑线啊,你没做好,真没借口了。
这事的影响是很深远的:
对To B市场来说,GPT证明了小模型完全是能打的。用百亿参数的小模型做企业AI应用,成本就低多了,很多企业完全可以上船。这就极大鼓励了AI大模型的企业应用市场。
对To C市场来说,再等个一两年,智能手机和智能设备完全有可能跑百亿参数的小模型。当智能终端都能跑AI大模型的时候,我们才真正迎来智能时代的消费市场爆发。
领取专属 10元无门槛券
私享最新 技术干货