国内商业化ChatGPT能赶上ChatGPT吗？

木羊

发布于 2023-09-09 09:22:46

1480

文章被收录于专栏：睡前机器学习睡前机器学习

第一，很难。第二，难也得赶。

难很好理解，但这里分享一个不同的观点：我认为难的方向与之前普遍认知有所不同。

我之前已经写过很多ChatGPT和大语言模型门槛的文章，譬如说算法，包括模型结构和训练方法，譬如说高算力，譬如说大数据。除此之外还有种种工程细节。

不过，现在不同了。从纯技术的角度看，要做一款对标ChatGPT的产品门槛其实越来越低。

为什么呢？从大方向说，技术肯定是越来越贬值的，不过，就具体细节来说，又有很多值得关注的地方。ChatGPT掀起风潮以后，OpenAI坚定选择了闭源，模型、算法和训练数据都没有公开，甚至论文也没公开，这个做法即使是OpenAI也很不寻常。总之，外边只能通过API使用模型能力。

但是，开源社区的澎湃发展超乎想象，投入大模型开源行列的团队规模也超乎想象。从算法到数据到模型都在快速发展迭代，开源圈子从理论和工程两个方面对大模型能力的研究越来越多，你要做什么，要怎么做，目标越来越明确，这比从无到有的漫漫摸索要容易太多。

而且，开箱即用的工程资源也越来越多，这意味着什么？这意味着时间。很多的坑和门槛，已经有不知名的开源同伴为你趟过去了。你只需要专注于你的目标。也正因为开源，大家都得以专注于自己的目标，形成良性循环。

此外，还有一个意外的“开源”，那就是数据。

很多文章介绍ChatGPT，通常会强调模型、训练方法（RLHF）和算力，往往会忽略数据，但我认为高质量的问答对话数据是训练ChatGPT关键的关键，也是一道让绝大多数团队望而生畏的门槛。

但是，意外就意外在忽然踏着五彩祥云来了一位英雄，硬是把这条门槛给削低了许多。这位英雄还不是别，正是OpenAI。

怎么回事呢？行内的同学肯定猜到了，ChatGPT出了名的就是对话质量高，再加上我要的就是做到ChatGPT对等的水平，那为什么不干脆直接用ChatGPT吐出来的数据呢？

这事本来还有点麻烦，ChatGPT只能通过Web界面交互，用来构建大规模数据集效率太低。怎么办呢？还得是你OpenAI，直接开了API接口，而且相比前一个模型还便宜了。所以这段时间很多团队都在卷用ChatGPT花式构建高质量训练数据集，甚至构造一个提示模板让ChatGPT自动吐数据也能发一篇论文，看论文都看得已经有点玩游戏游戏看攻略的意思。

而且还有一点好，这些论文通常还附送一个用ChatGPT构建的开源数据集，高质量数据集的问题，至少训练具有ChatGPT水平的高质量数据集问题，现在已经不怎么是问题了。

数据有了，开源模型就有了起飞的燃料了。现在开源模型发展到什么程度了呢？不断有团队说做了一个开源模型，或者基于开源模型的一个什么，性能和GPT-3.5可以五五开，有一些更厉害一点，说在部分任务下和ChatGPT也能五五开了。

所以现在为什么隔几天就出来一个“平替”的开源模型，原因就在这里。开源生态一旦发育成型，孵化产品那就是下饺子。

那么，难在哪里？

用户数据本身就是资源，就是门槛。OpenAI是不断在积累用户数据的，然后用这些新数据再去训练新模型。在这个过程中，OpenAI直接面对用户，在这个过程中没有模型在中间赚差价。而我们用的数据还是由老的模型生成，那么哪怕效果再好，不过也只是达到老模型的水平。

这就有点像阿喀琉斯追龟悖论。准确来说，这个语境下应该是龟追阿喀琉斯。

何况你还想做商业化，想商业化就得和Open抢客户。对于用户来说，既然OpenAI已经更早发布了一款更好的产品，口碑和黏性已经形成，还有多少人有动力，去使用后来者差不多的追赶品呢？

何况，你距离差不多还差得多呢？

怎么办呢？难，难也得赶，因为：

唯有赶才可能赶得上。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-04-23，如有侵权请联系 cloudcommunity@tencent.com 删除