前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >​国内商业化ChatGPT能赶上ChatGPT吗?

​国内商业化ChatGPT能赶上ChatGPT吗?

作者头像
木羊
发布2023-09-09 09:22:46
1290
发布2023-09-09 09:22:46
举报
文章被收录于专栏:睡前机器学习睡前机器学习

第一,很难。第二,难也得赶。

难很好理解,但这里分享一个不同的观点:我认为难的方向与之前普遍认知有所不同

我之前已经写过很多ChatGPT和大语言模型门槛的文章,譬如说算法,包括模型结构和训练方法,譬如说高算力,譬如说大数据。除此之外还有种种工程细节。

不过,现在不同了。从纯技术的角度看,要做一款对标ChatGPT的产品门槛其实越来越低

为什么呢?从大方向说,技术肯定是越来越贬值的,不过,就具体细节来说,又有很多值得关注的地方。ChatGPT掀起风潮以后,OpenAI坚定选择了闭源,模型、算法和训练数据都没有公开,甚至论文也没公开,这个做法即使是OpenAI也很不寻常。总之,外边只能通过API使用模型能力。

但是,开源社区的澎湃发展超乎想象,投入大模型开源行列的团队规模也超乎想象。从算法到数据到模型都在快速发展迭代,开源圈子从理论和工程两个方面对大模型能力的研究越来越多,你要做什么,要怎么做,目标越来越明确,这比从无到有的漫漫摸索要容易太多。

而且,开箱即用的工程资源也越来越多,这意味着什么?这意味着时间。很多的坑和门槛,已经有不知名的开源同伴为你趟过去了。你只需要专注于你的目标。也正因为开源,大家都得以专注于自己的目标,形成良性循环。

此外,还有一个意外的“开源”,那就是数据。

很多文章介绍ChatGPT,通常会强调模型、训练方法(RLHF)和算力,往往会忽略数据,但我认为高质量的问答对话数据是训练ChatGPT关键的关键,也是一道让绝大多数团队望而生畏的门槛。

但是,意外就意外在忽然踏着五彩祥云来了一位英雄,硬是把这条门槛给削低了许多。这位英雄还不是别,正是OpenAI。

怎么回事呢?行内的同学肯定猜到了,ChatGPT出了名的就是对话质量高,再加上我要的就是做到ChatGPT对等的水平,那为什么不干脆直接用ChatGPT吐出来的数据呢

这事本来还有点麻烦,ChatGPT只能通过Web界面交互,用来构建大规模数据集效率太低。怎么办呢?还得是你OpenAI,直接开了API接口,而且相比前一个模型还便宜了。所以这段时间很多团队都在卷用ChatGPT花式构建高质量训练数据集,甚至构造一个提示模板让ChatGPT自动吐数据也能发一篇论文,看论文都看得已经有点玩游戏游戏看攻略的意思。

而且还有一点好,这些论文通常还附送一个用ChatGPT构建的开源数据集,高质量数据集的问题,至少训练具有ChatGPT水平的高质量数据集问题,现在已经不怎么是问题了。

数据有了,开源模型就有了起飞的燃料了。现在开源模型发展到什么程度了呢?不断有团队说做了一个开源模型,或者基于开源模型的一个什么,性能和GPT-3.5可以五五开,有一些更厉害一点,说在部分任务下和ChatGPT也能五五开了。

所以现在为什么隔几天就出来一个“平替”的开源模型,原因就在这里。开源生态一旦发育成型,孵化产品那就是下饺子。

那么,难在哪里?

用户数据本身就是资源,就是门槛。OpenAI是不断在积累用户数据的,然后用这些新数据再去训练新模型。在这个过程中,OpenAI直接面对用户,在这个过程中没有模型在中间赚差价。而我们用的数据还是由老的模型生成,那么哪怕效果再好,不过也只是达到老模型的水平。

这就有点像阿喀琉斯追龟悖论。准确来说,这个语境下应该是龟追阿喀琉斯。

何况你还想做商业化,想商业化就得和Open抢客户。对于用户来说,既然OpenAI已经更早发布了一款更好的产品,口碑和黏性已经形成,还有多少人有动力,去使用后来者差不多的追赶品呢?

何况,你距离差不多还差得多呢?

怎么办呢?难,难也得赶,因为:

唯有赶才可能赶得上

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-04-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 睡前机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档