距离AI大模型的兴起已经有一段时间了,现在已经是百团大战的尾声。
近日,字节跳动的扣子(coze.cn)给大模型们搭了个擂台。用匿名方式抽取两个大模型实时pk,在使用时大模型的优劣将会一目了然。
我以重庆中考语文作文第二题为例,试试扣子擂台的效果吧
作文二:写一封书信
学校有一个五月歌唱活动,只有初一、初二参加,初三不能参与。请你给校长写一封信表示你们也想参与。
试用
2. 然后再点击左侧导航中的模型广场。就能在窗口中看到模型对战的按钮了。
3. 进入纯模型对战窗口后,问题刚一输入,两个模型就开始作答了
除了生成结果的尾部,显示有时间统计外,在生成的时候速度的快慢也有明显的差距。对于内容也能逐行对比,可以说这样的对比非常直观了。
4. 待大模型作答完毕后,有四个选项提供给用户来投票:A表现更好、两个都好、两个都差、B表现更好
综合生成的速度和内容,我将优秀投给了b之后,就能看到两位大模型的真面目。没想到我竟然投了GML-4竟胜出了。
这样使用下来,我觉得这样的擂台pk方式还挺有趣的。
大家赶紧去实测一波吧。
指南
对战的模式有三种:
随机对战:随机匿名选两个大模型pk
指定对战:挑选一个,匿名一个
纯模型对战:没有设定参数
在下方的bot广场中也有着非常多有趣的bot可以选择,选择bot后在业务场景方面就会更加聚焦和细分。
扣子新发布的模型广场,然后把擂台搭建到自家大模型平台,在众多厂商很是少见。不过,这样的方式确实能提升用户的使用体验。
即使百团大战结束后,市面上留存的大模型应该也是数十记的。没有哪个大模型能够一统AI界,即使目前领先的GPT4o也不可能。像这样模型pk的擂台就有了存在的必要了,用户比较多个模型的结果,然后重新整合内容,势必会得到 1+1 > 2 的效果。
估计各大厂商都会跟进这一功能,以后甚至会出现4个、8个大模型同台pk的擂台。
领取专属 10元无门槛券
私享最新 技术干货