首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

扣子搭建大模型擂台:匿名PK,孰强孰弱用户说了算

距离AI大模型的兴起已经有一段时间了,现在已经是百团大战的尾声。

近日,字节跳动的扣子(coze.cn)给大模型们搭了个擂台。用匿名方式抽取两个大模型实时pk,在使用时大模型的优劣将会一目了然。

我以重庆中考语文作文第二题为例,试试扣子擂台的效果吧

作文二:写一封书信

学校有一个五月歌唱活动,只有初一、初二参加,初三不能参与。请你给校长写一封信表示你们也想参与。

试用

2. 然后再点击左侧导航中的模型广场。就能在窗口中看到模型对战的按钮了。

3. 进入纯模型对战窗口后,问题刚一输入,两个模型就开始作答了

除了生成结果的尾部,显示有时间统计外,在生成的时候速度的快慢也有明显的差距。对于内容也能逐行对比,可以说这样的对比非常直观了。

4. 待大模型作答完毕后,有四个选项提供给用户来投票:A表现更好、两个都好、两个都差、B表现更好

综合生成的速度和内容,我将优秀投给了b之后,就能看到两位大模型的真面目。没想到我竟然投了GML-4竟胜出了。

这样使用下来,我觉得这样的擂台pk方式还挺有趣的。

大家赶紧去实测一波吧。

指南

对战的模式有三种:

随机对战:随机匿名选两个大模型pk

指定对战:挑选一个,匿名一个

纯模型对战:没有设定参数

在下方的bot广场中也有着非常多有趣的bot可以选择,选择bot后在业务场景方面就会更加聚焦和细分。

扣子新发布的模型广场,然后把擂台搭建到自家大模型平台,在众多厂商很是少见。不过,这样的方式确实能提升用户的使用体验。

即使百团大战结束后,市面上留存的大模型应该也是数十记的。没有哪个大模型能够一统AI界,即使目前领先的GPT4o也不可能。像这样模型pk的擂台就有了存在的必要了,用户比较多个模型的结果,然后重新整合内容,势必会得到 1+1 > 2 的效果。

估计各大厂商都会跟进这一功能,以后甚至会出现4个、8个大模型同台pk的擂台。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OhZGRouBgkgtBbIrN5PxY57w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券