首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

测试|讯飞星火升级,能力有很大提升,不再一本正经胡说

6月9日,讯飞星火认知大模型发布,内容详见:

新闻通稿表明:

讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。

但是事实是不是这样?我们还是全面测试才能了解。

一、测试内容

在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:

这些文章全面的测试国内两大大模型在5个方面的能力,今天,我们依旧选择上次测试中的一些用例,特别是上次讯飞星火完成欠佳的测试用例,看看是不是有提升,提升了多少。

二、语言理解能力

通过测试,我确定了,对于讯飞认为的不适合回答的问题,他都拒绝回答,同时,从测试结果来看,1.5版本还是有明显的提升。

三、完成任务

通过测试,在任务完成方面,1.5版本的提升并不大。

四、常识问题

在常识问题,1.5比1.0的提升是巨大的,特别是大模型一本正经的胡说八道的问题,1.5改进很大。

五、逻辑数学

从测试结果上看,数学能力上1.5版本还是提升很大的。

六、编程能力

从测试上来看,在编程能力上,1.5版本进步不大。

七、总结

今天对讯飞星火1.5版本进行了一次测试,测试的题目主要是1.0版本表现不好的,因此没有办法测试是否下降(上次回答太差的,基本上没有下降的空间),从测试上看:

理解能力上:测试3个问题,一个持平,一个改进,一个依旧不愿意回答。

完成任务能力上,测试3个问题,一个下降,一个无明显改进,一个稍微改进。

常识问题上,测试了3个问题,均有明显改进,特别是对错误问题的识别改进最大。

逻辑数学能力上,测试了5个问题,3个明显改进,1个稍有改进,一个有下降。

编程能力上,测试了2个问题,一个略有下降,一个稍有提升,变化不大。

综上所述,讯飞星火1.5版本提升还是显著的,特别是在常识问题和数学逻辑能力上。

讯飞星火在发布的时候,立下过flag,要在10月24日达到GPT4.0的水平,期待那一天。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230615A00JQG00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券