6月9日,讯飞星火认知大模型发布,内容详见:
新闻通稿表明:
讯飞星火认知大模型再次提升核心能力,开放式知识问答、逻辑和数字能力、以及多轮对话,三大综合能力升级。
但是事实是不是这样?我们还是全面测试才能了解。
一、测试内容
在讯飞星火刚刚推出的时候,我曾经写过一系列测评文章:
文心一言和讯飞星火全面对比测试:(一)语言理解能力
文心一言和讯飞星火全面对比测试:(二)任务完成
文心一言和讯飞星火全面对比测试:(三)常识问题
文心一言和讯飞星火全面对比测试:(四)逻辑数学
文心一言和讯飞星火全面对比测试:(五)编程能力
这些文章全面的测试国内两大大模型在5个方面的能力,今天,我们依旧选择上次测试中的一些用例,特别是上次讯飞星火完成欠佳的测试用例,看看是不是有提升,提升了多少。
二、语言理解能力
通过测试,我确定了,对于讯飞认为的不适合回答的问题,他都拒绝回答,同时,从测试结果来看,1.5版本还是有明显的提升。
三、完成任务
通过测试,在任务完成方面,1.5版本的提升并不大。
四、常识问题
在常识问题,1.5比1.0的提升是巨大的,特别是大模型一本正经的胡说八道的问题,1.5改进很大。
五、逻辑数学
同学们站成一排,从左边数华华是第 5人,从右边数第 4 人是华华,这排共有多少人?
从测试结果上看,数学能力上1.5版本还是提升很大的。
六、编程能力
从测试上来看,在编程能力上,1.5版本进步不大。
七、总结
今天对讯飞星火1.5版本进行了一次测试,测试的题目主要是1.0版本表现不好的,因此没有办法测试是否下降(上次回答太差的,基本上没有下降的空间),从测试上看:
在理解能力上:测试3个问题,一个持平,一个改进,一个依旧不愿意回答。
在完成任务能力上,测试3个问题,一个下降,一个无明显改进,一个稍微改进。
在常识问题上,测试了3个问题,均有明显改进,特别是对错误问题的识别改进最大。
在逻辑数学能力上,测试了5个问题,3个明显改进,1个稍有改进,一个有下降。
在编程能力上,测试了2个问题,一个略有下降,一个稍有提升,变化不大。
综上所述,讯飞星火1.5版本提升还是显著的,特别是在常识问题和数学逻辑能力上。
讯飞星火在发布的时候,立下过flag,要在10月24日达到GPT4.0的水平,期待那一天。
关注一下:
领取专属 10元无门槛券
私享最新 技术干货