目前国产大模型可谓百花齐放,有些大模型甚至自称达到或者超过GPT3.5的水平,那实际情况究竟如何,我用5道推理题测试了GPT4、GPT3.5、 百度文心一言、讯飞星火大模型的表现,以下是测试过程。
有100斤土豆,含水量是99%,经过暴晒后含水量变成98%,请问此时土豆有多少斤?
GPT4: 正确
GPT3.5: 第1次回答不正确
第4次回答正确
注:点击"Regenerate response"按纽可以重新生成回答。
百度文心一言:正确
讯飞星火:正确
360智脑:3次回答仍然错误
个猎人向南走了一英里,再向东走了一英里,然后向北走了一英里,最终回到了出发点。他看到一只熊并开枪打死了它。这只熊是什么颜色?
GPT4: 正确
GPT3.5: 错误
百度文心一言:第2次回答正确,不过没有解释原理,同时回答有一个错别字“再”
讯飞星火:错误
360智脑:3次回答仍然错误
1.他怀孕的时候才3岁。
2.她怀孕的时候已经40岁了。
3.火车起飞时间是25点32分。
4. 离地面5米高的树枝上有一个水果,小明够不着,他搬来1个50CM高的凳子,站在凳子上摘到了水果。
上面4句话有问题吗?
GPT4: 第2次回答正确率100%(6/6)
GPT3.5: 正确率67%(4/6)
百度文心一言:正确率50%(3/6)
讯飞星火:正确率50%(3/6)
360智脑:正确率16%
有七个排成一列的数,它们的平均数是 30,前三个数的平均数是28,后五个数的平均数是33。求第三个数。
GPT4: 正确
GPT3.5: 第2次回答正确
百度文心一言:多次尝试仍然错误
讯飞星火:正确
360智脑:3次回答仍然错误
5,5,5,1这4个数字,在中间添加四则运算符号(+-*/)和括号,在所有的可能方案中,找出一个方案,让计算结果等于24.
GPT4: 正确
GPT3.5:尝试3次仍然失败
文心一言:正确
讯飞星火:重试3次仍然失败
360智脑:拒绝回答
模型 | 题1 | 题2 | 题3 | 题4 | 题5 | 总分 |
---|---|---|---|---|---|---|
GPT4 | 10 | 10 | 9.5 | 10 | 10 | 49.5 |
GPT3.5 | 8 | 0 | 6.7 | 9.5 | 0 | 24.2 |
文心一言 | 10 | 8 | 5 | 0 | 10 | 33 |
讯飞星火 | 10 | 0 | 5 | 10 | 0 | 20 |
360智脑 | 0 | 0 | 1.6 | 0 | 0 | 1.6 |
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。