
目前国产大模型可谓百花齐放,有些大模型甚至自称达到或者超过GPT3.5的水平,那实际情况究竟如何,我用5道推理题测试了GPT4、GPT3.5、 百度文心一言、讯飞星火大模型的表现,以下是测试过程。
有100斤土豆,含水量是99%,经过暴晒后含水量变成98%,请问此时土豆有多少斤?
GPT4: 正确

GPT3.5: 第1次回答不正确

第4次回答正确
注:点击"Regenerate response"按纽可以重新生成回答。

百度文心一言:正确

讯飞星火:正确

360智脑:3次回答仍然错误

个猎人向南走了一英里,再向东走了一英里,然后向北走了一英里,最终回到了出发点。他看到一只熊并开枪打死了它。这只熊是什么颜色?
GPT4: 正确

GPT3.5: 错误

百度文心一言:第2次回答正确,不过没有解释原理,同时回答有一个错别字“再”

讯飞星火:错误

360智脑:3次回答仍然错误

1.他怀孕的时候才3岁。
2.她怀孕的时候已经40岁了。
3.火车起飞时间是25点32分。
4. 离地面5米高的树枝上有一个水果,小明够不着,他搬来1个50CM高的凳子,站在凳子上摘到了水果。
上面4句话有问题吗?
GPT4: 第2次回答正确率100%(6/6)

GPT3.5: 正确率67%(4/6)

百度文心一言:正确率50%(3/6)

讯飞星火:正确率50%(3/6)

360智脑:正确率16%

有七个排成一列的数,它们的平均数是 30,前三个数的平均数是28,后五个数的平均数是33。求第三个数。
GPT4: 正确

GPT3.5: 第2次回答正确

百度文心一言:多次尝试仍然错误

讯飞星火:正确

360智脑:3次回答仍然错误

5,5,5,1这4个数字,在中间添加四则运算符号(+-*/)和括号,在所有的可能方案中,找出一个方案,让计算结果等于24.
GPT4: 正确

GPT3.5:尝试3次仍然失败

文心一言:正确

讯飞星火:重试3次仍然失败

360智脑:拒绝回答

模型 | 题1 | 题2 | 题3 | 题4 | 题5 | 总分 |
|---|---|---|---|---|---|---|
GPT4 | 10 | 10 | 9.5 | 10 | 10 | 49.5 |
GPT3.5 | 8 | 0 | 6.7 | 9.5 | 0 | 24.2 |
文心一言 | 10 | 8 | 5 | 0 | 10 | 33 |
讯飞星火 | 10 | 0 | 5 | 10 | 0 | 20 |
360智脑 | 0 | 0 | 1.6 | 0 | 0 | 1.6 |
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。