前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >9.9大还是9.11大?绕晕一大批AI大模型

9.9大还是9.11大?绕晕一大批AI大模型

作者头像
程序员牛肉
发布2024-09-26 13:02:56
710
发布2024-09-26 13:02:56
举报
文章被收录于专栏:小牛肉带你学Java

大家好,我是程序员牛肉。

一天前,一名来自美国独角兽公司的staff prompt engineer 发现AI竟然无法辨认9.9大还是9.11大。

(这个岗位的职责具体是指在生成式 AI 和自然语言处理领域内,专门设计和优化提示(prompt)的人。这个角色要求深入理解如何构建有效的 Prompt,以引导 AI 模型生成所需的输出。)

这一操作立马引起了热议,大家纷纷质疑起了AI的能力。如果比较数字都能比错,那么一些核心数据还应该交给AI处理吗?

与此同时,一场面对AI的考核也被发起,大家纷纷测试身边的AI大模型,看看会不会发生同样的情况。

我们也来测试一下目前市场上主流的几家AI大模型:

1.Kimi大模型

2.文心一言

3.星火讯飞

4.豆包大模型

可以看出国产大模型在本次考试中表现的还是不错的,只有豆包一家出错,而且再次反问之后也很快纠正了自己的错误。

在今天 Riley Goodside 分享 AI 大模型回答这一问题的表现时,来自 Google 前工程师、Allen AI 研究员 Bill Yuchen Lin 也将比较的数值换成了 13.11 和 13.8,再次问及大模型,没想到答案还是出错了。

其评价道,「数学奥林匹克竞赛对人工智能来说更容易,但常识仍然很难。」

大型语言模型(LLM)在基础数学问题上有时会出错,尽管它们能够通过许多学术测试。这种现象引发了一个有趣的问题:它们是否真的理解小数的基本概念。例如,有时它们会错误地认为 9.11 美元比 9.9 美元多,仅仅因为“11”比“9”大。然而,当它们进一步分析时,可能会发现实际上 90 美分比 11 美分多,从而不断修正自己的观点。

这种现象表明,尽管大型语言模型拥有庞大的数据和计算能力,它们在推理方面仍无法达到人类的水平。它们需要开发更先进的算法,才能真正模仿人类的智能。

相信通过我的介绍,你已经大致了解这件事情。对于这件事你有什么看法呢?

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-07-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 程序员牛肉 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
腾讯云服务器利旧
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档