部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?

GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?

作者头像
AI进修生
发布2025-02-28 12:53:12
发布2025-02-28 12:53:12
1980
举报
文章被收录于专栏:AI进修生AI进修生

Hi,这里是Aitrainee,欢迎阅读本期新文章。

Sam Altman刚刚宣布:GPT-4.5 准备好了。

好消息: 这是第一个让他感觉像在和一个真正会思考的人对话的模型。有几次他甚至惊讶于AI给出的建议竟然如此中肯。

坏消息: 这是个超大且昂贵的模型。本想同时向Plus和Pro用户开放,但因为用户增长太快,GPU不够用了。

不过:

  • 下周会增加数万个GPU,先向Plus用户开放
  • 很快会再增加几十万个GPU
  • Sam觉得这些GPU肯定会被用户用到极限

他也承认这不是理想的运营方式,但用户增长潮和GPU短缺确实难以完美预测。

特别提醒:

这不是一个注重推理的模型,不会在基准测试中创造记录。但它展现了一种不同的智能,有种Sam从未感受过的魔力。他很期待大家能试用这个模型。"

GPT-4.5虽然不是最前沿的模型,但它是OpenAI目前最大的语言模型。比起GPT-4,它的计算效率提升了10倍以上。

和其他模型相比,表现很有特点:

强项:

  • 多语言能力(MMMLU multilingual): 85.1%,领先其他模型
  • 多模态任务(MMMU multimodal): 74.4%,比GPT-4o提升明显
  • 科学问答(GPQA science): 71.4%,比4o提升显著

弱项:

  • 数学能力(AIME '24): 36.7%,远低于o3-mini的87.3%
  • 编程能力(SWE-Bench): 38%,比不上o3-mini的61%

有趣的是:

在SWE-Lancer Diamond测试(OpenAI最近开源的一个软件工程评估基准)中,GPT-4.5(32.6%) 表现最好:Grok还没热,OpenAI就来新基准:百万美元测试,Claude竟拿下40万!

SimpleQA测试结果很有意思。虽然叫'Simple',但这个测试其实挺难的,专门用来考察模型的事实准确性。

在SimpleQA测试中,GPT-4.5表现最好:准确率62.5%,幻觉率37.1%。o3-mini则表现最差:准确率只有15%,幻觉率高达80.3%。

看来o3-mini虽然在数学和编程上很强,但在事实性问答上还有很大提升空间。

GPT-4.5特别是幻觉率大幅降低,比GPT-4o降低了近24个百分点。

这似乎说明GPT-4.5在'真实性'方面有明显提升,能给出更准确、更可靠的回答。这可能就是Sam Altman说的'不同类型的智能'的一个体现。

而就我目前个人的体验来说,Deepseek R1的幻觉率也不低,尤其是联网搜索的时候,一本正经的捏造事实。

真实性足够高,我觉得是很有必要的。

特斯拉人工智能总监、OpenAI 创始团队成员@EurekaLabsAI表示:

这让我们能看到大模型发展的一个重要趋势。

回顾一下GPT家族的进化:GPT-1: 勉强能写出通顺的文字;GPT-2: 还是个玩具级别;

GPT-3: 开始变得有趣了;GPT-3.5: 首次达到可商用水平,催生了ChatGPT;

GPT-4: 整体提升约20%,但改进比较微妙。

每个0.5版本意味着训练算力增加10倍。那么GPT-4.5表现如何?

特点:与GPT-4相比,这又是一次“全面小提升”。改进依然很微妙,不容易具体指出,主要在“情商”相关任务上有进步:

- 世界知识更丰富

- 创造力提升

- 类比更准确

- 幽默感增强

- 理解能力更强

但要注意:这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,不如o1。OpenAI可能会用强化学习进一步提升它的思考能力。

此外,OpenAI用内部题库测试了GPT-4.5的编程能力。题目包括18道编程题和97道选择题。

从图表看,GPT-4.5在编程题上得分79%,和deep research持平,但比o3-mini差了一些。o3-mini在这项测试中拿到了92%的高分。

而从SWE-bench Verified的测试结果来看,GPT-4.5在软件工程能力上的提升并不明显,甚至可以说是令人意外的低:

GPT-4.5 Pre得分35%, Post得分38%,比GPT-4o只提升了2-7%。

远低于其他模型:

  • o1达到48%
  • o3-mini达到61%
  • deep research更是达到68%,差距接近30%
  • 和Claude 3.5/3.7的成绩相比就更不用说了(Claude 3.7 Sonnet达到了70.3%)

" Pre/Post " 主要指的是安全对齐前(Pre-mitigation)和安全对齐后(Post-mitigation),也就是安全微调(safety tuning)之前和之后的状态。

在 OpenAI 这类大模型的文档里,“安全对齐”通常涉及:

  1. 1. Pre-mitigation(对齐前):模型未经安全微调,可能存在较多风险,比如幻觉、偏见、不符合安全标准的回答等。
  2. 2. Post-mitigation(对齐后):经过安全微调(Safety Tuning),包括强化学习(RLHF)和安全策略微调,以减少有害输出、增加可控性,使模型更符合安全标准。

此外,GPT-4.5在agentic tasks上的表现并不理想。它的得分仅为40%,远低于deep research的76%,甚至比o1的36%还要差。

MMLU零样本语言测试结果显示:

o1在所有语言上表现最好,英语得分0.923。GPT-4.5整体略低于o1,但高于GPT-4o。

主流语言如英语、法语、西班牙语表现较好。小语种如Yoruba和Swahili得分相对较低。

如果光看后面的基准测试的话,不少网友表示:预训练看起来没什么效果

看看参数规模:

  • GPT-4o大约是200B参数
  • GPT-4是1.76T参数
  • GPT-4.5是OpenAI最大的模型,参数量应该超过2T

但是性能提升呢? 仅仅1-3%。这也许能解释为什么:

  • Claude 3.5 Opus 没有如期发布
  • 业界开始转向关注推理时的优化

这个结果似乎在暗示:单纯堆参数量的方法可能已经遇到瓶颈了。模型规模从200B增加到2T+,性能提升却如此有限,确实值得深思。"

网友调侃:直播后,同时某伟达:

然而,Devin官方表示,GPT-4.5代码能力有巨大改进。并且适合架构任务,可以多个代理一起工作:

可是,当你看了GPT4.5 这价格就觉得这也没什么意义了。。。

输出价格是GPT-4o的15倍,是GPT-4o mini的250倍。

输入价格也是天价:75/1Mtokens,比GPT−4o贵30倍。即使是缓存输入也要37.5/1M tokens,比GPT-4o贵30倍。即使是缓存输入也要37.50/1M tokens。

看来超大模型的推理成本确实很高,但这个定价还是让人难以接受。

不过,正如一位网友所说:很多人只盯着基准测试的数据,却忽略了最重要的一点:在日常使用中,AI如何与人互动,以及它给用户带来什么样的感受。

可以说,GPT-4.5是一次'情感升级':

让AI互动更自然

更懂得共情

像一个有'情商'的助手

它的目标不是在基准测试上拿高分,而是让AI变得更贴心,更懂人。

最后,总结一下:

GPT4.5 是GPT-4o的改进版本,采用了SFT、RLHF等成熟技术,也引入了新的对齐方法。

在技术上,改进了语言处理和推理能力,优化了训练流程,扩充了数据来源。安全性方面与GPT-4o相当,经过了偏见和误用风险评估。

主要提升是:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。

目前以GPT-4.5-preview发布,后续改进将基于实际使用反馈。

发布计划:今天起,ChatGPT Pro 用户可以在网页、手机和电脑上试用(研究预览版);下周,向 Plus 和 Team 用户开放;再下周,企业版和教育版用户可用。

ChatGPT 中的功能:支持搜索,可以上传文件和图片,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。

开发者 API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。

以及,更新 Cursor,你已经拥有 GPT-4.5-preview 了。

🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。

参考链接: [1] https://web.lmarena.ai/leaderboard

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档