Hi,这里是Aitrainee,欢迎阅读本期新文章。
Sam Altman刚刚宣布:GPT-4.5 准备好了。
好消息: 这是第一个让他感觉像在和一个真正会思考的人对话的模型。有几次他甚至惊讶于AI给出的建议竟然如此中肯。
坏消息: 这是个超大且昂贵的模型。本想同时向Plus和Pro用户开放,但因为用户增长太快,GPU不够用了。
不过:
他也承认这不是理想的运营方式,但用户增长潮和GPU短缺确实难以完美预测。
特别提醒:
这不是一个注重推理的模型,不会在基准测试中创造记录。但它展现了一种不同的智能,有种Sam从未感受过的魔力。他很期待大家能试用这个模型。"
GPT-4.5虽然不是最前沿的模型,但它是OpenAI目前最大的语言模型。比起GPT-4,它的计算效率提升了10倍以上。
和其他模型相比,表现很有特点:
强项:
弱项:
有趣的是:
在SWE-Lancer Diamond测试(OpenAI最近开源的一个软件工程评估基准)中,GPT-4.5(32.6%) 表现最好:Grok还没热,OpenAI就来新基准:百万美元测试,Claude竟拿下40万!
SimpleQA测试结果很有意思。虽然叫'Simple',但这个测试其实挺难的,专门用来考察模型的事实准确性。
在SimpleQA测试中,GPT-4.5表现最好:准确率62.5%,幻觉率37.1%。o3-mini则表现最差:准确率只有15%,幻觉率高达80.3%。
看来o3-mini虽然在数学和编程上很强,但在事实性问答上还有很大提升空间。
GPT-4.5特别是幻觉率大幅降低,比GPT-4o降低了近24个百分点。
这似乎说明GPT-4.5在'真实性'方面有明显提升,能给出更准确、更可靠的回答。这可能就是Sam Altman说的'不同类型的智能'的一个体现。
而就我目前个人的体验来说,Deepseek R1的幻觉率也不低,尤其是联网搜索的时候,一本正经的捏造事实。
真实性足够高,我觉得是很有必要的。
特斯拉人工智能总监、OpenAI 创始团队成员@EurekaLabsAI表示:
这让我们能看到大模型发展的一个重要趋势。
回顾一下GPT家族的进化:GPT-1: 勉强能写出通顺的文字;GPT-2: 还是个玩具级别;
GPT-3: 开始变得有趣了;GPT-3.5: 首次达到可商用水平,催生了ChatGPT;
GPT-4: 整体提升约20%,但改进比较微妙。
每个0.5版本意味着训练算力增加10倍。那么GPT-4.5表现如何?
特点:与GPT-4相比,这又是一次“全面小提升”。改进依然很微妙,不容易具体指出,主要在“情商”相关任务上有进步:
- 世界知识更丰富
- 创造力提升
- 类比更准确
- 幽默感增强
- 理解能力更强
但要注意:这只是预训练模型,还没有加入推理能力。在数学、编程等需要推理的任务上,不如o1。OpenAI可能会用强化学习进一步提升它的思考能力。
此外,OpenAI用内部题库测试了GPT-4.5的编程能力。题目包括18道编程题和97道选择题。
从图表看,GPT-4.5在编程题上得分79%,和deep research持平,但比o3-mini差了一些。o3-mini在这项测试中拿到了92%的高分。
而从SWE-bench Verified的测试结果来看,GPT-4.5在软件工程能力上的提升并不明显,甚至可以说是令人意外的低:
GPT-4.5 Pre得分35%, Post得分38%,比GPT-4o只提升了2-7%。
远低于其他模型:
" Pre/Post " 主要指的是安全对齐前(Pre-mitigation)和安全对齐后(Post-mitigation),也就是安全微调(safety tuning)之前和之后的状态。
在 OpenAI 这类大模型的文档里,“安全对齐”通常涉及:
此外,GPT-4.5在agentic tasks上的表现并不理想。它的得分仅为40%,远低于deep research的76%,甚至比o1的36%还要差。
MMLU零样本语言测试结果显示:
o1在所有语言上表现最好,英语得分0.923。GPT-4.5整体略低于o1,但高于GPT-4o。
主流语言如英语、法语、西班牙语表现较好。小语种如Yoruba和Swahili得分相对较低。
如果光看后面的基准测试的话,不少网友表示:预训练看起来没什么效果
看看参数规模:
但是性能提升呢? 仅仅1-3%。这也许能解释为什么:
这个结果似乎在暗示:单纯堆参数量的方法可能已经遇到瓶颈了。模型规模从200B增加到2T+,性能提升却如此有限,确实值得深思。"
网友调侃:直播后,同时某伟达:
然而,Devin官方表示,GPT-4.5代码能力有巨大改进。并且适合架构任务,可以多个代理一起工作:
可是,当你看了GPT4.5 这价格就觉得这也没什么意义了。。。
输出价格是GPT-4o的15倍,是GPT-4o mini的250倍。
输入价格也是天价:75/1Mtokens,比GPT−4o贵30倍。即使是缓存输入也要37.5/1M tokens,比GPT-4o贵30倍。即使是缓存输入也要37.50/1M tokens。
看来超大模型的推理成本确实很高,但这个定价还是让人难以接受。
不过,正如一位网友所说:很多人只盯着基准测试的数据,却忽略了最重要的一点:在日常使用中,AI如何与人互动,以及它给用户带来什么样的感受。
可以说,GPT-4.5是一次'情感升级':
让AI互动更自然
更懂得共情
像一个有'情商'的助手
它的目标不是在基准测试上拿高分,而是让AI变得更贴心,更懂人。
最后,总结一下:
GPT4.5 是GPT-4o的改进版本,采用了SFT、RLHF等成熟技术,也引入了新的对齐方法。
在技术上,改进了语言处理和推理能力,优化了训练流程,扩充了数据来源。安全性方面与GPT-4o相当,经过了偏见和误用风险评估。
主要提升是:事实准确性更高,幻觉更少,对话能力增强,能读懂人类微妙的情绪和真实需求。
目前以GPT-4.5-preview发布,后续改进将基于实际使用反馈。
发布计划:今天起,ChatGPT Pro 用户可以在网页、手机和电脑上试用(研究预览版);下周,向 Plus 和 Team 用户开放;再下周,企业版和教育版用户可用。
ChatGPT 中的功能:支持搜索,可以上传文件和图片,能处理写作和编程任务,暂不支持语音、视频和屏幕共享。
开发者 API:支持函数调用、结构化输出、流式传输、系统消息和视觉能力。
以及,更新 Cursor,你已经拥有 GPT-4.5-preview 了。
🌟 知音难求,自我修炼亦艰,抓住前沿技术的机遇,与我们一起成为创新的超级个体(把握AIGC时代的个人力量)。
参考链接: [1] https://web.lmarena.ai/leaderboard