首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >OpenAI一周四连发

OpenAI一周四连发

作者头像
Ai学习的老章
发布2026-03-27 11:28:17
发布2026-03-27 11:28:17
30
举报

这周 OpenAI 打了一套密集到离谱的组合拳——4天4个重磅发布

模型、应用、桌面端、企业工具全面铺开,看得人目不暇接

一、GPT-5.3 Instant:不"cringe"了

3月3日上线,替代 GPT-5.2 Instant 成为 ChatGPT 的默认日常模型。

这次改了什么?一句话:说人话了

之前的 GPT-5.2 Instant 有个毛病——动不动就来一句"让我们停下来,深呼吸",或者在你问个正常问题时给你贴一堆免责声明。用户吐槽这叫"cringe"(尬),OpenAI 这次直接把这个当核心问题来修。

关键数据:

  • 高风险领域(医疗、法律、金融)幻觉率降低 **26.8%**(联网模式)
  • 用户反馈场景幻觉率降低 **22.5%**(联网模式)
  • 大幅削减不必要的拒答和说教式开场白
  • 写作能力也有提升,小说、润色这些创意场景更好用了

二、Codex 登陆 Windows:50万人等的那个

3月4日,Codex 桌面应用正式上线 Windows

之前只有 macOS 版,上线第一周下载量就破了100万,目前周活160万

50万人排队等 Windows 版,这次终于来了。

核心亮点:

  • 原生沙盒:和微软合作打造,操作系统级隔离,不需要退回 WSL 或虚拟机。沙盒已开源
  • 多智能体并行:多个 Agent 同时跑,各自在独立工作树里干活,互不冲突
  • 技能系统(Skills):把 Figma 设计稿转代码、Linear 项目管理、一键部署到 Cloudflare/Vercel,甚至用 GPT 图像生成做游戏素材——全打包成可复用的技能包
  • 自动化:设好时间表,Agent 在后台自动跑 bug 分流、CI 总结、发布简报
  • IDE 支持:新增 Visual Studio、Rider、PhpStorm、Git Bash、GitHub Desktop、Sublime Text

有个演示案例挺疯的:仅凭一个初始提示,Agent 独立消耗超过 700万个 Token 构建了一款赛车游戏。

定价:ChatGPT Free 用户也能试用。付费用户在4月2日前速率额度翻倍。不过说实话,AI 编程 Agent 吃 Token 的速度,Plus 的额度可能撑不了多久。

三、ChatGPT for Excel:AI 进入金融腹地

同一天,OpenAI 放出了 ChatGPT for Excel(Beta),直接把 ChatGPT 嵌入到 Excel 工作簿里。

这不是那种帮你写个 VLOOKUP 的简单助手。它能:

  • 自然语言建模:你说"帮我做一个三年期的 DCF 估值模型",它直接在工作簿里建
  • 跨工作簿推理:理解 Sheet 之间的公式关联,追踪假设如何在模型中流动
  • 透明可审计:每一步操作都解释在做什么,链接到具体单元格,修改前请求许可
ChatGPT for Excel 界面
ChatGPT for Excel 界面

ChatGPT for Excel 界面

配套的金融数据集成更猛:FactSet、Moody's、MSCI、S&P Global、Dow Jones Factiva 全接进来了。咨询合作伙伴包括麦肯锡、贝恩、BCG、埃森哲、普华永道。

在内部投行基准测试上,模型从 GPT-5 的 43.7% 飙到 GPT-5.4 Thinking 的 **87.3%**。这意味着初级分析师的电子表格建模工作,AI 已经能做到接近九成的水平。

目前限美国、加拿大、澳大利亚的 Business/Enterprise/Pro/Plus 用户

Google Sheets 版即将推出

四、GPT-5.4:真正的重头戏

3月5日,GPT-5.4 正式发布

这是 OpenAI 目前最强的模型,也是这波密集发布的压轴

一句话概括:编码能力 + 推理能力 + 计算机操控,三合一。

核心升级
  • 100万 Token 上下文窗口:API 版本支持最高 1M tokens,OpenAI 有史以来最大
  • 原生 Computer Use:能通过 Playwright 写代码操控电脑,也能看截图发鼠标键盘指令。这是 OpenAI 第一次在通用模型里做原生计算机操控
  • Tool Search:不再把所有工具定义都塞进提示词,按需查找。在 Scale MCP Atlas 基准上减少 47% token 用量,准确率不变
  • 事实准确性:单条错误降低 33%,完整回复含错误降低 18%
Benchmark 炸场

基准

GPT-5.4

GPT-5.2

说明

OSWorld(计算机操控)

75.0%

47.3%

人类表现 72.4%,GPT-5.4 超越人类

GDPval(知识工作)

83.0%

70.9%

在44个职业中匹配/超过行业专家

ARC-AGI-2(抽象推理)

73.3%

52.9%

+20.4%

BrowseComp(网络搜索)

82.7%

65.8%

Pro版达到 89.3%

IB 建模(投行任务)

87.3%

68.4%

+18.9%

SWE-Bench Pro(编码)

57.7%

55.6%

整合了 5.3-Codex 的编码能力

MMMU Pro(视觉理解)

81.2%

79.5%

超过 Gemini 3.1 Pro 的 80.5%

OSWorld 超越人类表现这个事,我觉得是这次发布最值得关注的数据点。计算机操控这个领域,从"能用"到"超过人",GPT-5.4 迈了一大步。

定价

模型

输入

输出

gpt-5.4

$2.50/M tokens

$15/M tokens

gpt-5.4-pro

$30/M tokens

$180/M tokens

比 GPT-5.2 贵了一点点(输入 2.50),但考虑到 token 效率提升,实际成本可能差不多。

安全评估

OpenAI 同步发布了详细的安全评估报告。几个值得关注的点:

  • 网络安全能力被评为 High:这是第一个部署了 High 级别网络安全缓解措施的通用模型
  • 生物/化学能力也是 High:超过中位数专家基准
  • 思维链可监控性在下降:这被标记为需要持续关注的脆弱性
  • 思维链可控性仍然很低:模型很难故意混淆自己的推理过程,对安全而言是好事

背景:为什么这么急?

说完产品,聊聊背景。

根据36氪报道,Anthropic(Claude)的年化收入已接近 200亿美元,两周内增长50亿。Claude Code 单产品年化收入突破 25亿美元。更夸张的是,2026年2月 Anthropic 在美国市场份额飙升至近 70%,OpenAI 降到约 30%。一年前这个比例还是反的。

API 花费方面,Anthropic 占据 90% 份额。全球 GitHub 上 4% 的公开代码提交由 Claude Code 生成。

所以你能理解 OpenAI 为什么一周四连发了——市场份额在流失,必须快速刷存在感。GPT-5.4 + Codex 桌面端 + Excel 插件 + 金融数据生态,这套组合拳打的就是"从模型到应用到生态"的全栈覆盖。

有意思的是,与此同时 Anthropic 因为坚持 AI 安全准则被美国国防部封杀,被定性为"供应链风险"。OpenAI 则迅速填补了这个缺口。全球已有约250万人加入了 QuitGPT 抵制运动,社交媒体相关帖子播放量突破3600万。奥特曼自己都承认"吃相难看"。

一边是产品力的狂飙,一边是舆论场的反噬。2026年的 AI 竞争,比以往任何时候都更像一场多维度的战争。

总结

这周 OpenAI 的发布密度确实罕见。简单排个优先级:

  • 最该关注的:GPT-5.4 的 Computer Use 能力和 1M 上下文,这代表下一代 AI Agent 的基础设施
  • 最实用的:Codex Windows 客户端,如果你是 Windows 开发者,现在就可以用了
  • 最有想象力的:ChatGPT for Excel + 金融数据集成,这是 AI 深入垂直行业的信号
  • 最被低估的:GPT-5.3 Instant 的"反cringe"更新,日常使用体验提升明显

OpenAI 能不能靠这波追回来?还是说 Claude 的势头已经不可逆?我觉得短期看产品力,长期看生态。这场仗,远没打完。

#OpenAI #GPT5.4 #Codex #ChatGPTforExcel #AI竞争

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个🌟,谢谢你看我的文章,我们下篇再见!

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习与统计学 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、GPT-5.3 Instant:不"cringe"了
  • 二、Codex 登陆 Windows:50万人等的那个
  • 三、ChatGPT for Excel:AI 进入金融腹地
  • 四、GPT-5.4:真正的重头戏
    • 核心升级
    • Benchmark 炸场
    • 定价
    • 安全评估
  • 背景:为什么这么急?
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档