模型性能全面升级
OpenAI今日正式发布其最新旗舰人工智能模型GPT-5,该模型在智能基准测试中全面超越前代产品,能够以极高准确率回答问题。OpenAI首席执行官兼联合创始人Sam Altman表示:"GPT-5是GPT-4o的重大升级,也是我们通往AGI(通用人工智能)道路上的重要里程碑。如果说GPT-3像是与高中生对话,那么GPT-5已展现出质的飞跃。"
该模型在编程、前端设计和大型代码库调试方面实现显著突破,同时在写作和报告生成等场景中展现出更深入的上下文理解能力。技术架构上,GPT-5采用混合系统设计,可自动在标准应答模式与深度推理的"思考模式"间切换,用户也可通过指令手动启用思考模式。
基准测试表现亮眼
性能测试显示,GPT-5在数学、编程、视觉感知和健康等领域创下新纪录:
数学:在AIME 2025测试中达到94.6%(无工具辅助)
编程:SWE-bench Verified测试74.9%,Aider Polyglot测试88%
多模态理解:MMMU测试84.2%
健康领域:HealthBench Hard测试46.2%
横向对比显示,GPT-5在SWE-bench Verified测试中领先Anthropic的Claude Opus 4.1(74.5%)和谷歌Gemini 2.5 Pro(59.6%)。在综合智力测试"Humanity's Last Exam"中,强化推理版的GPT-5 Pro获得42%的得分(使用工具时),略低于xAI的Grok 4 Heavy(约44%)。
关键问题改进
针对用户关心的"幻觉问题"(模型虚构事实的倾向),OpenAI表示启用网络搜索时,GPT-5产生事实错误的概率比GPT-4o降低约45%;启用思考模式后进一步降低80%。模型还解决了"谄媚问题"——减少过度附和用户的倾向及不必要表情符号的使用。
智能编程新突破
GPT-5在代理式编程(agentic coding)领域展现出卓越能力。Cursor代码平台开发商Anysphere公司CEO Michael Truell评价:"GPT-5不仅能发现深藏的逻辑错误,还能运行多轮后台代理程序完成复杂任务。"该模型已深度集成至Cursor、Windsurf、GitHub Copilot等编程平台。
特别值得注意的是,GPT-5强化了"氛围编程"(vibe coding)能力——开发者通过自然语言提示生成代码,而非手动编写。OpenAI研究员Yan Dubois表示:"GPT-5真正让每个人都能创作优美高效的代码。"模型还新增对色彩、界面设计和用户意图的深度理解能力。
商业化部署
GPT-5即日起作为默认模型向ChatGPT登录用户开放,取代GPT-4o。开发者可通过API获取三个版本:GPT-5、GPT-5-mini和GPT-5-nano,支持成本、延迟和推理深度的灵活配置。新增工具调用引导、冗余控制等功能,使模型比前代更可靠、更可调。
OpenAI解决方案架构师Yan Dubois表示:"这是首个让我放心托付重要工作的AI模型,它已超越氛围编程的范畴。"