首页
学习
活动
专区
圈层
工具
发布

OpenAI发布旗舰AI模型GPT-5:高精度与编程能力再突破,幻觉降低45%

模型性能全面升级

OpenAI今日正式发布其最新旗舰人工智能模型GPT-5,该模型在智能基准测试中全面超越前代产品,能够以极高准确率回答问题。OpenAI首席执行官兼联合创始人Sam Altman表示:"GPT-5是GPT-4o的重大升级,也是我们通往AGI(通用人工智能)道路上的重要里程碑。如果说GPT-3像是与高中生对话,那么GPT-5已展现出质的飞跃。"

该模型在编程、前端设计和大型代码库调试方面实现显著突破,同时在写作和报告生成等场景中展现出更深入的上下文理解能力。技术架构上,GPT-5采用混合系统设计,可自动在标准应答模式与深度推理的"思考模式"间切换,用户也可通过指令手动启用思考模式。

基准测试表现亮眼

性能测试显示,GPT-5在数学、编程、视觉感知和健康等领域创下新纪录:

数学:在AIME 2025测试中达到94.6%(无工具辅助)

编程:SWE-bench Verified测试74.9%,Aider Polyglot测试88%

多模态理解:MMMU测试84.2%

健康领域:HealthBench Hard测试46.2%

横向对比显示,GPT-5在SWE-bench Verified测试中领先Anthropic的Claude Opus 4.1(74.5%)和谷歌Gemini 2.5 Pro(59.6%)。在综合智力测试"Humanity's Last Exam"中,强化推理版的GPT-5 Pro获得42%的得分(使用工具时),略低于xAI的Grok 4 Heavy(约44%)。

关键问题改进

针对用户关心的"幻觉问题"(模型虚构事实的倾向),OpenAI表示启用网络搜索时,GPT-5产生事实错误的概率比GPT-4o降低约45%;启用思考模式后进一步降低80%。模型还解决了"谄媚问题"——减少过度附和用户的倾向及不必要表情符号的使用。

智能编程新突破

GPT-5在代理式编程(agentic coding)领域展现出卓越能力。Cursor代码平台开发商Anysphere公司CEO Michael Truell评价:"GPT-5不仅能发现深藏的逻辑错误,还能运行多轮后台代理程序完成复杂任务。"该模型已深度集成至Cursor、Windsurf、GitHub Copilot等编程平台。

特别值得注意的是,GPT-5强化了"氛围编程"(vibe coding)能力——开发者通过自然语言提示生成代码,而非手动编写。OpenAI研究员Yan Dubois表示:"GPT-5真正让每个人都能创作优美高效的代码。"模型还新增对色彩、界面设计和用户意图的深度理解能力。

商业化部署

GPT-5即日起作为默认模型向ChatGPT登录用户开放,取代GPT-4o。开发者可通过API获取三个版本:GPT-5、GPT-5-mini和GPT-5-nano,支持成本、延迟和推理深度的灵活配置。新增工具调用引导、冗余控制等功能,使模型比前代更可靠、更可调。

OpenAI解决方案架构师Yan Dubois表示:"这是首个让我放心托付重要工作的AI模型,它已超越氛围编程的范畴。"

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OcfNaEUnvw6JysI7JaUiXMQQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券