虽然GPT-5大家失望较多,但其实还是亮点许多了。
除非你真以为在transformer 的地基之能直接长出AGI 出来。
至于失望的原因,很大一部分是先前Sam Altman 的眩晕、瘫软吹得有些过了头。
但在昨晚边看发布会边看API文档时,我就发现还是有许多值得尝试的,甚至每个特性、每个新出现的参数,都值得详细研究、实践、花钱去调用玩一玩。
可以相信,这API 里的每一个新feature 都不会是KPI 驱动下放出来的。
现在瓜吃完了,该干正事了——得用起来了。
不过,几个文档结合着看有亿点点乱,要快超出了我的context了……
导致我即将产生幻觉。
好在OpenAI 的许多文档都有个“Copy Page”的按钮能复制出完整的markdown内容,作为给LLM的prompt,随你怎么问了就。
这个真得点赞。
于是我就让AI 按我的要求筛选、整理和突出了下,方便自己看,也顺便分享出来当作笔记了。
模型选择指南
首先是三个模型的定位差异,这能用于快速决定该用哪个模型,避免大材小用或者能力不足白花钱。
简单来说,如果你在做Agent相关的复杂任务,比如自动化代码审查、多步骤决策系统,那么,gpt-5是首选。
如果是做客服机器人、内容生成这类需要平衡成本和效果的场景,gpt-5-mini很合适。
而对于大批量的文本分类、简单的数据提取任务,gpt-5-nano能以极低的成本、极快的速度完成任务。
输入输出能力对比
三个模型在功能支持上有些微妙的差异:
注意:只有gpt-5支持文件的输入输出。
你可能会想:如果我的应用需要处理PDF、Excel这类文件,那是不是就没办法省钱了?
当然不是,你截图或其他方式处理为图片或文本后再用啊!OpenAI 自然也是这样做的。
而nano虽然最便宜,但不支持Distillation(蒸馏,毕竟太小了)和Predicted outputs这两个高级玩法。
价格与速率
价格永远是开发者最关心的,但别忘了看速率限制。
先来看价格(每百万tokens):
划重点:缓存输入价格能省90%的成本。
而且,速度也会更快。
至于怎么能增加缓存命中……
简单来说:重复的放前面、变化的放后面。
举例来说:用AB(第一次调用)、AC(第二次调用)而不是BA(第一次调用)、CA(第二次调用),前者的第二次会命中,命中率是tokens_A / (tokens_A + tokens_C),后者命中率是0.
A 可以是:固定的系统提示词、few-shot、RAG 内容、上下文……
详细原理则是:关于transformer 的QKV 计算……问AI 去吧,不是本文重点。
总之,即使你不考虑省钱,也要考虑下速度啊。
当然,如果你用的中转站啥的,基本没这回事……
别问我为啥,问你的上级代理去吧。
另外,batch 调用也能打五折,离线场景可以用起来。
速率限制(TPM - Tokens Per Minute)
我现在还只是tier 3,足够我日常用了倒是(其实我薅的免费用量也基本够用)。
上下文窗口
三个模型的上下文长度完全一致:40万的上下文窗口,12.8万的最大输出。
推理努力级别
reasoning.effort是GPT-5最需要关注的新参数,将直接影响模型的思考深度和响应速度。
这特别适合需要精细控制的场景,代码示例如下:
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5",
input="How much gold would it take to coat the Statue of Liberty in a 1mm layer?",
reasoning={
"effort": "minimal"
}
)
print(response)
比如,如果你在做实时代码补全,minimal级别能提供极快的响应;
但如果是在做数学证明或复杂的业务逻辑分析,high级别会给出更可靠的结果。
做在线教育的朋友可能要注意,对于不同难度的题目,动态调整这个参数能在用户体验和成本之间找到最佳平衡。
输出详细程度
verbosity参数可以控制模型的话痨程度,这对优化用户体验和降低成本都很重要。
代码示例如下:
from openai import OpenAI
client = OpenAI()
response = client.responses.create(
model="gpt-5",
input="What is the answer to the ultimate question of life, the universe, and everything?",
text={
"verbosity": "low"
}
)
print(response)
如果只是想快速生成一个SQL查询时,low级别能给出干净的代码;
而当用户在学习或需要详细文档时,high级别会提供带有详细注释的代码。
这会比通过prompt engineering来控制输出长度要稳定和可控得多。
新增功能
这可以说是GPT-5 在工具调用和输出控制上的重大改进了。
这个自定义工具可以给开发工作带来更多的灵活性。
之前的function calling在这里,只能传个JSON,但现在则可以直接传个任意文本就可了,SQL查询、Shell命令、配置文件,甚至是整段代码都可以。
{
"type": "custom",
"name": "code_exec",
"description": "Executes arbitrary python code",
}
CFG支持则解决了输出格式控制的各种麻烦问题。
现在可以用Lark语法定义一个严格的输出格式,模型就会确保输出符合你的语法规则。
这对需要生成DSL、配置文件或特定格式代码的场景极其有用。
而Preambles功能让模型在调用工具前先解释意图,这不仅提高了可解释性,还能帮助调试和审计。
这可以大大提升系统可调优空间,不再两眼一摸黑,不知是bug,feature 还是幻觉了。
其他功能一览
所有模型都支持如下核心功能:
Streaming:流式输出,提升用户体验
Function calling:工具调用,扩展模型能力
Structured outputs:结构化输出,确保格式正确
Fine-tuning:微调,适配特定场景
模型迁移建议
这里该划重点了。
如果你正在使用旧模型,下面这张表可以告诉你如何平滑迁移:
迁移时可以使用OpenAI提供的提示词优化工具,它能自动根据GPT-5的特性调整提示词,省去大量试错时间。
我大概试了下,好不好用没测,prompt 的token 倒是变长了好多倍……
我可不会轻易上当。
总的来说,GPT-5虽然没有达到真正的AGI,但它在API设计、参数控制、工具调用等方面还是下了不少功夫,值得都试一试。
这些新特性提供了更精细的控制能力,用好了可以在成本、速度和效果之间找到最佳平衡点。
从而做到,能省的省,该花的不心疼。
[1]
GPT-5模型指南:https://platform.openai.com/docs/guides/latest-model
[2]
定价详情:https://platform.openai.com/docs/pricing?latest-pricing=flex
[3]
GPT-5提示词优化器:https://platform.openai.com/chat/edit?models=gpt-5-nano
另外,我还用AI 进行了全网的AI 资讯采集,并用AI 进行挑选、审核、翻译、总结后发布到《AGI Hunt》的实时AI 快讯群中。
这是个只有信息、没有感情的 AI 资讯信息流(不是推荐流、不卖课、不讲道理、不教你做人、只提供信息、希望能为你节省一些时间)
欢迎加入!
也欢迎加群和5000+群友交流。