Anthropic 刚发布的 Claude Sonnet 5,在 Artificial Analysis 的智能指数上拿到了53分——比上一代 Sonnet 4.6 高了6分,追平了 GPT-5.5(高推理模式)。但代价是:每任务成本 $2.29,比 Opus 4.8 还贵15%。
这不是因为 Sonnet 5 的 API 单价涨了(仍然是 3/15 每百万 token),而是因为它为了“努力”工作,多吃了约40%的输出 token。在知识工作类任务(如 AA-Briefcase 和 GDPval-AA)上,它甚至用了比 Sonnet 4.6 多3倍的 agentic 交互轮次。

核心数据:
成本对比:

Anthropic 显然意识到了这个问题:他们推出了促销价(2/10 每百万 token,直到9月1日),相当于打七折。促销后每任务成本约
Token 消耗:

Sonnet 5 平均每任务输出 69k token,仅次于 GPT-5.4 mini 和 nano。如果你在跑大批量推理,这个数字会让你肉疼。
Agentic 能力:

在 AA-Briefcase 和 GDPval-AA 上,Sonnet 5 与 Opus 4.8 持平甚至略优。对于需要多轮交互、生成专业文档的 agent 应用,Sonnet 5 可能是更好的选择——前提是你受得了 token 账单。
详细评估:

有个反常识的点:Sonnet 系列一直主打“更小、更快、更便宜”,但 Sonnet 5 为了追智能,放弃了“便宜”这个标签。它在 agentic 任务上确实强,但如果你只是做简单问答或代码补全,用 Opus 4.8 甚至 Sonnet 4.6 可能更划算。
Anthropic 在赌:用户愿意为 agentic 能力多付钱。毕竟,OpenAI 的 GPT-5.6 也快来了,价格战只会更激烈。
如果你正在评估是否迁移到 Sonnet 5,建议先跑一下自己的典型任务,算算 token 消耗。促销期间可以试试,但别被“更强”冲昏头——你的钱包会说话。
更多对比数据:https://artificialanalysis.ai/models/claude-sonnet-5
关注公众号回复“进群”入群讨论