Google 近日发布了 Gemini 2.5 Pro,这款升级版 AI 模型在推理能力、代码生成和多模态处理方面表现更强。该模型在 LMArena(衡量 AI 回答质量的人类偏好基准)中排名第一,并在数学、科学和逻辑推理等任务上取得了优异成绩。此外,Gemini 2.5 Pro 具备 100 万 token 的上下文窗口,并计划扩展至 200 万 token。
相较于前代版本,Gemini 2.5 Pro 在逻辑分析、上下文理解和问题解决能力上有明显提升。在基准测试 GPQA 和 AIME 2025 中表现优秀,并在 Humanity’s Last Exam 数据集中达到了 18.8% 的准确率,该数据集专门用于测试 AI 处理复杂知识的能力。
来源:Google 博客
Gemini 2.5 Pro 在 AI 辅助编程方面有明显进步,在 SWE-Bench Verified(软件开发自动化的行业基准测试)中取得了 63.8% 的得分。该模型能够高效执行代码生成、转换和编辑任务。
不过,一些用户在代码集成方面遇到了问题。一位 Reddit 用户 Jumper775-2 反馈:
这个模型表现不错,但它生成的代码总是带有‘在此插入其余代码’的占位符。用聊天方式处理还行,但如果用代理来做小改动,它可能会破坏整个代码库。虽然还能接受,但确实有点烦人,让它没法成为最好的编程 AI,尽管它的代码质量很高。
Gemini 2.5 Pro 的一大亮点是能够高效处理大量数据。其 100 万 token 的上下文窗口使其能够管理庞大的数据集,并跟踪长文本输入。未来扩展至 200 万 token 后,该模型在分析长篇对话、文档和代码库方面的能力将进一步增强。
此外,该模型支持多种数据类型,包括文本、图片、音频、视频和代码库。这种多模态能力使其在开发、研究和商业应用场景中更加实用,能够更高效地处理不同格式的数据。
Gemini 2.5 Pro 的快速发展引起了 AI 社区的关注。Wavvest 的联合创始人兼 CTO Siyuan Guo 在 LinkedIn 上评价道:
刚刚深入研究了 Gemini 2.5 Pro,真的让人惊叹。100 万 token 的上下文窗口,未来还要扩展到 200 万,并且支持文本、音频、图片、视频,甚至整个代码库的多模态处理。模型迭代的速度简直太快了。
目前,Gemini 2.5 Pro 已可在 Google AI Studio 和 Gemini Advanced 访问,并计划很快登陆 Vertex AI。Google 还宣布,未来几周内将公布该模型的定价详情,并提供更高的使用上限。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。