今天12点,马斯克发布了Grok3。
核心产品:
1. 两套主力模型:
- Grok-3(普通版+mini版)
- Grok-3 Reasoning(推理版+mini版)
- 性能全面超越OpenAI、Claude、Deepseek-R1等一众主流模型。
2. 新工具:
- Grok DeepSearch(类似OpenAI的DeepResearch)
- 专注深度研究和信息检索
使用途径:
1. X.com付费会员可优先使用
对于我们尝鲜的用户,我发现Grok 3现在可以在LMArena上直接聊天
https://lmarena.ai/
2. API使用:
- 同意数据共享可获150美元额度
- 通过console.x.ai配置
3. 问答:
- Grok-3 推理 API 将在几周后推出。
- Grok-3 语音将是本地的。
- Grok-3 将能够进行音频转文字。
- Grok-3 语音可以理解语气和情感。
- 当 Grok-3 完全推出时,xAI 将开源 Grok-2。
幕后数据:
- 投入20万GPU
- 训练周期约半年
- 成果显著:各项测试遥遥领先
一、两套模型基准测试数据
1. 普通版已经很强:
- 数学、科学、编程全面领先
- mini版本也能吊打GPT-4o
- Math(AIME'24):Grok-3达到52分,mini版40分,远超GPT-4o的9分
- Science(GPQA):Grok-3达75分,mini版65分,超过DeepSeek-V3的65分
- Coding(LCB):Grok-3达57分,mini版41分,领先其他所有模型
2. 推理版更猛:
- 数学考试打到90分以上
- mini版竟然比完整版还强
- 把o1、DeepSeek-R1这些大模型远远甩在后面
- Math(AIME'24):Reasoning Beta达93分,mini版96分,远超o1的83分
- Science(GPQA):两个版本都达到85/84分,超过o3mini(high)的80分
- Coding(LCB):保持79/80分水平,大幅领先Gemini-2的46分
关键发现:
1. 小型化效果出色:mini版本性能损失很小,某些场景甚至超过完整版
2. 推理能力突出:特别在数学领域,Reasoning版本分数几乎翻倍
3. 全面领先:在所有测试场景下都保持领先优势,不存在明显短板
4. 技术突破:即使是mini版本也能保持高水准,说明压缩技术有重大突破
有网友认为这证明了规模效应(scaling laws)仍然有效。
从数据上看,这次xAI是真的猛,不管大小版本都实现了全面超越。特别是推理能力,简直就是降维打击。
这确实展现了xAI在模型优化上的实力,尤其是在推理能力和模型压缩方面的创新,不过还需要等待实际应用场景的验证。
二、Grok-3在lmarena测试中的突破
历史性突破:
- 首个突破1400分的模型(得分1402)
- 所有类别全部拿下第一名
具体表现:
- 领先优势明显,比第二名Gemini高出近20分
- 在编程、数学、创意写作等所有领域都是第一
- 特别在编程领域完全超越o1和Gemini
关键亮点:
- 已有约8000人参与测试投票
- 胜率热力图显示对其他模型有压倒性优势
三、有趣的实际应用案例
1. 一位开发者今天早上获得Grok-3早期访问权后,立刻尝试用它开发了一个游戏:
关键亮点:
- 开发过程极其简单:只需描述想要什么,Grok就能生成完整代码
- 一键部署:生成单个文件,可直接在桌面运行
- 快速迭代:随时要求调整,Grok立即响应修改
作者评价:
- 与Sonet、4o等顶级AI相比毫不逊色
- 称Grok是"真正的玩家"(PLAYER)
- 计划将其整合进NVIM工作流
细节补充:
- 这位开发者在做家务、接送孩子的间隙就完成了游戏开发
- 游戏已经上线在thankdoge.com,可以直接玩
这个案例展示了Grok-3的实战能力:不是跑分,而是开发方式上的实践。正如作者说:"我们活在未来,人人都能成为开发者。"
2. 特斯拉前AI总监、OpenAI创始团队成员、斯坦福CS231n课程主讲人Andrej Karpathy 发布了一份Grok-3的深度测评贴:
优秀表现:
1. 思维能力(Think按钮):
- 完美解决复杂的Catan棋盘问题
- 准确计算GPT-2训练所需算力
- 能纠正基础数学错误(如9.11 > 9.9)
- 解决简单逻辑题(Sally的兄弟姐妹问题)
2. DeepSearch功能:
- 类似Perplexity的深度研究能力
- 能准确回答时事热点
- 新闻、娱乐、科技资讯表现优秀
存在问题:
1. 基础能力缺陷:
- 无法解码特殊Unicode消息
- SVG图形生成还不够完美
- 幽默感欠佳,笑话重复性高
2. DeepSearch局限:
- 不太引用X平台内容
- 偶尔产生虚假URL
- 某些事实核实不准
- 漏掉重要信息(如未提及xAI)
总体评价:
- 整体实力接近o1-pro(月费200美元)
- 超越DeepSeek-R1和Gemini 2.0
- 从零开始一年达到顶级水平,进步神速
- 已加入Karpathy的"LLM议会"
特别亮点:敢于尝试解决黎曼猜想,展现出不怕困难的勇气,这点很特别。
好了,Grok 3已经发布了,
那么,下一站。。。我们 ?
距 Claude 4 还有几天
距离 GPT-4.5 还有几周
数月后 GPT-5
多少年后达到奇点。。。
以上。