部署DeepSeek模型,进群交流最in玩法!
立即加群
发布
社区首页 >专栏 >刚刚,马斯克祭出地表最强AI:20万张GPU打造Grok-3复仇,DeepSeek、OpenAI通通拿下!网友:这次没说谎。

刚刚,马斯克祭出地表最强AI:20万张GPU打造Grok-3复仇,DeepSeek、OpenAI通通拿下!网友:这次没说谎。

作者头像
AI进修生
发布2025-02-19 21:57:36
发布2025-02-19 21:57:36
1070
举报
文章被收录于专栏:AI进修生AI进修生

今天12点,马斯克发布了Grok3。

核心产品:

1. 两套主力模型:

- Grok-3(普通版+mini版)

- Grok-3 Reasoning(推理版+mini版)

- 性能全面超越OpenAI、Claude、Deepseek-R1等一众主流模型。

2. 新工具:

- Grok DeepSearch(类似OpenAI的DeepResearch)

- 专注深度研究和信息检索

使用途径:

1. X.com付费会员可优先使用

对于我们尝鲜的用户,我发现Grok 3现在可以在LMArena上直接聊天

https://lmarena.ai/

2. API使用:

- 同意数据共享可获150美元额度

- 通过console.x.ai配置

3. 问答:

- Grok-3 推理 API 将在几周后推出。

- Grok-3 语音将是本地的。

- Grok-3 将能够进行音频转文字。

- Grok-3 语音可以理解语气和情感。

- 当 Grok-3 完全推出时,xAI 将开源 Grok-2。

幕后数据:

- 投入20万GPU

- 训练周期约半年

- 成果显著:各项测试遥遥领先

一、两套模型基准测试数据

1. 普通版已经很强:

- 数学、科学、编程全面领先

- mini版本也能吊打GPT-4o

- Math(AIME'24):Grok-3达到52分,mini版40分,远超GPT-4o的9分

- Science(GPQA):Grok-3达75分,mini版65分,超过DeepSeek-V3的65分

- Coding(LCB):Grok-3达57分,mini版41分,领先其他所有模型

2. 推理版更猛:

- 数学考试打到90分以上

- mini版竟然比完整版还强

- 把o1、DeepSeek-R1这些大模型远远甩在后面

- Math(AIME'24):Reasoning Beta达93分,mini版96分,远超o1的83分

- Science(GPQA):两个版本都达到85/84分,超过o3mini(high)的80分

- Coding(LCB):保持79/80分水平,大幅领先Gemini-2的46分

关键发现:

1. 小型化效果出色:mini版本性能损失很小,某些场景甚至超过完整版

2. 推理能力突出:特别在数学领域,Reasoning版本分数几乎翻倍

3. 全面领先:在所有测试场景下都保持领先优势,不存在明显短板

4. 技术突破:即使是mini版本也能保持高水准,说明压缩技术有重大突破

有网友认为这证明了规模效应(scaling laws)仍然有效。

从数据上看,这次xAI是真的猛,不管大小版本都实现了全面超越。特别是推理能力,简直就是降维打击。

这确实展现了xAI在模型优化上的实力,尤其是在推理能力和模型压缩方面的创新,不过还需要等待实际应用场景的验证。

二、Grok-3在lmarena测试中的突破

历史性突破:

- 首个突破1400分的模型(得分1402)

- 所有类别全部拿下第一名

具体表现:

- 领先优势明显,比第二名Gemini高出近20分

- 在编程、数学、创意写作等所有领域都是第一

- 特别在编程领域完全超越o1和Gemini

关键亮点:

- 已有约8000人参与测试投票

- 胜率热力图显示对其他模型有压倒性优势

三、有趣的实际应用案例

1. 一位开发者今天早上获得Grok-3早期访问权后,立刻尝试用它开发了一个游戏:

关键亮点:

- 开发过程极其简单:只需描述想要什么,Grok就能生成完整代码

- 一键部署:生成单个文件,可直接在桌面运行

- 快速迭代:随时要求调整,Grok立即响应修改

作者评价:

- 与Sonet、4o等顶级AI相比毫不逊色

- 称Grok是"真正的玩家"(PLAYER)

- 计划将其整合进NVIM工作流

细节补充:

- 这位开发者在做家务、接送孩子的间隙就完成了游戏开发

- 游戏已经上线在thankdoge.com,可以直接玩

这个案例展示了Grok-3的实战能力:不是跑分,而是开发方式上的实践。正如作者说:"我们活在未来,人人都能成为开发者。"

2. 特斯拉前AI总监、OpenAI创始团队成员、斯坦福CS231n课程主讲人Andrej Karpathy 发布了一份Grok-3的深度测评贴:

优秀表现:

1. 思维能力(Think按钮):

- 完美解决复杂的Catan棋盘问题

- 准确计算GPT-2训练所需算力

- 能纠正基础数学错误(如9.11 > 9.9)

- 解决简单逻辑题(Sally的兄弟姐妹问题)

2. DeepSearch功能:

- 类似Perplexity的深度研究能力

- 能准确回答时事热点

- 新闻、娱乐、科技资讯表现优秀

存在问题:

1. 基础能力缺陷:

- 无法解码特殊Unicode消息

- SVG图形生成还不够完美

- 幽默感欠佳,笑话重复性高

2. DeepSearch局限:

- 不太引用X平台内容

- 偶尔产生虚假URL

- 某些事实核实不准

- 漏掉重要信息(如未提及xAI)

总体评价:

- 整体实力接近o1-pro(月费200美元)

- 超越DeepSeek-R1和Gemini 2.0

- 从零开始一年达到顶级水平,进步神速

- 已加入Karpathy的"LLM议会"

特别亮点:敢于尝试解决黎曼猜想,展现出不怕困难的勇气,这点很特别。

好了,Grok 3已经发布了,

那么,下一站。。。我们 ?

距 Claude 4 还有几天

距离 GPT-4.5 还有几周

数月后 GPT-5

多少年后达到奇点。。。

以上。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档