Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >刚刚,马斯克祭出地表最强AI:20万张GPU打造Grok-3复仇,DeepSeek、OpenAI通通拿下!网友:这次没说谎。

刚刚,马斯克祭出地表最强AI:20万张GPU打造Grok-3复仇,DeepSeek、OpenAI通通拿下!网友:这次没说谎。

作者头像
AI进修生
发布于 2025-02-19 13:57:36
发布于 2025-02-19 13:57:36
1430
举报
文章被收录于专栏:AI进修生AI进修生

今天12点,马斯克发布了Grok3。

核心产品:

1. 两套主力模型:

- Grok-3(普通版+mini版)

- Grok-3 Reasoning(推理版+mini版)

- 性能全面超越OpenAI、Claude、Deepseek-R1等一众主流模型。

2. 新工具:

- Grok DeepSearch(类似OpenAI的DeepResearch)

- 专注深度研究和信息检索

使用途径:

1. X.com付费会员可优先使用

对于我们尝鲜的用户,我发现Grok 3现在可以在LMArena上直接聊天

https://lmarena.ai/

2. API使用:

- 同意数据共享可获150美元额度

- 通过console.x.ai配置

3. 问答:

- Grok-3 推理 API 将在几周后推出。

- Grok-3 语音将是本地的。

- Grok-3 将能够进行音频转文字

- Grok-3 语音可以理解语气和情感。

- 当 Grok-3 完全推出时,xAI 将开源 Grok-2。

幕后数据:

- 投入20万GPU

- 训练周期约半年

- 成果显著:各项测试遥遥领先

一、两套模型基准测试数据

1. 普通版已经很强:

- 数学、科学、编程全面领先

- mini版本也能吊打GPT-4o

- Math(AIME'24):Grok-3达到52分,mini版40分,远超GPT-4o的9分

- Science(GPQA):Grok-3达75分,mini版65分,超过DeepSeek-V3的65分

- Coding(LCB):Grok-3达57分,mini版41分,领先其他所有模型

2. 推理版更猛:

- 数学考试打到90分以上

- mini版竟然比完整版还强

- 把o1、DeepSeek-R1这些大模型远远甩在后面

- Math(AIME'24):Reasoning Beta达93分,mini版96分,远超o1的83分

- Science(GPQA):两个版本都达到85/84分,超过o3mini(high)的80分

- Coding(LCB):保持79/80分水平,大幅领先Gemini-2的46分

关键发现:

1. 小型化效果出色:mini版本性能损失很小,某些场景甚至超过完整版

2. 推理能力突出:特别在数学领域,Reasoning版本分数几乎翻倍

3. 全面领先:在所有测试场景下都保持领先优势,不存在明显短板

4. 技术突破:即使是mini版本也能保持高水准,说明压缩技术有重大突破

有网友认为这证明了规模效应(scaling laws)仍然有效。

从数据上看,这次xAI是真的猛,不管大小版本都实现了全面超越。特别是推理能力,简直就是降维打击。

这确实展现了xAI在模型优化上的实力,尤其是在推理能力和模型压缩方面的创新,不过还需要等待实际应用场景的验证。

二、Grok-3在lmarena测试中的突破

历史性突破:

- 首个突破1400分的模型(得分1402)

- 所有类别全部拿下第一名

具体表现:

- 领先优势明显,比第二名Gemini高出近20分

- 在编程、数学、创意写作等所有领域都是第一

- 特别在编程领域完全超越o1和Gemini

关键亮点:

- 已有约8000人参与测试投票

- 胜率热力图显示对其他模型有压倒性优势

三、有趣的实际应用案例

1. 一位开发者今天早上获得Grok-3早期访问权后,立刻尝试用它开发了一个游戏:

关键亮点:

- 开发过程极其简单:只需描述想要什么,Grok就能生成完整代码

- 一键部署:生成单个文件,可直接在桌面运行

- 快速迭代:随时要求调整,Grok立即响应修改

作者评价:

- 与Sonet、4o等顶级AI相比毫不逊色

- 称Grok是"真正的玩家"(PLAYER)

- 计划将其整合进NVIM工作流

细节补充:

- 这位开发者在做家务、接送孩子的间隙就完成了游戏开发

- 游戏已经上线在thankdoge.com,可以直接玩

这个案例展示了Grok-3的实战能力:不是跑分,而是开发方式上的实践。正如作者说:"我们活在未来,人人都能成为开发者。"

2. 特斯拉前AI总监、OpenAI创始团队成员、斯坦福CS231n课程主讲人Andrej Karpathy 发布了一份Grok-3的深度测评贴:

优秀表现:

1. 思维能力(Think按钮):

- 完美解决复杂的Catan棋盘问题

- 准确计算GPT-2训练所需算力

- 能纠正基础数学错误(如9.11 > 9.9)

- 解决简单逻辑题(Sally的兄弟姐妹问题)

2. DeepSearch功能:

- 类似Perplexity的深度研究能力

- 能准确回答时事热点

- 新闻、娱乐、科技资讯表现优秀

存在问题:

1. 基础能力缺陷:

- 无法解码特殊Unicode消息

- SVG图形生成还不够完美

- 幽默感欠佳,笑话重复性高

2. DeepSearch局限:

- 不太引用X平台内容

- 偶尔产生虚假URL

- 某些事实核实不准

- 漏掉重要信息(如未提及xAI)

总体评价:

- 整体实力接近o1-pro(月费200美元)

- 超越DeepSeek-R1和Gemini 2.0

- 从零开始一年达到顶级水平,进步神速

- 已加入Karpathy的"LLM议会"

特别亮点:敢于尝试解决黎曼猜想,展现出不怕困难的勇气,这点很特别。

好了,Grok 3已经发布了,

那么,下一站。。。我们 ?

距 Claude 4 还有几天

距离 GPT-4.5 还有几周

数月后 GPT-5

多少年后达到奇点。。。

以上。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
马斯克全新发布Grok3模型,坐拥20万张卡的新王!
在 200 多万人的见证下,马斯克的 AI 公司 xAI 正式推出 Grok 3!
Datawhale
2025/02/19
1520
马斯克全新发布Grok3模型,坐拥20万张卡的新王!
Grok3大模型是「地表最强」的AI吗?
首先看看具体的跑分情况,整体的Grok3模型在数学领域AIME、科学领域GPQA和代码测试上,都超越了其他模型。
算法一只狗
2025/03/17
1240
Grok-3干掉GPT-4o,却没走出“AI死胡同”?
如今我们越来越明显地感受到,“Scaling Law 规模扩展”似乎走到了尽头。即使投入了庞大的算力资源,Grok-3 的性能也只略高于 GPT-4o,这让人不禁怀疑,单纯依赖堆叠算力的路径,是否仍是一条可持续的发展方向。
算法一只狗
2025/05/04
1240
Grok-3轻量推理优势,轻松超越o3 mini和DeepSeek
在最新公开榜单中,Grok-3 成为首个综合得分突破 1400的大模型,可谓风头无两。不过,拆开各分项指标后,我们可以看到更细致的差异。
算法一只狗
2025/04/27
1770
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
自 OpenAI 发布 o1-mini 模型以来,推理模型就一直是 AI 社区的热门话题,而春节前面世的开放式推理模型 DeepSeek-R1 更是让推理模型的热度达到了前所未有的高峰。
机器之心
2025/02/25
1940
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
关于Grok3和DeepSeek背后苦涩教训引发的思考
Ilya Sutskever(前 OpenAI 联合创始人兼首席科学家)曾在在召开的 NeurIPS 会议上表示,大模型的预训练已经走到了尽头。 而 Noam Brown(OpenAI 研究员,曾带领团队开发出在德州扑克中战胜职业选手的 AI 系统 Pluribus)在关于 OpenAI O1 发布的采访中提到,提升 Test-Time Compute 是提升大模型答案质量的关键。2024 年的圣诞节前夕,一片节日气氛下,湾区的硅谷 AI 大佬、机构和投资者们正在深入探讨从 “Scaling Learning” 向 “Scaling Search” 转变的路径。而这一切的思考,都可以追溯到 Rich Sutton(强化学习领域的奠基人之一)在 2019 年发表的经典短文 The Bitter Lesson (苦涩的教训)。
致Great
2025/02/24
1650
关于Grok3和DeepSeek背后苦涩教训引发的思考
2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!
最初,DeepSeek凭借其“性价比”优势迅速扩展到全球各地,随后引发了整个行业的激烈竞争。到了2月初,谷歌推出了Gemini 2.0系列模型。
福大大架构师每日一题
2025/03/06
3090
2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!
马斯克发布新一代大模型Grok 3:算力支撑下的 AI 跃进
从行业发展的大背景来看,人工智能领域正处于高速发展的阶段,各大科技公司纷纷在 AI 领域布局,大模型作为 AI 发展的核心驱动力之一,其重要性不言而喻。发布新一代大模型是马斯克在 AI 赛道持续竞争的关键举措。随着 AI 应用场景的不断拓展,从智能驾驶到智能家居,从医疗诊断到金融风控,对大模型的性能和能力提出了更高的要求 。Grok 3 的发布,有助于马斯克旗下的特斯拉在自动驾驶领域取得更大的突破,以及推动人形机器人擎天柱的发展。有消息称,马斯克已经把 Grok 3 接入到了特斯拉汽车,借助特斯拉积累多年的车辆传感器数据和 SpaceX 的航天技术资料,Grok 3 能实时解析道路积水深度、预判相邻车辆的走位,甚至提前 30 天预测电池故障。
算力之光
2025/02/19
1740
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
AI工具爆炸,模型遍地开花。今年的科研圈,要说最显眼的变化,绝对少不了“AI工具大跃进”。但问题来了!哪个模型,才是科研人该认真选择的外挂?
用户11203141
2025/03/12
2060
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
深夜悄悄搞事情的不只 OpenAI,抢在 OpenAI 开直播之前,谷歌上线了最强大的推理模型 Gemini 2.5 Pro。
机器之心
2025/03/27
2750
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
刚刚,OpenAI官宣o3-mini和o3-mini-high两大版本正式在ChatGPT上线。
新智元
2025/02/04
1160
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
o3-mini 之后,大的要来了?!我不敢相信我们以前写代码真的会敲出每个字符!
还有完整版o3也快到来了, 此外Grok 3和Gemini 2.0 Pro等模型也在发布时间上线了:
AI进修生
2025/02/03
1630
o3-mini 之后,大的要来了?!我不敢相信我们以前写代码真的会敲出每个字符!
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?
好消息: 这是第一个让他感觉像在和一个真正会思考的人对话的模型。有几次他甚至惊讶于AI给出的建议竟然如此中肯。
AI进修生
2025/02/28
3320
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?
Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。
每隔几天就有新模型发布:DeepSeek-R1与o1竞技,「星际之门计划」启动,投5000亿美元布局AGI,现在又是Grok-3。
AI进修生
2025/02/03
2370
Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。
谷歌最强模型深夜来袭!Gemini2.5Pro发布即屠榜,附国内调用教程
【星云智能资讯】Gemini 2.5 Pro于近日重磅上线!这款专为复杂任务设计的”思考”型模型,凭借强大推理能力,一经推出便横扫各大权威榜单,以破纪录的成绩摘得多项桂冠,成为AI领域的焦点。
POLOAPI
2025/05/07
4330
谷歌最强模型深夜来袭!Gemini2.5Pro发布即屠榜,附国内调用教程
AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?
3月25日,DeepSeek官方宣布其DeepSeek-V3模型完成了小版本升级,版本号更新为DeepSeek-V3-0324。用户可以通过官方网页、App或小程序访问对话界面,关闭“深度思考”功能以体验新版模型。API接口和使用方式保持不变。
福大大架构师每日一题
2025/03/31
2070
AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?
Grok 3与DeepSeek:AI技术的巅峰对决
引言:AI技术的快速发展与竞争格局 随着人工智能技术的飞速发展,全球科技巨头纷纷在AI领域展开激烈竞争。近期,马斯克旗下的xAI公司发布了新一代AI模型Grok 3,引发了广泛关注。与此同时,中国的DeepSeek也凭借其卓越的技术表现成为全球AI领域的焦点。本文将对Grok 3与DeepSeek的技术架构、性能表现、应用场景等,探讨两者在AI领域的竞争态势与合作潜力。 一、技术架构:从基础框架到创新优化 在AI模型的开发中,技术架构的选择是决定模型性能和效率的关键因素之一。Grok 3与DeepSeek在技术架构上各有侧重,展现了不同的技术路线和创新方向。 (一)Grok 3:改进型Transformer架构与多模态融合 Grok 3采用了改进型的Transformer架构,这一架构在自然语言处理(NLP)领域已被广泛验证其有效性。然而,Grok 3的创新之处在于引入了特斯拉专利的位置编码技术,这一改进使得模型在处理长文本和复杂的语义关系时表现更为出色。此外,Grok 3还支持多模态处理,能够同时处理文本、图像和语音等多种数据类型。这种多模态能力的融合为模型在更广泛的应用场景中提供了强大的支持,例如在自动驾驶、智能家居和医疗影像分析等领域。 (二)DeepSeek:混合专家模型(MoE)与动态负载均衡 与Grok 3的多模态架构不同,DeepSeek采用了混合专家模型(MoE)架构。MoE架构的核心在于通过动态负载均衡来优化计算资源的分配。这种架构使得DeepSeek在处理大规模数据时能够更高效地利用计算资源,从而在保持高性能的同时显著降低了训练成本。DeepSeek的这一技术路线特别适合中小企业和开发者,因为它能够在有限的资源下实现高效的模型训练和部署。 二、性能表现:推理能力与多模态拓展 在AI模型的性能评估中,推理能力是衡量模型智能水平的重要指标。Grok 3与DeepSeek在数学推理、科学推理和编程能力等方面的表现各有千秋,展现了不同的技术优势。 (一)数学推理:高精度与高效率的较量 数学推理能力是AI模型在解决复杂问题时的重要体现。在AIME 2024测试中,Grok 3的得分为52分,显著高于DeepSeek-V3的39分。这一结果显示了Grok 3在处理高级数学问题时的高精度能力。然而,DeepSeek在数学推理方面也表现出色,尤其是在工程计算和数学方程求解方面,其优化的算法使得模型在处理实际问题时效率更高。 在2025年的AIME测试中,Grok 3 Reasoning Beta版本进一步提升,得分达到93分,而DeepSeek-R1为75分。这一差距表明Grok 3在数学推理的深度和广度上具有明显优势,尤其是在处理复杂的数学逻辑和抽象问题时。然而,DeepSeek在数学推理的实用性方面也值得肯定,其在物理建模和工程计算中的表现使其在实际应用中具有较高的价值。 (二)科学推理:知识理解与应用能力的对比 科学推理能力是AI模型在处理科学问题时的重要体现。Grok 3在科学知识评估(GPQA)中得分75分,领先于DeepSeek-V3的65分。这一结果显示了Grok 3在科学知识理解和推理方面的能力更强。Grok 3通过大规模的训练数据和先进的算法,能够更好地理解和应用科学知识,从而在处理复杂的科学问题时表现出更高的精度。 然而,DeepSeek在科学推理方面也有其独特的优势。其在物理建模和数学方程求解方面的表现使其在工程计算和科学研究中具有较高的实用性。DeepSeek通过优化算法和高效的计算架构,能够在有限的资源下实现高效的科学推理,这对于中小企业和开发者来说具有重要的意义。 (三)编程能力:代码生成与项目分析的差异 编程能力是AI模型在软件开发和工程应用中的重要体现。在编程能力测试(LCB Oct-Feb)中,Grok 3得分57分,而DeepSeek-V3为36分。这一结果显示了Grok 3在代码生成和编程逻辑方面的优势。Grok 3能够生成高质量的代码,并且在处理复杂的编程问题时表现出更高的精度。 然而,DeepSeek在编程能力方面也有其独特的优势。其在代码补全和大型项目分析方面表现出色,能够更好地支持软件开发和工程应用。DeepSeek通过优化算法和高效的计算架构,能够在有限的资源下实现高效的编程能力,这对于中小企业和开发者来说具有重要的意义。 (四)多模态能力:从图像到视频的拓展 多模态能力是AI模型在处理多种数据类型时的重要体现。Grok 3支持有限的图像处理和语音生成,并且正在开发视频理解功能。这种多模态能力的融合为Grok 3在更广泛的应用场景中提供了强大的支持,例如在自动驾驶、智能家居和医疗影像分析等领域。 相比之下,DeepSeek目前主要专注于文本和代码处理,暂无多模态拓展计划。然而,DeepSeek在文本处理和代码生成方面的优势使其在
用户7353950
2025/02/21
1800
Grok 3与DeepSeek:AI技术的巅峰对决
DeepSeek-R1:强化学习驱动的LLM推理能力提升
本文主要介绍一种新的训练策略,通过纯强化学习显著提升了LLM的推理能力,主要包括下面几点:
三掌柜
2025/02/06
2870
DeepSeek-R1:强化学习驱动的LLM推理能力提升
DeepSeek R1&V3 原版论文摘要
论文还开源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama的多个蒸馏模型,为研究社区提供了宝贵的资源。
用户11468258
2025/02/05
5000
DeepSeek R1&V3 原版论文摘要
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
为期12天的OpenAI发布会,本来以为会被谷歌抢去风头。不过最后这一天不负众望,宣布了一个令人兴奋的最新推理大模型o3,它的能力直线上升,超越了目前所有的大模型。是否是真的迈向了通用人工智能AGI,我只能说看到了一定的希望。
算法一只狗
2024/12/22
4050
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
推荐阅读
马斯克全新发布Grok3模型,坐拥20万张卡的新王!
1520
Grok3大模型是「地表最强」的AI吗?
1240
Grok-3干掉GPT-4o,却没走出“AI死胡同”?
1240
Grok-3轻量推理优势,轻松超越o3 mini和DeepSeek
1770
从o1-mini到DeepSeek-R1,万字长文带你读懂推理模型的历史与技术
1940
关于Grok3和DeepSeek背后苦涩教训引发的思考
1650
2025年2月的LLM最新排名中,Grok 3表现出色,逆势而上,而Claude 3.7 Sonnet则令人刮目相看,成绩突出!
3090
马斯克发布新一代大模型Grok 3:算力支撑下的 AI 跃进
1740
Nature推荐:五大AI模型如何攻克不同科研场景?(内含Deepseek)
2060
谷歌终于登顶一次了!最强推理模型Gemini 2.5 Pro实测体验,真的有点东西
2750
奥特曼率队深夜血战DeepSeek,o3-mini急上线!价格骨折免费用,ChatGPT被挤爆
1160
o3-mini 之后,大的要来了?!我不敢相信我们以前写代码真的会敲出每个字符!
1630
GPT-4.5登场!一个让Sam感到真实的AI,看到基准分数后,网友炸锅:2T参数都白训了?
3320
Grok 3.0 即将发布!或将成为世界上最强大的 AI。预训练现已完成,计算能力比 Grok 2 强 10 倍。
2370
谷歌最强模型深夜来袭!Gemini2.5Pro发布即屠榜,附国内调用教程
4330
AI巨头集体放大招!DeepSeek优化、豆包变强、ChatGPT画图不靠DALL·E、Gemini 2.5挑战GPT-5?
2070
Grok 3与DeepSeek:AI技术的巅峰对决
1800
DeepSeek-R1:强化学习驱动的LLM推理能力提升
2870
DeepSeek R1&V3 原版论文摘要
5000
当你以为OpenAI要跌落神坛时,他们发布了最强推理大模型o3
4050
相关推荐
马斯克全新发布Grok3模型,坐拥20万张卡的新王!
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档