首先看看具体的跑分情况,整体的Grok3模型在数学领域AIME、科学领域GPQA和代码测试上,都超越了其他模型。
其中,数学 (AIME'24)领域上:
Grok-3(52分) 领先,明显优于其他模型。
GPT-4o(9分) 表现最差,远低于其他模型。
其他模型(Grok-3 mini, Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet)分数在 36-40 之间,相差不大。
在科学 (GPQA)领域上:
Grok-3(75分) 依然最高。
Gemini-2 Pro, DeepSeek-V3, Claude 3.5 Sonnet 均为 65分,表明这些模型在科学推理上能力相当。
编程 (Coding LCB Oct-Feb)领域上:
Grok-3(57分) 明显领先其他大模型
其他模型得分在 34-41 之间,相比数学和科学测试,差距较小。
而且,从整体的Grok 3跑出的模型整体分数来看,是 首个超过 1400 分 的模型啊!果然,马斯克吹过的牛都会实现,自家的Grok3在这个分数榜单上确实是史上最强模型。
同时Grok3也推出了自家的推理模型,从效果上看,在同样的场景下也有不错的效果。打败了o3 mini、DeepSeep-R1和Gemini-2 Flash Thinking。
在发布会上还有一张图展示了目前Grok3发展的速度。乍一看你会觉得Grok系列大模型的发展有点过快,好像从23年到现在一下子就追上了GPT-4o模型了。
但是实际上,在GPT没有出来之前,很多东西都处于发展阶段。最后还是OpenAI把这条路探出来了,才使得Grok在训练的时候知道这条路是走得通的。正因为OpenAI率先走通了这条道路,奠定了大规模语言模型的基础,后续的模型才能在这一框架下不断优化与迭代。Grok在训练过程中,借鉴了这些成功的经验与技术路径,避免了早期模型探索中的诸多弯路,从而能够更高效地完成预训练,并在语义理解、推理能力以及多模态交互等方面取得显著突破。
从另一方面来看,Grok号称用了20万张GPU进行训练。走的还是大力出奇迹的大模型训练路子。
而对比起GPT-4o和DeepSeek-V3用的GPU数量,Grok3的训练简直是土豪级别的用法的。
但是从成果上看,暴力堆叠算力以期望遵循Scaling Law的策略,可能是马斯克或Grok团队的战略误判。尽管Grok-3在性能上取得了显著提升,但其巨大的算力投入和成本引发了业界的广泛讨论。
比尔·盖茨在近期的访谈中提到,Scaling Law可能已接近其极限,未来的人工智能发展需要在元认知等方面取得新的突破。 这意味着,单纯依赖增加算力和数据规模的方法可能无法持续带来预期的性能提升。
因此,过度依赖算力堆叠而忽略算法优化和模型创新,可能并非最佳策略。未来的人工智能发展或许需要在提升模型效率、优化算法和探索新架构等方面寻求突破,以实现更高的性价比和更广泛的应用前景。
领取专属 10元无门槛券
私享最新 技术干货