首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大模型继续卷!要打败Claude-Sonnet-3.7、Grok3 看来要等 DeepSeek-R2 了!

最近大模型真是卷得可怕!

DeepSeek 才开源了两个项目,Grok3 刚刚发布,Claude-Sonnet-3.7就来了!

这次 Claude 又整了个新概念,混合推理模型,简单地就是,你别让人选推理模式(思考&Reason),应该让模型自己决定什么时候推理,什么时候简单点回复我!这样听起来似乎大模型更智能了一些。

下面就是今天喜闻乐见的“竞技场”了,同样一个问题。

这次的问题也是外网玩的最多的一个问题,看起来还是挺复杂的!

Write a p5.js script that simulates 25 particles in a vacuum space of a cylindrical container, bouncing within its boundaries. Use different colors for each ball and ensure they leave a trail showing their movement. Add a slow rotation of the container to give better view of what's going on in the scene. Make sure to create proper collision detection and physic rules to ensure particles remain in the container. Add an external spherical container. Add a slow zoom in and zoom out effect to the whole scene.

编写一个p5. js脚本,模拟圆柱形容器的真空空间中的25个粒子,在其边界内弹跳。为每个球使用不同的颜色,并确保它们留下显示其运动的轨迹。添加容器的缓慢旋转,以更好地查看场景中发生的事情。确保创建适当的冲突检测和物理规则,以确保粒子留在容器中。添加一个外部球形容器。为整个场景添加一个缓慢的放大和缩小效果。

Claude-Sonnet-3.7

首先是 Claude-Sonnet-3.7 的结果,一个代码没有改,代码直出,确实有点啊。

不论是小球的数量、还是轨迹、还是放大缩小的效果都看着很惊艳。

我甚至怀疑这不是预先监督训练过的问题。

Grok3

然后再来看看 Grok3 的结果,Grok3 模式选择推理,花费了 136秒,效果也不错,整体完成度很高。

但是 Grok3 的轨迹表现不如 Soonet-3.7。

而且放大缩小的速率看着不是很流畅。

DeepSeek-R1

当然少不了我们的 DeepSeek-R1,深度思考模式下,思考用时 332 秒。

DeepSeek-R1 的结果表现放大和缩小很不错,但是小球的运动轨迹似乎差点意思,然后没有表现出圆柱体。

看完这三个结果,我只能说现在大模型领域真的太卷了。

悄悄的说,其实我还偷偷用通义和混元都跑了一下这个问题,两个代码都无法直接运行,不是推理模型确实无法一次就解决这种复杂的编程问题。

OpenAI

当然没有忘了 OpenAI,使用 reason 模式的结果,但是结果吧

你说他对吧,也不对。他理解了放大缩小,但是放在一个二维平面上了。但是问题中明确提到了柱形容器。

似乎我的 OpenAI 也确实降智了。

这很符合最近国内很多人的 OpenAI 都被降智的现象。

也确实从一个层面说明 AI 的竞争并不仅仅几家公司的竞争。

总结一下

从目前的发布时间来看。

DeepSeek-R1 还是很能打的!

要知道这是在 Grok3 和 Sonnet-3.7 之前就发布的模型。

在经历春节期间的 AI 竞赛后,新放出来的模型应该是专门做过针对性优化来的。

但是这种问题的单词询问并不能作为大模型的标准评测手段,毕竟大模型的回答并不是固定不变的。

但是相对于各种评测标准,这种复杂编程问题很能体现一个大模型的能力,尤其是思考能力。

这么看的话,新发布的模型,确实卷赢了。

如果想要继续竞争下去,并体现出足够的竞争力的话,看来要期待 DeepSeek-R2 的表现,据说 5 月份就要发布。

就在我写完这篇的时候,通义正在为开源 Wan2.1进行直播。

这算是文生视频领域的第一个开源模型了吧!

如果你也对大模型的发展、如何使用大模型解决工作中的分钟问题和 DeepSeek 等大模型的各种使用方法感兴趣。可以扫码和我交朋友,找到同路人,在 AI 时代共同进步,备注与“AI”相关的任何概念均可。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OjBT3zn-wRbGidjEl-11tRlg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券