首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >不止deepseek,这家国内AI公司也在海外杀疯了

不止deepseek,这家国内AI公司也在海外杀疯了

作者头像
小林coding
发布2025-02-24 11:52:03
发布2025-02-24 11:52:03
3401
举报
文章被收录于专栏:小林coding小林coding

太刺激了,又一家国产 AI 公司在海外杀疯了!

在开年 1 月份中旬的时候,MiniMax 发布并开源了 MiniMax-01 大模型,这可是比 deepseek 还早 4 天开源的国产大模型。

MiniMax 这匹黑马能杀出来是真的很牛,MiniMax-01 模型一经上线,凭借超长的长文本理解能力,就疯狂收割海外用户好评,被海外媒体称作是“能和 OpenAI 掰手腕的顶尖模型”。

有海外网友看到 MiniMax-01 支持 4M Tokens 上下文的能力,令他难以置信,很是震惊。

也有网友感慨到,终于有一个给我长回复的模型,之前被 OpenAI 模型困住了

反观 OpenAI,一点都不 “Open”,始终将核心技术紧紧攥在手中,这种封闭策略,虽然说让它在短期内保持了一定的技术领先优势和商业利益,但从长远来看,却也限制了整个 AI 行业的快速发展与创新。

Sam Altman 回答网友问题时,也表示OpenAI过去在开源方面一直站在“历史错误的一边”。

而国内大模型格局是真的大,想通过开源共创的集体力量,加速整个 AI 圈的发展,让我们心目中的 AGI 时代能尽早到来。

为什么要开源?

MiniMax-01 作为具备超长上下文能力的大模型,选择开源,目的是为了加速 Agent 时代的到来,让更多好用、具有创新的 Agent 应用能够我们日常的生活中。

现在 Agent 的发展越发依赖强大的扩展上下文处理能力,以及持续稳定的内存支撑。正好,MiniMax-01 最牛逼的能力就是在长文处理方面,目前这方面能力是全球顶尖的,直接给 Agent 时代进行空中加油,直接起飞。

MiniMax-01 中实现的线性注意力机制特别值得说一下,前几天 DeepSeek 发布的论文上也提到了架构创新,但其实这个创新早在 1 月份就被落地在MiniMax-01模型上并开源 ,它打破了Transformer架构的输入长度限制,让大模型处理长文本有了全新的技术方法!这种 LLM 技术层面的引领,真的至关重要!

使用的结构如下图,其中每8层中有7个是基于Lightning Attention的线性注意力,有一层是传统的SoftMax注意力。

那这次 MiniMax 架构创新带来了什么收益?直接使得模型能够高效处理全球最长 400 万 token的上下文,这可是 Claude-3.5-Sonnet的 20 倍,更是 GPT-4o 的 32 倍,真是没有对比就没有伤害。

token 你可以理解为文字里的 “小积木”,我们看到文字和词语,在大模型的世界里就会被拆分成一个个 token,就像把一座大房子拆成了一块块小积木。

那 400 万 token 有多少呢?给大家举个更形象的例子,刘慈欣的《三体》单本大概20来万字,如果拆成token的话差不多25万左右。这么算下来,400万token能把整个《三体》三部曲装进去还能再塞几本番外,差不多是十六七本实体书的体量。你要是去书店搬些书,别说抱着走,光是从架子上取下来都得喊人搭把手。

这么多的 token 上下文有什么独特的优势吗?token 越多,代表大模型的 “记忆力” 越强

面对 MiniMax-01 大模型长文本的处理能力,想象一下,你拿着《三体》这样十几万字的科幻巨著,连续把三部曲都喂给 MiniMax-01 模型,它都不嫌多,还能跟你对畅聊无阻,即使连读喂 15 本《三体》这种体量的书,MiniMax-01 模型都能把所有内容全盘吸收,你问第几本书的细节,都能给你精准的回答。

要想体验到好用的 Agent,离不开持续记忆的能力。不管是单 Agent 的系统需要持续的记忆,还是多 Agent 的系统中 Agent 之间大量的相互通信,都需要越来越长的上下文。

还值得一提是,MiniMax 模型综合性能是比肩海外顶尖模型的

新模型 MiniMax-Text-01 性能与这阵子大伙的 DeepSeek-V3、GPT-4o 等先进的大模型都不相上下

长文本处理能力,更是遥遥领先。

Gemini 之前在长文本处理能力上是绝对王者,可是 MiniMax-Text-01 一出现,直接把 Gemini 拉下了神坛。

如下图(c)所示,随着输入长度变长,MiniMax-Text-01 是性能衰减最慢的模型,显著优于Google Gemini。

注意看,在 512K 长度的时候,谷歌最新的 Gemini-2.0-Flash ,性能衰减很快,直接被 MiniMax-Text-01 给“按到地板”上了。

实测效果如何?

熟悉我的读者都知道,我开源了一本《图解系统》 pdf,文件内涵盖 15 万字的内容 + 500 多张图,现在来用这个 pdf ,实测看看 MiniMax-01 长文本处理的能力如何?

直接打开这个地址:https://minimaxi.com/,就能直接在线体验 MiniMax-01 新模型。

我把《图解系统》.pdf 丢进去,这个 pdf 可是有 432 页,如果全程读下来,得花好几个星期的时间了。

我让 MiniMax-01 帮我总结《图解系统》.pdf 讲了哪些操作系统的知识,他整理的非常全面且清晰,基本把 pdf 核心内容都梳理好了,甚至把我 pdf 最底部内容的画图经验也总结进去了。

再进一步,我去追问他文章的细节,比如问「pdf 是如何介绍零拷贝的?」

回答很到位,零拷贝每一种技术实现的方式都做了详细的说明,还给出了零拷贝的局选性,甚至还给出了「 sendfile 零拷贝总数据拷贝次数减少到 2 次,且所有拷贝都由 DMA 完成」这些比较细节的事情。

这简直就是全新的学习方式!

我们直接导入需要学习的 pdf,利用 MiniMax-01 模型这强大的长文本处理能力,先让它帮我们梳理核心内容,再根据具体的细节进一步提问,还不懂可以继续追问,直到掌握这个知识为主。

这样有交互性的学习,学习效率一定是大增的,可能原本需要 2 周才能看完的书,现在利用 MiniMax-01 模型,可能只需要 2 天的时间。

卷 AI 应用好,还是卷大模型好?

MiniMax-01 选择开源,除了前面说了可以加速 Agent 时代的发展。

还有另外一个重要的原因,可以促使 MiniMax 团队做更多的创新,不念过往成绩,以更高质量地开展后续的模型研发工作。

可能很多同学也会好奇,为什么海螺 AI 不卷应用,而是选择做更难的大模型技术创新的工作呢?

MiniMax创始人闫俊杰是技术出身的,他坚信好的模型才是一切的基础,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。

比如说,春节期间爆火的 DeepSeek,是凭借着 R1 优秀的模型能力迅速出圈,直接成为互联网历史上用户增长速度最快的产品。

但是,你会发现 DeepSeek 在应用方面做的是极其简单的,因为它们的重心并不在这,而是再大模型的技术创新上。

MiniMax 同样也是以技术为驱动。

对于 MiniMax-01 模型的开源,创始人闫俊杰曾表示「如果可以重新选,应该第一天就开源」。

MiniMax 最重要的目标其实并不是增长,也不是收入,而是通过开源来“加速技术迭代”,做得好的地方有鼓励,不好的地方会有很多批评,外面的人也会有贡献,这是他们开源的最大驱动力。

当模型的迭代创新一直在加速,那么就会促使 MiniMax 的 C 端产品拥有更好的体验,最后才有可能在 AI 应用市场中站稳脚。

现在国内搞大模型的,大厂与 AI 创业公司选择了多样的道路发展前行,有的专攻 APP 产品,定制合作项目、为政企定制小模型等,也有的一直在大模型技术创新上做持续的努力。

比如,DeepSeek 和 MiniMax 都是选择的是一条不走捷径、难,但可以走向更高更远的路——坚持技术创新,这在国内乃至全球的AI公司中,都是少有且珍贵的。

最后,不得不感慨,短短两年间,大模型的 “更新换代速度” 惊人,始终保持着以月为单位的高频更迭态势。

AI 圈,变得就是如此之快,真的是 AI一天,人间一年啊。

过去,我们总会吐槽国内大模型公司,还是跟以前的互联网一样,还是一直借着国外技术创新的成果,卷应用,在技术创新层面上,毫无贡献。

而现在,听到在大模型领域有新的技术创新的消息,越来越多有中国公司的身影。

2025 年,势必会因为 MiniMax-01 模型架构的持续创新,让 Agent 时代的到来会更快一些。

我们一起期待,一起共同见证。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小林coding 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么要开源?
  • 实测效果如何?
  • 卷 AI 应用好,还是卷大模型好?
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档