🍹 Insight Daily 🪺
Hi,这里是Aitrainee,欢迎阅读本期新文章。
400万token的上下文窗口,相当于整个《哈利·波特》总字数的三倍。
这次,MiniMax 放了个大招。
他们开源了MiniMax-01系列,分为基础语言模型 MiniMax-Text-01 和 视觉多模态模型 MiniMax-VL-01。
这个团队,曾做出过顶级AI视频模型海螺AI。
他们在视频模型上的成就,已经证明了自己的实力。
而这次的MiniMax-Text-01用了混合架构:Lightning Attention、Softmax Attention和MoE。用 Lightning Attention 替代传统Transformer,让模型更高效。
性能和DeepSeek-V3、GPT-4o相当,超长文本处理时还略胜一筹,支持长度是GPT-4o的32倍。参数量高达456B,单次激活45.9B
Hailuo AI:https://hailuoai.com/ 上已经可以免费试用。
网友们的测试反馈很积极,和Gemini、o1的表现不相上下。
MiniMax-VL-01的一些能力,让我想起第一次用AI写歌的感觉。
创作歌词时,它能捕捉到那些细腻的情感。"失落之城"的歌词里,每一个意象都恰到好处:月光、古老的城墙、时光的低语。
卫星图像分析更有意思。从8月到9月的植被变化,它不只是看到了颜色的转变,还理解了背后可能的原因:干旱、火灾,或是人类活动。
流程图分析特别实用。53.6秒的发票输入瓶颈,它直接给出六个优化方案,从OCR到并行处理,都很有操作性。
语言学习和论文解读,展现了它处理长文本的能力。无论是从375个平行语料中学习新语言,
还是总结带着复杂图表的论文,都显得从容不迫。
MiniMax-Text-01和顶级模型同台竞技。
基准测试上,MMLU 88.5%,MMLU-Pro 75.7%,都和GPT-4o、Claude-3.5相当。
长文本任务上更强,即使在 1M 个 token 的上下文窗口中也能保持更高的准确性,优于 Claude-3.5 和 Gemini 等模型,后两者在 256K 个 token 之后表现出明显的下降趋势。
这,主要受益于创新的架构:主打Lightning Attention的线性注意力机制,突破了传统Transformer架构的记忆瓶颈,这让它在处理长文本时特别强,延迟增长接近线性:
在第三方测评 LongBench v2的最新结果中,MiniMax-Text-01仅次于 OpenAI的o1-preview和人类,位列第三。( 注:Long Bench V2是面向现实情景,进行长上下文多任务进行深入的理解和推理测试集。)
网友评论:看起来中国人工智能公司确实在保持前进势头。
模型的架构很有意思:主要用Lightning Attention,但保留一些Softmax Attention。具体是每8层中,7层Lightning,1层Softmax。
从Scaling Law到MoE结合,从结构设计到训练优化,每个环节都经过精心设计。为了支持这个架构,团队重构了整个系统,包括MoE通信优化、序列处理优化,还有线性注意力的高效实现。这是线性注意力首次在商用大模型上的应用。
MiniMax-VL-01的多模态测试也很亮眼。ChartQA得分91.7,DocVQA达到96.4,OCRBench更是拿下865分,都是顶级水平。
此外,MiniMax-01的价格真的很惊喜:每百万token输入只要1元,输出8元。这或许会推动AI Agent的发展,特别是在需要长期记忆和大上下文处理的场景(比如代码库 AI Coder、多篇论文解析):
其次,论文最有趣的部分是他们如何结合 softmax 和线性注意力机制来增加上下文窗口,以及他们如何在此之上进行计算高效训练:
论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf
最后,这两个模型的开源地址是:https://github.com/MiniMax-AI,官方后续会把模型和代码更新上去,开源宽松许可证(类似于Llama许可)。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有