Loading [MathJax]/jax/output/CommonHTML/config.js

开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >专栏 >MiniMax 放大招！线性注意力让AI一次读完3套《哈利·波特》，性能比肩DeepSeek-V3、GPT-4o

MiniMax 放大招！线性注意力让AI一次读完3套《哈利·波特》，性能比肩DeepSeek-V3、GPT-4o

作者头像

AI进修生

发布于 2025-01-17 08:24:35

发布于 2025-01-17 08:24:35

1200

举报

文章被收录于专栏：AI进修生AI进修生

🍹 Insight Daily 🪺

Hi，这里是Aitrainee，欢迎阅读本期新文章。

400万token的上下文窗口，相当于整个《哈利·波特》总字数的三倍。

这次，MiniMax 放了个大招。

他们开源了MiniMax-01系列，分为基础语言模型 MiniMax-Text-01 和视觉多模态模型 MiniMax-VL-01。

这个团队，曾做出过顶级AI视频模型海螺AI。

他们在视频模型上的成就，已经证明了自己的实力。

而这次的MiniMax-Text-01用了混合架构：Lightning Attention、Softmax Attention和MoE。用 Lightning Attention 替代传统Transformer，让模型更高效。

性能和DeepSeek-V3、GPT-4o相当，超长文本处理时还略胜一筹，支持长度是GPT-4o的32倍。参数量高达456B，单次激活45.9B

Hailuo AI：https://hailuoai.com/ 上已经可以免费试用。

网友们的测试反馈很积极，和Gemini、o1的表现不相上下。

MiniMax-VL-01的一些能力，让我想起第一次用AI写歌的感觉。

创作歌词时，它能捕捉到那些细腻的情感。"失落之城"的歌词里，每一个意象都恰到好处：月光、古老的城墙、时光的低语。

卫星图像分析更有意思。从8月到9月的植被变化，它不只是看到了颜色的转变，还理解了背后可能的原因：干旱、火灾，或是人类活动。

流程图分析特别实用。53.6秒的发票输入瓶颈，它直接给出六个优化方案，从OCR到并行处理，都很有操作性。

语言学习和论文解读，展现了它处理长文本的能力。无论是从375个平行语料中学习新语言，

还是总结带着复杂图表的论文，都显得从容不迫。

MiniMax-Text-01和顶级模型同台竞技。

基准测试上，MMLU 88.5%，MMLU-Pro 75.7%，都和GPT-4o、Claude-3.5相当。

长文本任务上更强，即使在 1M 个 token 的上下文窗口中也能保持更高的准确性，优于 Claude-3.5 和 Gemini 等模型，后两者在 256K 个 token 之后表现出明显的下降趋势。

这，主要受益于创新的架构：主打Lightning Attention的线性注意力机制，突破了传统Transformer架构的记忆瓶颈，这让它在处理长文本时特别强，延迟增长接近线性：

在第三方测评 LongBench v2的最新结果中，MiniMax-Text-01仅次于 OpenAI的o1-preview和人类，位列第三。（注：Long Bench V2是面向现实情景，进行长上下文多任务进行深入的理解和推理测试集。）

网友评论：看起来中国人工智能公司确实在保持前进势头。

模型的架构很有意思：主要用Lightning Attention，但保留一些Softmax Attention。具体是每8层中，7层Lightning，1层Softmax。

从Scaling Law到MoE结合，从结构设计到训练优化，每个环节都经过精心设计。为了支持这个架构，团队重构了整个系统，包括MoE通信优化、序列处理优化，还有线性注意力的高效实现。这是线性注意力首次在商用大模型上的应用。

MiniMax-VL-01的多模态测试也很亮眼。ChartQA得分91.7，DocVQA达到96.4，OCRBench更是拿下865分，都是顶级水平。

此外，MiniMax-01的价格真的很惊喜：每百万token输入只要1元，输出8元。这或许会推动AI Agent的发展，特别是在需要长期记忆和大上下文处理的场景（比如代码库 AI Coder、多篇论文解析）：

其次，论文最有趣的部分是他们如何结合 softmax 和线性注意力机制来增加上下文窗口，以及他们如何在此之上进行计算高效训练：

论文链接：https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

最后，这两个模型的开源地址是：https://github.com/MiniMax-AI，官方后续会把模型和代码更新上去，开源宽松许可证（类似于Llama许可）。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-01-16，如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

评论

登录后参与评论

暂无评论

编辑精选文章

换一批

万字详解高可用架构设计

Go 开发者必备：Protocol Buffers 入门指南

10分钟带你彻底搞懂分布式链路跟踪

多租户的 4 种常用方案

亿级月活的社交 APP，陌陌如何做到 3 分钟定位故障？

60页PPT全解：DeepSeek系列论文技术要点整理

雷军千万年薪挖角的AI天才少女什么来头？Deepseek技术优势解析

近日，雷军以千万级别的年薪成功挖角了95后的AI天才少女罗福莉。罗福莉是一位在人工智能领域特别是自然语言处理（NLP）方面有着卓越成就的年轻科学家。

用户7353950

2025/01/01

9600

雷军千万年薪挖角的AI天才少女什么来头？Deepseek技术优势解析

首个线性注意力架构的大模型来了，MiniMax 400 万超长上下文大模型重磅开源！

开源架构模型数据优化

最近一个月，大模型领域热闹非凡，各大科技公司纷纷加码。阿里推出了 QwQ 模型，OpenAI 发布了 o1 Pro，Google 带来了 Gemini-2.0-Flash-Exp，而 DeepSeek 则凭借 V3 模型成功出圈。然而，也有零一万物卖身阿里，令人唏嘘。但令人欣喜的是，又一家国内大模型公司 MiniMax（也就是视频生成领域广为熟知的海螺）加入了战局。他们开源了两个重量级模型：

AgenticAI

2025/03/18

2500

首个线性注意力架构的大模型来了，MiniMax 400 万超长上下文大模型重磅开源！

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

基础架构模型优化开源

「2025 年，我们可能会看到第一批 AI Agent 加入劳动力大军，并对公司的生产力产生实质性的影响。」——OpenAI CEO Sam Altman

机器之心

2025/02/03

1400

MiniMax震撼开源，突破传统Transformer架构，4560亿参数，支持400万长上下文

DeepSeek V3把训练大模型的成本给干下来了

一夜之间，DeepSeek突然之间炸场，各个大佬都在纷纷转发，而且发布即开源，直接用50多页的论文公布了其训练细节

算法一只狗

2024/12/29

4.9K0

DeepSeek V3把训练大模型的成本给干下来了

生成式AI新星：DeepSeek-V3 与 GPT-4o 的对比分析

DeepSeek-V3 是 DeepSeek 公司推出的最新一代自研 MoE（Mixture of Experts）模型，拥有 671B 参数，激活 37B，并在 14.8T token 上进行了预训练。GPT-4o 是 OpenAI 推出的顶尖闭源模型，以其强大的通用性和多模态能力著称。以下将从多个维度对 DeepSeek-V3 和 GPT-4o 进行详细对比。

码事漫谈

2025/01/06

2.7K0

生成式AI新星：DeepSeek-V3 与 GPT-4o 的对比分析

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

架构论文模型算法效率

大语言模型序列长度的限制，极大地制约了其在人工智能领域的应用，比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加，需要的计算资源成几何倍数提升。如何高效地处理长序列一直是大语言模型的挑战之一。

机器之心

2024/01/18

5030

新一代注意力机制Lightning Attention-2：无限序列长度、恒定算力开销、更高建模精度

从架构创新到多模态探索，MiniMax如何为国产AI持续赋能？

开源行业架构模型视频

2025年刚过，中国AI技术在国际舞台上持续闪耀，国产开源模型的集体爆发成为行业焦点。实际上在DeepSeek的开源模型爆火之前，中国的另一家公司MiniMax的MiniMax-01模型就已经发布和开源。目前MiniMax，与DeepSeek、阿里千问系列共同构成了国产开源模型的中流砥柱，展现出中国在AI开源领域的强大实力。

数据结构和算法

2025/03/28

1160

从架构创新到多模态探索，MiniMax如何为国产AI持续赋能？

DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比

DeepSeek 是一家专注于人工智能技术研发的公司，致力于打造高性能、低成本的 AI 模型。它的目标是让 AI 技术更加普惠，让更多人能够用上强大的 AI 工具。

码事漫谈

2025/01/06

19.8K0

DeepSeek-V3 通俗详解：从诞生到优势，以及与 GPT-4o 的对比

每周AI论文速递（250113-250117）

模型视频数据性能论文

尽管大语言模型 (LLMs) 表现卓越，但其发展面临一个关键挑战：在人类评估困难或 LLMs 超越人类的任务中，如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长，但当前的方法仍然依赖于人类注释或更强大的模型，这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic)，这是一个能够实现批评能力真正自我进化的框架。从技术上讲，SCRIT 通过训练合成数据进行自我改进，这些数据由基于对比的自我批评者生成，该批评者使用参考解决方案进行逐步批评，并通过自我验证机制确保批评质量，该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct（最强大的 LLMs 之一）实现，SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明，SCRIT 的性能随着数据和模型规模的增加而正向扩展，优于其他方法，并且其自我验证组件对其性能至关重要。

叶子的技术碎碎念

2025/04/08

580

每周AI论文速递（250113-250117）

deepseek V3开源创新点到底有多大？

腾讯技术创作特训营S11#重启人生 DeepSeek

一句话说的就是，DeepSeek V3证明了，不需要大规模的算力也能够把大模型的能力提升到和GPT-4o一样的水平。

算法一只狗

2025/01/16

4870

国产AI编年史，你不应该只知道DeepSeek

架构开发者模型 DeepSeek 开源

过去一阵子 DeepSeek 实在太火，美国那边好不容易出了个 Grok3，重新在"重算力"这条技术路线上，暂时夺回风头，英伟达的 CEO 黄仁勋也趁机回应了一下之前股价暴跌的事情。

宫水三叶的刷题日记

2025/02/26

560

国产AI编年史，你不应该只知道DeepSeek

不止deepseek，这家国内AI公司也在海外杀疯了

系统 DeepSeek 开源架构模型

在开年 1 月份中旬的时候，MiniMax 发布并开源了 MiniMax-01 大模型，这可是比 deepseek 还早 4 天开源的国产大模型。

小林coding

2025/02/24

871

不止deepseek，这家国内AI公司也在海外杀疯了

突发，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

DeepSeek 开源模型数据性能

Meta官宣开源首个原生多模态Llama 4，首次采用MoE架构，支持12种语言，首批发布一共两款：

小白学视觉

2025/04/07

710

突发，Llama 4深夜开源击败DeepSeek V3！2万亿多模态巨兽抢回王座

DeepSeek和月之暗面的论文撞车了！！

论文模型效率性能 DeepSeek

昨天下午，DeepSeek 发布了一篇新论文，提出了一种改进版的注意力机制 NSA；加上还有创始人兼 CEO 梁文锋亲自参与，一时之间吸引眼球无数，参阅报道《刚刚！DeepSeek团队丢出注意力新机制重磅论文》。

小白学视觉

2025/02/20

1250

DeepSeek和月之暗面的论文撞车了！！

构建多模态AI应用的7大工具

视频数据系统工具模型

多模态人工智能系统可以同时处理多种类型的数据，例如文本、图像和视频。以下列出了我们最喜欢的七个工具。

云云众生s

2024/12/20

2210

万字长文解构DeepSeek V1/V2/V3/R1进化史：从算法革命到推理涌现！

模型数据算法 DeepSeek 强化学习

在今年的春节期间，DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现，DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户，都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章，期望无论你是不是技术同学，都能够读懂 DeepSeek。

腾讯云开发者

2025/02/27

7020

万字长文解构DeepSeek V1/V2/V3/R1进化史：从算法革命到推理涌现！

模型数据音频语音 gpt

GPT-4o是OpenAI为聊天机器人ChatGPT发布的语言模型，其名称中的“o”代表Omni，即全能的意思，凸显了其多功能的特性。以下是对GPT-4o的详细介绍：

jack.yang

2025/04/05

2030

每周AI论文速递（250407-250411）

性能优化测试论文模型

虽然大型视觉语言模型 (VLMs) 具备卓越性能，但其计算资源需求过高，限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案（例如复杂的图像 Token 化处理），导致 GPU 内存利用率低下，难以满足终端设备的实际应用需求。

叶子的技术碎碎念

2025/04/13

740

每周AI论文速递（250407-250411）

Llama 4 开源了！千万上下文 + 单卡H100跑 400B + 反超DeepSeek，网友：RAG还好吗？

DeepSeek 开源架构模型数据

AI 圈周末炸锅，Meta 毫无预兆地扔出了 Llama 4 系列，直接抢回开源第一宝座。

AI进修生

2025/04/07

1250

Llama 4 开源了！千万上下文 + 单卡H100跑 400B + 反超DeepSeek，网友：RAG还好吗？

MiniMax不声不响出了款让人惊喜的生产力产品：「海螺AI」大测评

产品论文模型数据语音

继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后，上周，通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告，在各类核心能力测试中，abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。

机器之心

2024/04/26

1.1K0

相关推荐

雷军千万年薪挖角的AI天才少女什么来头？Deepseek技术优势解析

更多 >

LV.1

这个人很懒，什么都没有留下～

作者相关精选

换一批

加入讨论

的问答专区 >

相关课程

一站式学习中心 >

AI代码助手快速上手训练营

腾讯云代码助手

数字化IT从业者知识体系

💥开发者 MCP广场重磅上线！

精选全网热门MCP server，让你的AI更好用 🚀