Loading [MathJax]/jax/output/CommonHTML/config.js
部署DeepSeek模型,进群交流最in玩法!
立即加群
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MiniMax 放大招!线性注意力让AI一次读完3套《哈利·波特》,性能比肩DeepSeek-V3、GPT-4o

MiniMax 放大招!线性注意力让AI一次读完3套《哈利·波特》,性能比肩DeepSeek-V3、GPT-4o

作者头像
AI进修生
发布于 2025-01-17 08:24:35
发布于 2025-01-17 08:24:35
1200
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Hi,这里是Aitrainee,欢迎阅读本期新文章。

400万token的上下文窗口,相当于整个《哈利·波特》总字数的三倍。

这次,MiniMax 放了个大招。

他们开源了MiniMax-01系列,分为基础语言模型 MiniMax-Text-01 和 视觉多模态模型 MiniMax-VL-01。

这个团队,曾做出过顶级AI视频模型海螺AI。

他们在视频模型上的成就,已经证明了自己的实力。

而这次的MiniMax-Text-01用了混合架构:Lightning Attention、Softmax Attention和MoE。用 Lightning Attention 替代传统Transformer,让模型更高效。

性能和DeepSeek-V3、GPT-4o相当,超长文本处理时还略胜一筹,支持长度是GPT-4o的32倍。参数量高达456B,单次激活45.9B

Hailuo AI:https://hailuoai.com/ 上已经可以免费试用。

网友们的测试反馈很积极,和Gemini、o1的表现不相上下。

MiniMax-VL-01的一些能力,让我想起第一次用AI写歌的感觉。

创作歌词时,它能捕捉到那些细腻的情感。"失落之城"的歌词里,每一个意象都恰到好处:月光、古老的城墙、时光的低语。

卫星图像分析更有意思。从8月到9月的植被变化,它不只是看到了颜色的转变,还理解了背后可能的原因:干旱、火灾,或是人类活动。

流程图分析特别实用。53.6秒的发票输入瓶颈,它直接给出六个优化方案,从OCR到并行处理,都很有操作性。

语言学习和论文解读,展现了它处理长文本的能力。无论是从375个平行语料中学习新语言,

还是总结带着复杂图表的论文,都显得从容不迫。

MiniMax-Text-01和顶级模型同台竞技。

基准测试上,MMLU 88.5%,MMLU-Pro 75.7%,都和GPT-4o、Claude-3.5相当。

长文本任务上更强,即使在 1M 个 token 的上下文窗口中也能保持更高的准确性,优于 Claude-3.5 和 Gemini 等模型,后两者在 256K 个 token 之后表现出明显的下降趋势。

这,主要受益于创新的架构:主打Lightning Attention的线性注意力机制,突破了传统Transformer架构的记忆瓶颈,这让它在处理长文本时特别强,延迟增长接近线性:

在第三方测评 LongBench v2的最新结果中,MiniMax-Text-01仅次于 OpenAI的o1-preview和人类,位列第三。( 注:Long Bench V2是面向现实情景,进行长上下文多任务进行深入的理解和推理测试集。)

网友评论:看起来中国人工智能公司确实在保持前进势头。

模型的架构很有意思:主要用Lightning Attention,但保留一些Softmax Attention。具体是每8层中,7层Lightning,1层Softmax。

从Scaling Law到MoE结合,从结构设计到训练优化,每个环节都经过精心设计。为了支持这个架构,团队重构了整个系统,包括MoE通信优化、序列处理优化,还有线性注意力的高效实现。这是线性注意力首次在商用大模型上的应用。

MiniMax-VL-01的多模态测试也很亮眼。ChartQA得分91.7,DocVQA达到96.4,OCRBench更是拿下865分,都是顶级水平。

此外,MiniMax-01的价格真的很惊喜:每百万token输入只要1元,输出8元。这或许会推动AI Agent的发展,特别是在需要长期记忆和大上下文处理的场景(比如代码库 AI Coder、多篇论文解析):

其次,论文最有趣的部分是他们如何结合 softmax 和线性注意力机制来增加上下文窗口,以及他们如何在此之上进行计算高效训练:

论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

最后,这两个模型的开源地址是:https://github.com/MiniMax-AI,官方后续会把模型和代码更新上去,开源宽松许可证(类似于Llama许可)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
近日,雷军以千万级别的年薪成功挖角了95后的AI天才少女罗福莉。罗福莉是一位在人工智能领域特别是自然语言处理(NLP)方面有着卓越成就的年轻科学家。
用户7353950
2025/01/01
9600
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
首个线性注意力架构的大模型来了,MiniMax 400 万超长上下文大模型重磅开源!
最近一个月,大模型领域热闹非凡,各大科技公司纷纷加码。阿里推出了 QwQ 模型,OpenAI 发布了 o1 Pro,Google 带来了 Gemini-2.0-Flash-Exp,而 DeepSeek 则凭借 V3 模型成功出圈。然而,也有零一万物卖身阿里,令人唏嘘。但令人欣喜的是,又一家国内大模型公司 MiniMax(也就是视频生成领域广为熟知的海螺)加入了战局。他们开源了两个重量级模型:
AgenticAI
2025/03/18
2500
首个线性注意力架构的大模型来了,MiniMax 400 万超长上下文大模型重磅开源!
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
「2025 年,我们可能会看到第一批 AI Agent 加入劳动力大军,并对公司的生产力产生实质性的影响。」——OpenAI CEO Sam Altman
机器之心
2025/02/03
1400
MiniMax震撼开源,突破传统Transformer架构,4560亿参数,支持400万长上下文
DeepSeek V3把训练大模型的成本给干下来了
一夜之间,DeepSeek突然之间炸场,各个大佬都在纷纷转发,而且发布即开源,直接用50多页的论文公布了其训练细节
算法一只狗
2024/12/29
4.9K0
DeepSeek V3把训练大模型的成本给干下来了
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
DeepSeek-V3 是 DeepSeek 公司推出的最新一代自研 MoE(Mixture of Experts)模型,拥有 671B 参数,激活 37B,并在 14.8T token 上进行了预训练。GPT-4o 是 OpenAI 推出的顶尖闭源模型,以其强大的通用性和多模态能力著称。以下将从多个维度对 DeepSeek-V3 和 GPT-4o 进行详细对比。
码事漫谈
2025/01/06
2.7K0
生成式AI新星:DeepSeek-V3 与 GPT-4o 的对比分析
​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
大语言模型序列长度的限制,极大地制约了其在人工智能领域的应用,比如多轮对话、长文本理解、多模态数据的处理与生成等。造成这一限制的根本原因在于当前大语言模型均采用的 Transformer 架构有着相对于序列长度的二次计算复杂度。这意味着随着序列长度的增加,需要的计算资源成几何倍数提升。如何高效地处理长序列一直是大语言模型的挑战之一。
机器之心
2024/01/18
5030
​新一代注意力机制Lightning Attention-2:无限序列长度、恒定算力开销、更高建模精度
从架构创新到多模态探索,MiniMax如何为国产AI持续赋能?
2025年刚过,中国AI技术在国际舞台上持续闪耀,国产开源模型的集体爆发成为行业焦点。实际上在DeepSeek的开源模型爆火之前,中国的另一家公司MiniMax的MiniMax-01模型就已经发布和开源。目前MiniMax,与DeepSeek、阿里千问系列共同构成了国产开源模型的中流砥柱,展现出中国在AI开源领域的强大实力。
数据结构和算法
2025/03/28
1160
从架构创新到多模态探索,MiniMax如何为国产AI持续赋能?
DeepSeek-V3 通俗详解:从诞生到优势,以及与 GPT-4o 的对比
DeepSeek 是一家专注于人工智能技术研发的公司,致力于打造高性能、低成本的 AI 模型。它的目标是让 AI 技术更加普惠,让更多人能够用上强大的 AI 工具。
码事漫谈
2025/01/06
19.8K0
DeepSeek-V3 通俗详解:从诞生到优势,以及与 GPT-4o 的对比
每周AI论文速递(250113-250117)
尽管大语言模型 (LLMs) 表现卓越,但其发展面临一个关键挑战:在人类评估困难或 LLMs 超越人类的任务中,如何提供有效的反馈。尽管使用 LLMs 进行批评的兴趣日益增长,但当前的方法仍然依赖于人类注释或更强大的模型,这使得在没有外部监督的情况下增强批评能力的问题仍未解决。我们提出了 SCRIT (Self-evolving CRITic),这是一个能够实现批评能力真正自我进化的框架。从技术上讲,SCRIT 通过训练合成数据进行自我改进,这些数据由基于对比的自我批评者生成,该批评者使用参考解决方案进行逐步批评,并通过自我验证机制确保批评质量,该机制通过纠正结果来确保批评质量。使用 Qwen2.5-72B-Instruct(最强大的 LLMs 之一)实现,SCRIT 在批评纠正和错误识别基准测试中实现了高达 10.3% 的提升。我们的分析表明,SCRIT 的性能随着数据和模型规模的增加而正向扩展,优于其他方法,并且其自我验证组件对其性能至关重要。
叶子的技术碎碎念
2025/04/08
580
每周AI论文速递(250113-250117)
deepseek V3开源创新点到底有多大?
一句话说的就是,DeepSeek V3证明了,不需要大规模的算力也能够把大模型的能力提升到和GPT-4o一样的水平。
算法一只狗
2025/01/16
4870
国产AI编年史,你不应该只知道DeepSeek
过去一阵子 DeepSeek 实在太火,美国那边好不容易出了个 Grok3,重新在"重算力"这条技术路线上,暂时夺回风头,英伟达的 CEO 黄仁勋也趁机回应了一下之前股价暴跌的事情。
宫水三叶的刷题日记
2025/02/26
560
国产AI编年史,你不应该只知道DeepSeek
不止deepseek,这家国内AI公司也在海外杀疯了
在开年 1 月份中旬的时候,MiniMax 发布并开源了 MiniMax-01 大模型,这可是比 deepseek 还早 4 天开源的国产大模型。
小林coding
2025/02/24
871
不止deepseek,这家国内AI公司也在海外杀疯了
突发,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
Meta官宣开源首个原生多模态Llama 4,首次采用MoE架构,支持12种语言,首批发布一共两款:
小白学视觉
2025/04/07
710
突发,Llama 4深夜开源击败DeepSeek V3!2万亿多模态巨兽抢回王座
DeepSeek和月之暗面的论文撞车了!!
昨天下午,DeepSeek 发布了一篇新论文,提出了一种改进版的注意力机制 NSA;加上还有创始人兼 CEO 梁文锋亲自参与,一时之间吸引眼球无数,参阅报道《 刚刚!DeepSeek团队丢出注意力新机制重磅论文》。
小白学视觉
2025/02/20
1250
DeepSeek和月之暗面的论文撞车了!!
构建多模态AI应用的7大工具
多模态人工智能系统可以同时处理多种类型的数据,例如文本、图像和视频。以下列出了我们最喜欢的七个工具。
云云众生s
2024/12/20
2210
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
在今年的春节期间,DeepSeek 火出了圈。凭借 DeepSeek-V3 与 DeepSeek-R1 的创新技术和卓越表现,DeepSeek 迅速成为了行业内外的焦点。不管是技术专家还是普通用户,都对 DeepSeek 赞不绝口。我们特别准备了这篇技术科普文章,期望无论你是不是技术同学,都能够读懂 DeepSeek。
腾讯云开发者
2025/02/27
7020
万字长文解构DeepSeek V1/V2/V3/R1进化史:从算法革命到推理涌现!
GPT-4o简介
GPT-4o是OpenAI为聊天机器人ChatGPT发布的语言模型,其名称中的“o”代表Omni,即全能的意思,凸显了其多功能的特性。以下是对GPT-4o的详细介绍:
jack.yang
2025/04/05
2030
每周AI论文速递(250407-250411)
虽然大型视觉语言模型 (VLMs) 具备卓越性能,但其计算资源需求过高,限制了这类模型在移动和边缘设备上的部署。传统小型 VLMs 通常沿用大型模型的设计方案(例如复杂的图像 Token 化处理),导致 GPU 内存利用率低下,难以满足终端设备的实际应用需求。
叶子的技术碎碎念
2025/04/13
740
每周AI论文速递(250407-250411)
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
AI 圈周末炸锅,Meta 毫无预兆地扔出了 Llama 4 系列,直接抢回开源第一宝座。
AI进修生
2025/04/07
1250
Llama 4 开源了!千万上下文 + 单卡H100跑 400B + 反超DeepSeek,网友:RAG还好吗?
MiniMax不声不响出了款让人惊喜的生产力产品:「海螺AI」大测评
继 1 月推出国内首个基于 MoE 架构的千亿参数量大语言模型 abab6 后,上周,通用人工智能创业公司、中国估值最高的大模型公司之一 MiniMax 推出了万亿 MoE 模型 abab 6.5。根据 MiniMax 发布的技术报告,在各类核心能力测试中,abab 6.5接近 GPT-4、 Claude 3 Opus 、Gemini 1.5 Pro 等世界领先的大语言模型。
机器之心
2024/04/26
1.1K0
推荐阅读
相关推荐
雷军千万年薪挖角的AI天才少女什么来头?Deepseek技术优势解析
更多 >
领券
💥开发者 MCP广场重磅上线!
精选全网热门MCP server,让你的AI更好用 🚀
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档