Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >MiniMax 放大招!线性注意力让AI一次读完3套《哈利·波特》,性能比肩DeepSeek-V3、GPT-4o

MiniMax 放大招!线性注意力让AI一次读完3套《哈利·波特》,性能比肩DeepSeek-V3、GPT-4o

作者头像
AI进修生
发布于 2025-01-17 08:24:35
发布于 2025-01-17 08:24:35
1200
举报
文章被收录于专栏:AI进修生AI进修生

🍹 Insight Daily 🪺

Hi,这里是Aitrainee,欢迎阅读本期新文章。

400万token的上下文窗口,相当于整个《哈利·波特》总字数的三倍。

这次,MiniMax 放了个大招。

他们开源了MiniMax-01系列,分为基础语言模型 MiniMax-Text-01 和 视觉多模态模型 MiniMax-VL-01。

这个团队,曾做出过顶级AI视频模型海螺AI。

他们在视频模型上的成就,已经证明了自己的实力。

而这次的MiniMax-Text-01用了混合架构:Lightning Attention、Softmax Attention和MoE。用 Lightning Attention 替代传统Transformer,让模型更高效。

性能和DeepSeek-V3、GPT-4o相当,超长文本处理时还略胜一筹,支持长度是GPT-4o的32倍。参数量高达456B,单次激活45.9B

Hailuo AI:https://hailuoai.com/ 上已经可以免费试用。

网友们的测试反馈很积极,和Gemini、o1的表现不相上下。

MiniMax-VL-01的一些能力,让我想起第一次用AI写歌的感觉。

创作歌词时,它能捕捉到那些细腻的情感。"失落之城"的歌词里,每一个意象都恰到好处:月光、古老的城墙、时光的低语。

卫星图像分析更有意思。从8月到9月的植被变化,它不只是看到了颜色的转变,还理解了背后可能的原因:干旱、火灾,或是人类活动。

流程图分析特别实用。53.6秒的发票输入瓶颈,它直接给出六个优化方案,从OCR到并行处理,都很有操作性。

语言学习和论文解读,展现了它处理长文本的能力。无论是从375个平行语料中学习新语言,

还是总结带着复杂图表的论文,都显得从容不迫。

MiniMax-Text-01和顶级模型同台竞技。

基准测试上,MMLU 88.5%,MMLU-Pro 75.7%,都和GPT-4o、Claude-3.5相当。

长文本任务上更强,即使在 1M 个 token 的上下文窗口中也能保持更高的准确性,优于 Claude-3.5 和 Gemini 等模型,后两者在 256K 个 token 之后表现出明显的下降趋势。

这,主要受益于创新的架构:主打Lightning Attention的线性注意力机制,突破了传统Transformer架构的记忆瓶颈,这让它在处理长文本时特别强,延迟增长接近线性:

在第三方测评 LongBench v2的最新结果中,MiniMax-Text-01仅次于 OpenAI的o1-preview和人类,位列第三。( 注:Long Bench V2是面向现实情景,进行长上下文多任务进行深入的理解和推理测试集。)

网友评论:看起来中国人工智能公司确实在保持前进势头。

模型的架构很有意思:主要用Lightning Attention,但保留一些Softmax Attention。具体是每8层中,7层Lightning,1层Softmax。

从Scaling Law到MoE结合,从结构设计到训练优化,每个环节都经过精心设计。为了支持这个架构,团队重构了整个系统,包括MoE通信优化、序列处理优化,还有线性注意力的高效实现。这是线性注意力首次在商用大模型上的应用。

MiniMax-VL-01的多模态测试也很亮眼。ChartQA得分91.7,DocVQA达到96.4,OCRBench更是拿下865分,都是顶级水平。

此外,MiniMax-01的价格真的很惊喜:每百万token输入只要1元,输出8元。这或许会推动AI Agent的发展,特别是在需要长期记忆和大上下文处理的场景(比如代码库 AI Coder、多篇论文解析):

其次,论文最有趣的部分是他们如何结合 softmax 和线性注意力机制来增加上下文窗口,以及他们如何在此之上进行计算高效训练:

论文链接:https://filecdn.minimax.chat/_Arxiv_MiniMax_01_Report.pdf

最后,这两个模型的开源地址是:https://github.com/MiniMax-AI,官方后续会把模型和代码更新上去,开源宽松许可证(类似于Llama许可)。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI进修生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
WCF和ASP.NET Web API在应用上的选择
在最近发布的Visual Studio 2012及.NET 4.5中, 微软正式推出新的网络服务框架ASP.NET Web API。作为ASP.NET MVC 4的一部分,ASP.NET Web API这套开源框架的设计目的是简化RESTful服务的开发和使用。 ASP.NET Web API 与之前的内建HTTP服务解决方案的不同之处在于,它一开始就是围绕HTTP协议及其消息语义构建起来的。与WCF REST或ASP.NET AJAX加ASMX相比,它不是对现有框架的增强,而是一个全新的平台。新的ASP.
张善友
2018/01/29
1.5K0
Web API--入门--(一)ASP.NET Web API 2(C#)入门
在本教程中,您将使用ASP.NET Web API创建返回产品列表的Web API。前端网页使用jQuery显示结果。
喵叔
2020/09/08
4.5K0
Web API--入门--(一)ASP.NET Web API 2(C#)入门
ASP.NET Core 入门教程 2、使用ASP.NET Core MVC框架构建Web应用
ASP.NET Core 默认集成了DI。所有官方模块的引入都要使用DI的方式引入。
KenTalk
2018/10/03
1.6K0
ASP.NET Core 入门教程 2、使用ASP.NET Core MVC框架构建Web应用
Asp.Net MVC4入门指南(7):给电影表和模型添加新字段
在本节中,您将使用Entity Framework Code First来实现模型类上的操作。从而使得这些操作和变更,可以应用到数据库中。 默认情况下,就像您在之前的教程中所作的那样,使用 Entity Framework Code First自动创建一个数据库,Code First为数据库所添加的表,将帮助您跟踪数据库是否和从它生成的模型类是同步的。如果他们不是同步的,Entity Framework将抛出一个错误。这非常方便的在开发时就可以发现错误,否则您可能会在运行时才发现这个问题。 (由一个晦涩的错
葡萄城控件
2018/01/10
2.1K0
Asp.Net MVC4入门指南(7):给电影表和模型添加新字段
实战 ASP.NET Web API
Web API 框架是一个面向 Http 协议的通信框架。相对于 WCF 而言,Web API 只面向于 Http 协议设计,而且没有 WCF 那么繁琐的配置。Web API 的开发类似于 ASP.NET MVC 中控制器的开发,但是相对于直接使用 ASP.NET MVC 来返回 Json 对象的方式而言,Web API 封装了数据的序列化、反序列化,接口、实现都更加简单。 简单地说,如果要向浏览器、移动端提供 Json 数据格式的 API,则应该首选 Web API 作为通信框架。 以下,我列出了在当前
用户1172223
2018/01/29
1.4K0
实战 ASP.NET Web API
【翻译】ASP.NET Web API入门
ASP.NET Web API是在.NET Framework上创建RESTful应用程序的理想平台
liulun
2022/05/09
1.8K0
【翻译】ASP.NET Web API入门
Asp.Net MVC4入门指南(3):添加一个视图
在本节中,您需要修改HelloWorldController类,从而使用视图模板文件,干净优雅的封装生成返回到客户端浏览器HTML的过程。 您将创建一个视图模板文件,其中使用了ASP.NET MVC 3所引入的Razor视图引擎。Razor视图模板文件使用.cshtml文件扩展名,并提供了一个优雅的方式来使用C#语言创建所要输出的HTML。用Razor编写一个视图模板文件时,将所需的字符和键盘敲击数量降到了最低,并实现了快速,流畅的编码工作流程。 当前在控制器类中的Index方法返回了一个硬编码的字符串。更
葡萄城控件
2018/01/10
1.1K0
Asp.Net MVC4入门指南(3):添加一个视图
Asp.Net Web API 2第十七课——Creating an OData Endpoint in ASP.NET Web API 2(OData终结点)
  很久没更新博客了,加上刚过年,现在准备重新开战,继续自己的学习之路。本文已同步到Web API2系列文章中http://www.cnblogs.com/aehyok/p/3446289.html。
aehyok
2018/08/31
1K0
Asp.Net Web API 2第十七课——Creating an OData Endpoint in ASP.NET Web API 2(OData终结点)
ASP.NET MVC 5 - 控制器
MVC代表: 模型-视图-控制器 。MVC是一个架构良好并且易于测试和易于维护的开发模式。基于MVC模式的应用程序包含: · Models: 表示该应用程序的数据并使用验证逻辑来强制实施业务规则的数据类。 · Views: 应用程序动态生成 HTML所使用的模板文件。 · Controllers: 处理浏览器的请求,取得数据模型,然后指定要响应浏览器请求的视图模板。 本系列教程,我们将覆盖所有这些概念,并告诉您如何在ASP.NET MVC 5中使用它们来构建应用程序。 首先,让我们创建一个控制器类。在解决方
葡萄城控件
2018/01/10
2.7K0
ASP.NET MVC 5 - 控制器
《从零开始学ASP.NET CORE MVC》:ASP.NET Core Web 项目文件(四)
如果您使用过以前版本的ASP.NET,那么您可能对此文件非常熟悉,但此文件中包含的格式和内容在asp.ne Core 中发生了很大变化。
角落的白板报
2019/05/05
1.4K0
《从零开始学ASP.NET CORE MVC》:ASP.NET Core Web 项目文件(四)
如何在 ASP.NET Core 中使用Refit
Refit是一个库,它通过在C#中生成类型安全、强类型的HTTP客户端接口,简化了对REST API的调用。它允许开发人员在无需编写显式的HTTP请求处理代码的情况下创建API客户端代码,从而减少了样板代码并提高了可维护性。
郑子铭
2025/01/10
1990
如何在 ASP.NET Core 中使用Refit
用ASP.NET Core 2.0 建立规范的 REST API -- 预备知识
什么是REST REST 是 Representational State Transfer 的缩写. 它是一种架构的风格, 这种风格基于一套预定义的规则, 这些规则描述了网络资源是如何定义和寻址的.
solenovex
2018/05/30
1.7K0
七天学会ASP.NET MVC (一)——深入理解ASP.NET MVC
系列文章 七天学会ASP.NET MVC (一)——深入理解ASP.NET MVC 七天学会ASP.NET MVC (二)——ASP.NET MVC 数据传递 七天学会ASP.NET MVC (三)—
葡萄城控件
2018/01/10
3.2K0
七天学会ASP.NET MVC (一)——深入理解ASP.NET MVC
ASP.NET MVC 5 - 视图
在本节中,你要去修改HelloWorldController类,使用视图模板文件,在干净利索地封装的过程中:客户端浏览器生成HTML。 您将创建一个视图模板文件,其中使用了ASP.NET MVC 3所引入的Razor视图引擎(Razor view engine)。Razor视图模板文件使用.cshtml文件扩展名,并提供了一个优雅的方式来使用C#语言创建所要输出的HTML。用Razor编写一个视图模板文件时,将所需的字符和键盘敲击数量降到了最低,并实现了快速,流畅的编码工作流程。 当前在控制器类中的Inde
葡萄城控件
2018/01/10
3.4K0
ASP.NET MVC 5 - 视图
mvc(1)——新建一个ASP.NET MVC项目
 对于mvc的应用,我想第一步就应该是建立一个mvc项目了。废话不说了,直接上。  在“File(文件)”菜单中选择“New(新建)”——“Project(项目)”
全栈程序员站长
2022/09/14
1.7K0
mvc(1)——新建一个ASP.NET MVC项目
ASP.NET Core WebApi使用Swagger生成api说明文档看这篇就够了
将 Swagger 生成器添加到 Startup.ConfigureServices 方法中的服务集合中:
依乐祝
2018/09/18
3.4K0
ASP.NET Core WebApi使用Swagger生成api说明文档看这篇就够了
用ASP.NET Core 2.0 建立规范的 REST API -- 预备知识 + 项目准备
REST 是 Representational State Transfer 的缩写. 它是一种架构的风格, 这种风格基于一套预定义的规则, 这些规则描述了网络资源是如何定义和寻址的.
solenovex
2018/05/12
2.7K1
ASP.NET Core 使用 gRPC 初探
为什么突然说到gRPC呢,其实以前就想说一说这个东西,也想尝试使用一下,一直没有机会,一直看我公众号的小伙伴肯定都知道,这几天一直在录制一个《eShopOnContainer微服务架构》系列,现在已经是8期了,里边涵盖了使用ASP.NETCore开发微服务的常用的基本的知识技能,具体的你可以看我的视频就行,B站也同步更新。
老张的哲学
2022/04/11
1.6K0
ASP.NET Core 使用 gRPC 初探
在一个空ASP.NET Web项目上创建一个ASP.NET Web API 2.0应用
由于ASP.NET Web API具有与ASP.NET MVC类似的编程方式,再加上目前市面上专门介绍ASP.NET Web API 的书籍少之又少(我们看到的相关内容往往是某本介绍ASP.NET MVC的书籍“额外奉送”的),以至于很多人会觉得ASP.NET Web API仅仅是ASP.NET MVC的一个小小的扩展而已,自身并没有太多“大书特书”的地方。而真实的情况下是:ASP.NET Web API不仅仅具有一个完全独立的消息处理管道,而且这个管道比为ASP.NET MVC设计的管道更为复杂,功能也更
蒋金楠
2018/01/15
4.7K0
在一个空ASP.NET Web项目上创建一个ASP.NET Web API 2.0应用
Visual Studio 2012 中的ASP.NET Web API
有的企业 Web 服务使用 SOAP 和 WS-*.*它们对许多事务性或复杂的方案来说很不错。然后还有更轻量级的RESTful web 服务或"Web API",它们使用 JSON,XML,展示了所有的好东西和HTTP 规范的稳定性。 WCF 过得好好的, ASP.NET 也如此,每种技术都有使用其的理由。正如这篇文章说得好, "SOAP的世界与HTTP 服务的世界是完全不同的。SOAP 允许我们将我们的服务所需的所有知识放在信息本身中",而"您可以使用 [Web API] 来创建只使用标准HTTP 概
张善友
2018/01/29
3.4K0
Visual Studio 2012 中的ASP.NET Web API
推荐阅读
相关推荐
WCF和ASP.NET Web API在应用上的选择
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档