奥特曼,外面都是梁文锋。
最近梁文锋很忙。
2月17日飞去北京,参加最高规格的民企座谈会。
(坐马化腾隔壁)
飞北京的前一天,2月16日还上传了一篇技术大突破的论文。
2月18日,DeepSeek官方就发布了这篇论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。
主要内容是是关于NSA(Natively Sparse Attention,原生稀疏注意力),一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。
简单来说,就是教会AI“一目十行”,这就像我们读书时,我们会专注于关键段落,重要的句子看,并快速浏览其余部分。抓住重点来理解文章意思。
这项技术有望大幅提升下一代大语言模型,处理长文本的能力,同时还能兼顾效率,可谓是AI大模型,里程碑式的进展。
当然,大家也不忘@了下OpenAI的的奥特曼:看,梁文锋的DeepSeek又有新论文了。
全靠实习生
DeepSeek创始人梁文锋,出现在了合著名单,在作者排名中只排倒数第二。
这意味着,他或许只是项目管理者。
值得注意的事,这篇论文的第一作者叫Jingyang Yuan,是在DeepSeek实习期间,完成了这篇论文。
袁景阳Jingyang Yuan,目前是北京大学硕士研究生,研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。
他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目。
高华佐 Huazuo Gao,则来自广东,2012年在华南师范大学附属中学就读,就曾获第29届全国中学生物理竞赛一等奖,次年保送至北京大学物理学院。
代达劢Damai Dai,毕业于重庆市巴蜀中学,高考697分进入北京大学。2024年博士毕业后加入DeepSeek,全程参与从DeepSeek v1到v3的研发。
曾旺丁Wangding Zeng,来自湖南省新化县,2017年至2023年就读于北京邮电大学人工智能学院,硕士期间主要学习人工智能方向,导师为张洪刚,2018年曾获全国大学生数学竞赛(非数学类)二等奖。
国内的科技互联网大厂,热衷于全球招募顶级人才,甚至收集各种诺奖得主。
过去外界猜测,包括OpenAI前政策主管,DeepSeek吸引了一批“难以捉摸的天才”。
梁文锋曾表示,DeepSeek就没什么“难以捉摸的天才”,大多是来自中国顶尖高校的应届生、博士生(甚至是四五年级的实习生),以及一些有几年经验的年轻人。
目前,全球前50的AI人才可能确实不在中国,但DeepSeek希望自己培养出这样的团队。
更好的刀
现在的AI炼金,都是建立靠着Transformer这把刀。DeepSeek这篇论文,就是把Transformer磨得更锋利。
传统的 Transformer 非常耗内存。输入越长,计算成本就越高。
计算复杂度,会随着序列长度的增加而呈平方级增长。这成为了大语言模型发展的瓶颈。计算成本高昂,延迟大。
DeepSeek这次解决了传统Transformer注意力机制,在长上下文处理中的二次计算复杂度问题。
现在有了DeepSeek的NSA,在处理 64k长度的序列时,在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达11.6倍!
Deepseek 的研究人员还将 NSA 与 FA2 内核进行了比较,实证结果表明,NSA 在前向和后向时间上的执行速度分别快了9 倍/6 倍。
NSA还支持端到端可训练稀疏模式,减少预训练成本。
它需要相对较少的 token 来理解事物,这就意味着训练成本大幅下滑。
一次巨大的效率提高!有业内人士点评:
这篇NSA机制的论文内容详实,涉及的技术细节阐释清晰,可操作性强,是DeepSeek给开源AI研究贡献的最新成果。
DeepSeek才是真正的Open的AI。
领取专属 10元无门槛券
私享最新 技术干货