首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek重磅发布!实习生挑大梁,梁文锋亲自参与

奥特曼,外面都是梁文锋。

最近梁文锋很忙。

2月17日飞去北京,参加最高规格的民企座谈会。

(坐马化腾隔壁)

飞北京的前一天,2月16日还上传了一篇技术大突破的论文。

2月18日,DeepSeek官方就发布了这篇论文《Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention》。

主要内容是是关于NSA(Natively Sparse Attention,原生稀疏注意力),一种用于超快速长文本训练与推理的、硬件对齐且可原生训练的稀疏注意力机制。

简单来说,就是教会AI“一目十行”,这就像我们读书时,我们会专注于关键段落,重要的句子看,并快速浏览其余部分。抓住重点来理解文章意思。

这项技术有望大幅提升下一代大语言模型,处理长文本的能力,同时还能兼顾效率,可谓是AI大模型,里程碑式的进展。

当然,大家也不忘@了下OpenAI的的奥特曼:看,梁文锋的DeepSeek又有新论文了。

全靠实习生

DeepSeek创始人梁文锋,出现在了合著名单,在作者排名中只排倒数第二。

这意味着,他或许只是项目管理者。

值得注意的事,这篇论文的第一作者叫Jingyang Yuan,是在DeepSeek实习期间,完成了这篇论文。

袁景阳Jingyang Yuan,目前是北京大学硕士研究生,研究领域包括大型语言模型(LLM)、人工智能在科学中的应用(AI for Science)。

他是DeepSeek-V3技术报告的主要作者之一,还参与了DeepSeek-R1项目。

高华佐 Huazuo Gao,则来自广东,2012年在华南师范大学附属中学就读,就曾获第29届全国中学生物理竞赛一等奖,次年保送至北京大学物理学院。

代达劢Damai Dai,毕业于重庆市巴蜀中学,高考697分进入北京大学。2024年博士毕业后加入DeepSeek,全程参与从DeepSeek  v1到v3的研发。

曾旺丁Wangding Zeng,来自湖南省新化县,2017年至2023年就读于北京邮电大学人工智能学院,硕士期间主要学习人工智能方向,导师为张洪刚,2018年曾获全国大学生数学竞赛(非数学类)二等奖。

国内的科技互联网大厂,热衷于全球招募顶级人才,甚至收集各种诺奖得主。

过去外界猜测,包括OpenAI前政策主管,DeepSeek吸引了一批“难以捉摸的天才”。

梁文锋曾表示,DeepSeek就没什么“难以捉摸的天才”,大多是来自中国顶尖高校的应届生、博士生(甚至是四五年级的实习生),以及一些有几年经验的年轻人。

目前,全球前50的AI人才可能确实不在中国,但DeepSeek希望自己培养出这样的团队。

更好的刀

现在的AI炼金,都是建立靠着Transformer这把刀。DeepSeek这篇论文,就是把Transformer磨得更锋利。

传统的 Transformer 非常耗内存。输入越长,计算成本就越高。

计算复杂度,会随着序列长度的增加而呈平方级增长。这成为了大语言模型发展的瓶颈。计算成本高昂,延迟大。

DeepSeek这次解决了传统Transformer注意力机制,在长上下文处理中的二次计算复杂度问题。

现在有了DeepSeek的NSA,在处理 64k长度的序列时,在解码、前向传播和反向传播等各个阶段都实现了显著的速度提升,最高可达11.6倍!

Deepseek 的研究人员还将 NSA 与 FA2 内核进行了比较,实证结果表明,NSA 在前向和后向时间上的执行速度分别快了9 倍/6 倍。

NSA还支持端到端可训练稀疏模式,减少预训练成本。

它需要相对较少的 token 来理解事物,这就意味着训练成本大幅下滑。

一次巨大的效率提高!有业内人士点评:

这篇NSA机制的论文内容详实,涉及的技术细节阐释清晰,可操作性强,是DeepSeek给开源AI研究贡献的最新成果。

DeepSeek才是真正的Open的AI。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/ORn-rSq-dywwyC1uYm86gNyg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券