报告主题:北大&谷歌,Token is all you need-看待模型的新角度
报告日期:11月12日(周二)15:30-16:30
报告要点:
得益于其处理各种数据的灵活性,在Token化所有的数据后,Transformer可以通用的建模任意输入,使其在AI各个领域都取得了显著成功。Transformer通常将处理单个Token所需的计算分为两个部分:与其他Token的交互(Token-Token Interaction)和涉及模型参数的计算(Token-Parameter Interaction)。Attention促进了Token-Token之间的交互,是Transformer成功的基础。然而,Token-Parameter计算主要依赖于固定的linear projection,大大限制这一部分计算的灵活性。
在本文中,我们使用token这一概念建模所有的计算,即将model parameters也视为一种token,网络的计算统一为各种不同的token ( e.g., data tokens and parameter tokens)之间通过attention来进行交互,大大增强了Token-Parameter交互的灵活性。因为其极致的灵活性这一优势,我们的模型能够增量式的扩展模型参数,有效地重用先前训练的模型,从而显著降低了训练负担。
报告嘉宾:
汪海洋, 北京大学大数据中心的博士研究生,导师是王立威教授。他的研究兴趣主要集中在Foundation Model,包括模型的架构设计、大规模预训练、多模态大语言模型等领域。他在NeurIPS, CVPR, ICCV和ECCV多次发表一作顶会论文,曾多次获得北京大学博士国家奖学金。
扫码报名
更多热门报告
领取专属 10元无门槛券
私享最新 技术干货