活动报名｜北大&谷歌，Token is all you need-看待模型的新角度，通用模型新结构

文章来源：企鹅号 - 智源社区

报告主题：北大&谷歌，Token is all you need-看待模型的新角度

报告日期：11月12日（周二）15:30-16:30

报告要点:

得益于其处理各种数据的灵活性，在Token化所有的数据后，Transformer可以通用的建模任意输入，使其在AI各个领域都取得了显著成功。Transformer通常将处理单个Token所需的计算分为两个部分：与其他Token的交互（Token-Token Interaction）和涉及模型参数的计算（Token-Parameter Interaction）。Attention促进了Token-Token之间的交互，是Transformer成功的基础。然而，Token-Parameter计算主要依赖于固定的linear projection，大大限制这一部分计算的灵活性。

在本文中，我们使用token这一概念建模所有的计算，即将model parameters也视为一种token，网络的计算统一为各种不同的token ( e.g., data tokens and parameter tokens)之间通过attention来进行交互，大大增强了Token-Parameter交互的灵活性。因为其极致的灵活性这一优势，我们的模型能够增量式的扩展模型参数，有效地重用先前训练的模型，从而显著降低了训练负担。

报告嘉宾：

汪海洋，北京大学大数据中心的博士研究生，导师是王立威教授。他的研究兴趣主要集中在Foundation Model，包括模型的架构设计、大规模预训练、多模态大语言模型等领域。他在NeurIPS, CVPR, ICCV和ECCV多次发表一作顶会论文，曾多次获得北京大学博士国家奖学金。

扫码报名

更多热门报告

发表于: 2024-11-112024-11-11 12:39:14
原文链接：https://page.om.qq.com/page/O55qLgxkeH9hNLAh2PA-rgsA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

活动报名｜北大&谷歌，Token is all you need-看待模型的新角度，通用模型新结构

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐