首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Transformers 4.37 中文文档(二十四)

BigBird 模型是由 Zaheer, Manzil 和 Guruganesh, Guru 以及 Dubey, Kumar Avinava 和 Ainslie, Joshua 和 Alberti, Chris 和 Ontanon, Santiago 和 Pham, Philip 和 Ravula, Anirudh 和 Wang, Qifan 和 Yang, Li 等人在Big Bird: Transformers for Longer Sequences中提出的。BigBird 是一种基于稀疏注意力的 Transformer,它将 Transformer 模型(如 BERT)扩展到更长的序列。除了稀疏注意力,BigBird 还将全局注意力以及随机注意力应用于输入序列。从理论上讲,已经证明应用稀疏、全局和随机注意力可以逼近全注意力,同时对于更长的序列来说在计算上更加高效。由于具有处理更长上下文的能力,BigBird 在各种长文档 NLP 任务上表现出比 BERT 或 RoBERTa 更好的性能,如问答和摘要。

01
领券