全称:Root Mean Square Layer Norm
paper:1910.07467.pdf (arxiv.org)
µ是均值,σ是标准差
RMSNorm删除了均值,性能提升7%-64%
再RMSNorm基础上,进一步只让前p%的元素参与运算
论文给出的经验值:p=6.25%
TensorRT-LLM使用的是RMSNorm
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。