首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >vLLM优化模式下Mask生成

vLLM优化模式下Mask生成

作者头像
aaronwjzhao
修改2025-12-31 16:44:56
修改2025-12-31 16:44:56
230
举报
概述
Mask是注意力计算中的一个控制开关,用于在Softmax归一化之前,有选择地屏蔽掉(遮盖住)某些位置的信息,使其不参与当前步骤的注意力计算。
文章被收录于专栏:AI工程落地AI工程落地

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 回顾Attention计算过程
  • 正常的mask
  • Prefix Caching的mask
  • Chunk Prefill的mask
  • MTP的mask
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档