内容安全防护规则

最近更新时间:2026-05-27 10:43:51

我的收藏

功能概述

内容安全防护对大模型的输入和输出内容进行扫描,识别违法违规、不良信息等多类风险内容,协助用户落实生成式 AI 应用相关的合规与安全要求。
本能力支持文本图片两种模态:
文本内容安全:域名接入 / SDK API 接入均支持
图片内容安全:仅 SDK/API 接入支持(多模态检测)
内容安全防护可与 安全代答 联动,命中风险时返回替代回答,有助于降低拒答率。
说明:
安全代答当前处于公测阶段,默认不开放,如需使用请 提交工单 或联系专属客户经理申请。

操作场景

本文介绍如何配置内容安全防护规则,对大模型的输入 / 输出内容进行风险检测,并可选联动安全代答。

前提条件

已完成 流量接入SDK/API 接入

操作步骤

1. 登录 Web 应用防火墙控制台,在左侧导航栏,选择大模型安全 > 防护配置 > 自定义防护规则
2. 在自定义防护规则页面,单击添加规则
3. 在添加自定义防护规则窗口中,进行信息配置:

参数说明
字段名称
说明
规则名称
设置规则名称。
会话标识
选择此前配置的会话标识,用于区分不同用户,实现对单个用户的精准内容安全检测。
说明:
使用 SDK/API 接入方式时,无需配置该参数。
匹配方式
默认需要选择大模型安全业务匹配方式,选择添加的大模型安全业务防护路径配置。
说明:
单条规则中不同匹配方式为 “与” 关系。
使用 SDK/API 接入方式时,无需配置该参数。
检测模式
同时检测输入与输出:同时对输入和输出内容进行检测。
仅检测输入内容:对大模型防护路径中定义的提示词部分内容进行检测。
仅检测输出内容:对大模型防护路径中定义的思考与输出部分内容进行检测。如果模型为推理模型,则输出内容的检测范围同时包括思考内容与回答内容。负载均衡型 WAF 接入的域名暂不支持此功能。
模态类型
文本:对用户交互中的文本内容进行安全检测,单次请求文本大小不超过 240 KB。
图片:对用户交互中的图片内容进行安全检测,单张图片不超过 10 MB,支持 JPG、JPEG、PNG、WEBP、BMP、TIFF、GIF 格式。
说明:
SDK/API 接入方式支持配置模态类型。
检测内容
可自选多个条件之间的运算逻辑。
与(默认)
数据分类:覆盖身份证号、社保卡号、URL 地址等多类敏感信息识别。完整规则项以控制台展示为准。
说明:
旗舰版大模型安全支持敏感信息识别检测。
涉敏信息:支持识别违法违规类内容,并提供不同严格程度的检测档位。完整规则项以控制台展示为准。
关键词:支持识别关键词信息,最大支持配置 20 个关键词,多个关键词为或关系。请留意,对于输出内容的检测,由于大模型输出为流式输出,WAF 检测时对于长文本会进行组合检测,因此如果配置的关键词过长,检测有可能会无法命中,建议单个关键词长度配置在 10 个字符以内。
提示词注入:支持识别提示词注入攻击行为。注意,选择此内容配置时,仅支持对输入部分信息进行检测。
正则表达式:支持正则匹配。回车分隔多个值,最多输入20个,单个最多120字符。
编码类型识别:支持检测输入或输出中是否包含特定编码类型的内容。支持以下几种编码类型:Base64、URL/Percent 编码、Punycode、Hex 编码、乱码。支持多选,多个编码类型之间为"或"关系,即命中任意一种即触发规则。
说明:
推荐防护架构为:优先防护提示词注入攻击,其次是涉敏信息保护,最后是数据分类保护、自定义关键词保护、正则匹配和编码类型识别,推荐至少配置三条内容安全防护规则。
执行动作
观察:记录日志,但不会拦截用户的请求。
拦截:拦截用户的请求,并返回提示。
对于输入内容,大模型安全模块进行同步检测,当在输入内容中检测到风险时,将阻断用户发往源站的请求,并返回 WAF 默认拦截提示页面,可以前往基础安全修改默认拦截提示页面的内容。
对于输出内容,大模型安全模块进行异步检测,当在输出内容中检测到风险时,将停止内容输出,并插入自定义提示内容,可以配置返回给用户的提示内容。
具体逻辑为:在识别到风险后,会停止流式输出,并在最后一次返回的 data 数据中的对应响应字段位置插入自定义提示内容,及一个 uuid 字段以及 uuid 值,为了更好的拦截体验,也可以对业务前端进行逻辑修改,在检测到返回字段中存在 uuid 字段时,调整实际拦截效果。
代答:不将请求转发至后端模型,而是由 WAF 直接进行安全代答。详情请参见 安全代答
说明:
SDK/API 接入方式支持安全代答。
优先级
配置规则优先级。 优先级逻辑:请输入1-100的整数,数字越小,代表这条规则的执行优先级越高;相同优先级下,更新时间越晚,优先级越高。

匹配方式

参数类型
支持逻辑符号
说明
请求 Header 参数值
内容为空、存在、不存在、包含、不包含、属于、不属于、前缀匹配、后缀匹配
可设置多个匹配值(通过换行分隔),用于识别特定请求头的特征值。
GET 参数值
内容为空、存在、不存在、包含、不包含
支持对 GET 请求参数值的空值、存在性及内容特征匹配。
POST 参数值
内容为空、存在、不存在、包含、不包含
支持对 POST 请求参数值的空值、存在性及内容特征匹配。
COOKIE 参数值
内容为空、存在、不存在、包含、不包含、属于、不属于、前缀匹配、后缀匹配
支持对 Cookie 值的空值、存在性、内容特征及前后缀规则匹配。
Referer 参数值
内容为空、存在、不存在、包含、不包含、属于、不属于、前缀匹配、后缀匹配
支持对来源链接(Referer)的空值、存在性、内容特征及前后缀规则匹配。
访问源 IP
属于、不属于
支持对客户端 IP 地址的归属范围匹配(需填写具体 IP 段或地址)。
IP 归属地
属于、不属于
支持对 IP 地址所属地域的匹配(可选择国内/国外具体地区,支持多地区组合配置)。
会话 ID
属于、不属于
支持对会话 ID 的归属范围匹配(需填写具体会话 ID 或通过换行分隔多个 ID)。
User-Agent
属于、不属于
支持对用户代理(User-Agent)的归属范围匹配(需填写具体 UA 标识或通过换行分隔多个标识)。
为优化拦截体验,提供更好的交互体验,以下提供业务前端针对 WAF 大模型安全模块拦截逻辑修改的示例代码,该示例代码基于 DeepSeek 接口格式,可参考嵌入业务前端代码中,实现与 WAF 大模型安全模块的防护逻辑联动:
拦截机制说明:
请求方向拦截:WAF 大模型安全模块对于请求方向的拦截方式为同步拦截,客户端发送请求后,服务器对请求进行风险检查(如敏感词)。若触发拦截,直接返回WAF 大模型安全模块预设的拦截页面(不会使用规则中的自定义拦截提示内容),如业务前端需处理拦截效果,只需调整业务前端对于响应状态码和状态提示的效果。
响应方向拦截:WAF 大模型安全模块对于响应方向的拦截方式为异步拦截,服务器在流式输出内容时,WAF 大模型安全模块同步检测风险。触发拦截时:
WAF 大模型安全模块会中断流式内容输出。
在响应数据中添加 uuid 字段,并在定义的响应内容字段中,插入规则配置的自定义拦截提示内容。
如业务前端需处理拦截效果,可以通过检测 uuid 字段的存在性,判断拦截状态,并调整业务前端的拦截效果:
若未识别到 uuid 字段:正常展示内容。
若识别到 uuid 字段:可以清空已输出内容,重置显示为 WAF 大模型安全模块插入的自定义提示内容。
4. 完成上述所有参数设置后,打开规则开关,然后单击确定提交配置,该规则即可生效,对大模型内容安全进行防护。

关键词库

将业务接入 WAF 大模型安全模块后,系统会自动生成一条内容安全防护规则(默认未启用,需手动配置后开启)。该规则的基本信息如下:
规则 ID:5100000000
规则名称:关键词库检测

该规则的配置项和配置过程与本文 操作步骤 中添加自定义防护规则一致,区别在于其检测内容仅支持选择内置关键词库自定义关键词库。可在自定义防护规则列表中找到该规则,单击编辑进行配置。

内置关键词库:WAF 大模型安全模块内置的多类敏感关键词库,覆盖主要违规内容场景,帮助快速建立内容安全基线。内置关键词库由腾讯安全团队持续维护和更新,无需手动配置即可使用。
说明:
内置关键词库的类别和说明以控制台展示为准。
自定义关键词库:除内置关键词库外,还可以创建自定义关键词库,添加业务特有的敏感词条。
新建自定义关键词库
a. 前往 大模型安全 > 防护配置页面,单击自定义关键词库配置进行配置。

b. 在自定义关键词库设置页面,单击新建,构建自定义关键词库。

c. 在新建自定义关键词库窗口中,配置相关参数,单击确定

字段名称
说明
词库名称
自定义关键词库的名称。
描述
自定义关键词库的描述。
关键词
自定义关键词库的关键词。每行仅填写 1 个关键词,单次配置最多支持 1000 行。
导入自定义关键词库
a. 在自定义关键词库设置页面,单击导入数据

b. 单击下载导入模板,按照模板内的提示配置关键词库相关参数。

字段名称
说明
词库名称
自定义关键词库的名称。
描述
自定义关键词库的描述。
关键词
自定义关键词库的关键词。每行仅填写 1 个关键词,单次配置最多支持 1000 行。
c. 单击上传或者将模板文件拖拽到中心区域,单击确定。

导出/删除自定义关键词库
a. 在自定义关键词库设置页面,勾选需要导出或删除的单个或多个关键词库条目。如需批量选择当前列表中的所有关键词库,可直接勾选标题栏的"全选"复选框。
说明:
已被规则引用的自定义关键词库无法进行删除操作。

b. 可根据实际需求,直接单击批量导出批量删除执行相应操作;若有其他需求,也能在更多中选择全部导出全部删除操作。


内容安全防护规则场景示例

1. 参考 业务接入,接入大模型业务。流量接入还需完成会话标识、大模型防护路径配置。
2. 登录 Web 应用防火墙控制台,在左侧导航栏,选择大模型安全 > 防护配置 > 自定义防护规则
3. 在自定义防护规则页面,单击添加规则,配置一条内容安全防护规则,参考进行如下配置:

字段名称
说明
设置检测模式
输入输出均检测。
执行动作
信息类型:关键词。
匹配内容:12345、abcd。
执行动作
拦截。
拦截提示
自定义提示,并配置内容为:自定义提示拦截测试验证。
优先级
1。
规则开关
开启。
4. 前往大模型业务前端,先输入提问:按顺序连着输出前五个正整数,然后观察拦截情况。可以观察到,输入内容中存在关键词 12345 时,输入会被拦截并返回配置的拦截提示页面内容。

5. 然后继续输入提问:按顺序连着输出前四个小写英文字母,然后观察拦截情况。可以观察到,输出内容中存在关键词 abcd 时,输出会被拦截,并返回配置的自定义拦截提示内容。

6. 也可以前往大模型安全 > 日志审计,查看对应的攻击日志信息。