内容检测

最近更新时间:2026-05-26 14:55:31

我的收藏

功能概述

内容检测是 Web 应用防火墙(WAF)大模型安全模块在 SDK/API 接入模式下提供的检测能力,覆盖大模型应用场景下较为常见的四类风险:
提示词攻击防护:对大模型交互的输入进行检测,识别提示词注入类攻击。
内容合规检测:对大模型输入和输出内容进行检测,识别违规内容。
Tool Call 防护:对大模型发起的方法和函数调用进行参数检测与意图识别,从内容与行为两个维度协同管控。
敏感数据检测:对大模型交互进行数据分类识别与脱敏处理,有助于降低企业敏感数据及个人身份信息(PII)外泄的风险。
具体的检测规则以控制台页面展示为准
内容安全防护规则 需要您自行配置匹配条件相比,上述四项检测能力由平台维护规则库并定期更新,只需启用对应规则项并选择执行动作即可使用,可用于快速建立基础防护基线。
说明:
当同一请求同时命中内容安全防护规则与本文所述内容检测时,内容安全防护规则优先生效:
若命中的内容安全防护规则动作为拦截或代答,则流程结束,不再进行内容检测。
若为观察或未命中,则进行内容检测。
内容检测仅在 SDK/API 接入模式下可用。您需要先在 WAF 控制台大模型安全 > SDK 接入页面创建应用并获取接入凭证。详情请参见 SDK/API 接入

操作步骤

步骤一:进入对应规则页面

1. 登录 WAF 控制台,在左侧导航栏选择大模型安全 > 防护配置
2. 选择已完成 SDK 接入的域名,根据需要启用的能力,进入对应规则页面。
3. 各能力页面顶部会展示当前已启用、拦截、观察等状态的规则数量统计。


步骤二:启用规则并配置执行动作

1. 在规则列表中,找到需要启用的规则,单击右侧规则开关将其打开。

2. 执行动作列下拉框中,选择命中后的处理方式:
观察:记录命中日志,不阻断请求。在策略上线初期可优先选择该动作,便于评估误报率。
拦截:阻断请求,并返回拦截提示。对于输入内容,将阻断用户发往源站的请求;对于输出内容,将停止模型输出并返回提示信息。

3. 对于内容合规检测敏感数据检测,还需配置检测模式
入向检测:仅检测输入提示词。
出向检测:仅检测模型输出。
入向出向都检测:同时检测输入与输出。

4. 如需对多条规则进行批量操作,可勾选规则前的复选框,单击列表上方的批量配置,统一调整执行动作、检测模式或开关状态。


步骤三:在业务代码中调用检测接口

上述检测能力需要业务方通过 SDK/API 主动上报待检测内容,配置完成后还需在业务代码中按以下流程调用:
1. 调用 DescribeLLMContentSecCheck 接口,将用户输入的提示词、模型输出内容或 Tool Call 参数上报至大模型安全模块。
2. 根据接口返回的 Action 字段决定后续业务逻辑:
Action=pass:内容未命中规则,可正常转发至大模型或返回给用户。
Action=block:命中拦截规则,业务侧建议中断当前请求并返回拦截提示。
Action=replace:命中脱敏规则(一般由敏感数据检测返回),可按接口返回的脱敏后内容继续处理。
Action=answer:命中自定义防护规则的代答动作,可调用 GenerateLLMSecAnswer 接口获取代答内容,详情请参见 安全代答
接口详细说明请参见 DescribeLLMContentSecCheck