功能简介
文本审核功能可对文本文件内容进行安全审核,检测场景包括鉴黄、违法违规检测、广告检测、谩骂检测。
开启文本审核功能后,每当存储桶中新产生音频/文本/文档时,并支持自动冻结(禁止公有读访问)已检测的违规内容。
说明:
文本审核是付费服务,具体费用可查看 内容审核费用,数据万象在账户首次产生该服务用量后,将发放一个用量为10万次,有效期为2个月的免费额度资源包,超出用量或资源包到期后将正常计费。
数据万象(Cloud Infinite,CI)与对象存储(Cloud Object Storage,COS)深度集成,您需要绑定或新建 COS 存储桶才可使用数据万象相关功能。您可以 通过控制台绑定存储桶 或 通过API绑定存储桶。
使用文本审核时,请先确认相关限制条件与地域,详情请参见 使用限制。
操作流程
操作步骤
1. 登录 数据万象控制台 ,在存储桶管理页面选择并单击需操作的存储桶名称,进入存储桶管理页面。
2. 在左侧导航栏中,选择内容审核 > 自动审核配置,单击文本审核。
3. 单击添加文本自动审核配置,进入文本审核配置页面,并按照如下配置项说明进行配置。
审核范围:可选择审核的范围为整个存储桶、前缀匹配或通配符匹配。
整个存储桶:当上传视频到存储桶中任意位置时,将自动进行审核。
前缀匹配:您可以指定某个视频上传至存储桶中某个前缀下时进行审核或者对某个前缀指定不审核。
示例1:如您需要审核指定目录 test 内的文件,则需要填写指定前缀为 test/。
示例2:如您需要审核指定前缀为123的文件,则需要填写指定前缀为123。
通配符匹配:您可以通过通配符自定义匹配需要审核的文件,当前支持的通配符"*"、"?",如果您的路径中包含这些通配符,需要进行转译,否则我们将按通配符进行匹配。
注意:
您可以添加多条审核配置,但审核路径不能重复或存在包含关系。例如您已经配置了审核整个存储桶,则不能再添加针对存储桶内某个路径的审核。
审核后缀:目前支持 txt、html 格式和空后缀。
选择审核策略:请选择您配置的审核策略,不同审核策略对应不同的策略分类,您可以通过自定义策略定制个性化场景审核。支持审核涉黄、违法违规、广告审核场景,可勾选一种或多种检测场景。您可以前往 设置审核策略 查看如何配置审核策略。
已关联风险库:审核策略中关联的风险库。
审核场景:支持审核涉黄、违法违规、广告审核、违法、谩骂场景,可勾选一种或多种检测场景。
每日审核上限:设置上限后,当日将审核固定数量文本,超出部分不再审核,次日将审核新增文本。
冻结设置:您可以选择开启该服务,开启后将授权数据万象对相应类型文件进行自动机审冻结,从而禁止公有读访问已检测的违规内容。开启服务后,您需要选择冻结的文档类型和冻结文档分值区间。
冻结方式:当前支持以下两种冻结方式。
将文件变为私有读:通过将文件的访问权限修改为私有读(private),达到文件冻结的效果。使用这种方式,再次访问文件将会返回“403”状态码,表示无权访问文件。有关文件权限的信息,可参见 文件 ACL 概述。
将文件转移到备份目录:通过将文件移动到备份文件目录,达到文件冻结的效果。使用这种方式,再次访问文件将会返回“404”状态码,表示文件不存在。备份目录由后台自动生成,位于当前存储桶下的路径为:audit_freeze_backup/increment_audit。
冻结类型: 您可指定针对不同业务场景,选择冻结的文档类型和冻结文档分值区间(即60-100的整数,分值越大则说明文档越敏感)。
回调设置:开启回调后将把相应的审核结果反馈给您。您需选择回调的审核类型、回调内容,同时设置回调 URL。回调详情请参见 回调内容。
4. 配置完成后,单击保存即可启用该功能,后续将对您新上传的文本进行审核。
回调内容
开启回调后,数据万象会发送一份默认回调信息至您设置的回调地址,以检测回调地址是否能够正常接收回调信息。默认回调信息如下:
{"code": 0,"data": {"forbidden_status": 0,"porn_info": {"hit_flag": 0,"label": "","count": 9},"result": 0,"trace_id": "test_trace_id","url": "test_text"},"message": "Test request when setting callback url"}
说明:
对于腾讯云冻结的文本文件,如果勾选了回调,此类文本也会返回给您,但是无法进行公有读访问。
回调 URL 需以 HTTP 或 HTTPS 开头且默认返回200正确码才可使用,请在保存设置前进行检查。
回调 URL 预计30分钟后生效。
回调 URL 设置生效后,当发现上传的文本文件符合审核规则,系统会默认回调该 URL,并向其发送一个标准的 HTTP POST 通知消息。HTTP 包信息如下表:
参数名称 | 描述 | 类型 | 是否必选 |
forbidden_status | 冻结状态,0表示正常,1表示文本已被冻结(只有存储在数据万象的文本才会被冻结)。 | Int | 是 |
porn_info | 涉黄信息,包括是否命中、审核分数及详细标签等。 | json | 是 |
ads_info | 广告引导信息,包括是否命中、审核分数及详细标签等。 | json | 是 |
result | 供参考的识别结果,0为确认正常,1为确认敏感,2为疑似敏感。 | Int | 是 |
trace_id | 提交的审核任务的 jobid。 | String | 是 |
url | 上传后的资源 URL,包括域名。 | String | 是 |
illegal_info | 违法信息,包括是否命中、审核分数及详细标签等。 | json | 否 |
abuse_info | 谩骂信息,包括是否命中、审核分数及详细标签等。 | json | 否 |
审核信息(porn_info、ads_info、illegal_info 和 abuse_info)中包含如下内容:
参数名称 | 描述 | 类型 | 是否必选 |
hit_flag | 是否命中该审核分类。 | Int | 是 |
label | 识别出的文本标签。 | String | 是 |
count | 文本文件回调参数,命中该审核分类的文本条数。 | Int | 是 |
以下为回调内容示例:
{"code":0,"message":"success","data":{"url":"xxxxxxxxxxxxxxx","result":1,"forbidden_status":1,"trace_id":"xxxxxxxxxxxxxxx","porn_info":{"hit_flag":1,"label":"淫秽","count":3},},}