设置文档审核

最近更新时间:2024-08-22 15:32:01

我的收藏

简介

本文介绍如何通过控制台使用文档审核功能。该功能可对文档内容进行安全审核,检测场景包括涉黄违法违规广告检测等。
添加文档自动审核配置后,每当存储桶中新产生音频/文本/文档时,并支持自动冻结(禁止公有读访问)已检测的违规内容。
您也可以对已存在对象存储(Cloud Object Storage,COS)中的文档文件进行审核,详情请参见 设置历史数据审核任务文档审核 API 文档。
说明:
文档审核基于文档转换能力,通过将文档每个页面转换为图片进行审核。
文档审核为收费项,由数据万象收取,详细的计费说明请参见 内容审核费用
目前支持审核的文档类型包含如下格式:
演示文件:pptx、ppt、pot、potx、pps、ppsx、dps、dpt、pptm、potm、ppsm。
文字文件:doc、dot、wps、wpt、docx、dotx、docm、dotm。
表格文件:xls、xlt、et、ett、xlsx、xltx、csv、xlsb、xlsm、xltm、ets。
PDF 文件。
其他格式文件:txt、log、htm、html、lrc、 c、 cpp、 h、 asm、 s、 java、 asp、 bat、 bas、 prg、 cmd、 rtf、 xml。
表格文件,一张表可能分割为多页转换,生成多张图片。
输入文件大小限制在200MB之内。
输入文件页数限制在5000页之内。

操作流程





操作步骤

2. 存储桶列表页面选择需操作的存储桶,进入存储桶管理页面。
3. 在左侧导航栏中,选择内容审核 > 自动审核配置,单击文档审核



4. 单击添加文档自动审核配置,进入创建文档审核配置页面,并按照如下配置项说明进行配置。



审核范围:可选择审核的范围为整个存储桶、前缀匹配或通配符匹配。
整个存储桶:当上传视频到存储桶中任意位置时,将自动进行审核。
前缀匹配:您可以指定某个视频上传至存储桶中某个前缀下时进行审核或者对某个前缀指定不审核。
示例1:如您需要审核指定目录 test 内的文件,则需要填写指定前缀为 test/。
示例2:如您需要审核指定前缀为123的文件,则需要填写指定前缀为123。
通配符匹配:您可以通过通配符自定义匹配需要审核的文件,当前支持的通配符"*"、"?",如果您的路径中包含这些通配符,需要进行转译,否则我们将按通配符进行匹配。
注意:
您可以添加多条审核配置,但审核路径不能重复或存在包含关系。例如您已经配置了审核整个存储桶,则不能再添加针对存储桶内某个路径的审核。
审核后缀:文档格式支持演示类文件、文字文件、表格文件、PDF 等,支持多选。
选择审核策略:请选择您配置的审核策略(如果您未配置过,可选择系统默认策略),不同审核策略对应不同的策略分类,您可以通过自定义策略定制个性化场景审核。支持审核涉黄、违法违规、广告审核场景,可勾选一种或多种检测场景。关于如何配置审核策略,请参见 设置审核策略
已关联风险库:审核策略中关联的风险库。
审核场景:此处展示您所选择审核策略中配置的场景,您可以自定义勾选希望审核的场景。
每日审核上限:设置每日需要审核文档的上限,超过上限后,当天内再新增的文档将不再审核,默认设置为无上限。
冻结设置:您可以选择开启该服务,开启后将授权数据万象对相应类型文件进行自动机审冻结,从而禁止公有读访问已检测的违规内容。开启服务后,您需要选择冻结的文档类型和冻结文档分值区间。



冻结方式:当前支持以下两种冻结方式。
将文件变为私有读:通过将文件的访问权限修改为私有读(private),达到文件冻结的效果。使用这种方式,再次访问文件将会返回“403”状态码,表示无权访问文件。有关文件权限的信息,可参见 文件 ACL 概述
将文件转移到备份目录:通过将文件移动到备份文件目录,达到文件冻结的效果。使用这种方式,再次访问文件将会返回“404”状态码,表示文件不存在。备份目录由后台自动生成,位于当前存储桶下的路径为:audit_freeze_backup/increment_audit。
冻结类型: 您可指定针对不同业务场景,选择冻结的文档类型和冻结文档分值区间(即60-100的整数,分值越大则说明文档越敏感)。
回调设置:开启回调后将把相应的审核结果反馈给您。您需选择回调的审核类型、回调内容,同时设置回调 URL。回调详情请查看 回调内容
5. 配置完成后,单击保存即可启用该功能。后续将对您新上传的文档文件进行审核。

相关说明

文档审核为打分制,对于每一张转换出来的文档图片,均有一个0 - 100的分值。
确定部分指确定是敏感文档图片和确定正常的文档图片,分值在[0,60]和(90,100]区间,我们认为文档图片置信度比较明确,无需用户人为干预。
不确定部分指疑似敏感文档图片,机审无法区分是否为敏感内容,分值在(60,90]区间,建议用户根据自身业务对审核强度的需求来指定分数阈值。