00:02
呃,我是来自腾讯云的高级工程师赛飞啊,目前的话主要是在腾讯云这边负责内容风控相关的产品研发,那今天给大家带来的一个呃分享的一个主题的话,主要是关于内容风控产品的,那今天给大家分享一个主题是如何利用腾讯云的一些呃主见和一些能力,在一些直播音视频场景,如何是快速的搭建起自己的一个业务安全的一个识别能力,从全方面去保障自己的业务安全。那我今天分享的主题的话,主要包括四个部分,那第一个部分的话是介绍内容安全相关的一些背景,以及在当下的一个大环境下,我们去做一些内容安全相关的一些产品,或者说做一些UGC的内容场景的时候,会遇到一些什么样的一个新的挑战,那第二个部分的话,会给大家介绍一下音视频场景的话,我们是如何去搭建像一些内容的审核的应用系统的。
01:01
那第三部分的话,会去分享一下,在腾讯云里面,那我们是如何去应用一些技术架构,去实现一些呃内容审内容审核的能力,并且开放给到我们的一些云客户,或者说一些呃呃开发者去使用,那第四部分的话,主要是呃介绍腾讯云的一些内容风控的一个整体的一个解决方案。那首先的话,我们还是从大的背景上去讲,那实际上从网络安全法这边的话,其实呃逐渐去开始了,有很多的法律法规去要求一些企业采取技术措施去保障它的网络安全,那我们其实也会知道,每年其实在国内的话,都会有一些什么清朗或者互网或者说互苗相关的一些运动,以及像一些扫黄打非的这种专项打击的一些呃活动,去针对于这种线上或者线下的一些互联网产生一些内容去进行一些识别,那对于一些。产生一些违规的,包括像一些涉黄涉政的,或者说一些呃不良场景的一些网站的话,其实都会涉及到一些比较严厉的措施,那在这里的话,我也贴出一些呃常见的,或者说我们常遇到的一些法律法规,如何去要求说怎么去做内容审核,那比如说像一些网络直播场景的话,会有一些明确的一些管理规范,指导意见,那像一些APP里面的话,它其实也会涉及到一些个人信息。
02:22
呃一些行为的一些认定的和一些识别,那我们会发现在2021年的时候呢,其实在整个全国来说的话,都会去呃发现有大面积的一些网站或者平台去受到了一个网信系统的一些处置,因为这些网站的话,都会涉及到一些呃不良的一些行为,包括一些饭圈的一些呃乱象整治,或者说一些涉及到一些未成年人不良不适宜的内容的话,或者说一些价值观不符合的内容话,都会受到一些呃整治和面临一些整改,那像以前的话,我们会发现可能有一些呃比较大的一些应用都会面临因为一些内容合规的问题,导致它直接的APP啊APP上下架,导致呃会在后续的那个呃呃时间里面的话,都可能无法无法正常运营。
03:07
因此现在对于内安全这块来说的话,其实都会是直接影响到了一种企业的正常运营,或者说正常开展它的一个,呃,运营的一个一个生命线的一个一个一个动作,那其实企业都需要非常关注这个事情。那实际上在近些年来的话,我们在传统的内容违规的识别上的话,其实会出现了越来越多的一些细度的识别,那这里给到大家一个图的话,可能涉及到一些呃敏感的一些信息,那我这里做一些打呃马赛克的处理,可能大家看不太清楚,那我这边给大家简单介绍一下,那第一第一系列的话,比如说在一些社情场景的话,除了像传统的那种,可能明显的有一些偏社情的内容话,那目前来说的话,针对于一些性暗示类的,比如说像田潇潇这种行为,实际上也会涉及到一些违规的一些。呃,判断或者说达到了一些违规的要求,在不同的场景的话,都是需要去进行一些识别和处置的,那同时的话,在近些年的话,也会有些价值观不符合的,比如说一些动漫盒的动漫场景的话,那涉及到一些未成年人,可能他会看的比较多,那对于价值观的体现,对于一些不良的趋向性的东西,其实也是要纳入到一个呃合规处置的一个呃范畴的。所以在目前来说的话,我们在内容安全这里的话,其实要面临的就是识别的维度,或者说他需求的力度会越来越细,针对于不同的平台,它其实面向的这种审核。
04:35
合规的监管要求其实也是不太一样的。那除了这种新型的一些监管需求的话,其实在本身这种内安全场景的话,也会存在很多的一些强对抗性的呃因素,比如说你通过一张图片可以拦截,那图片可以做它进行一些编辑,那如果说对于一些文字进行拦截的话,或者识别的话,那文字这边,尤其在中文场景的话,我们会发现有一些形近字,也有一些这种符号,或者说拼音或者数字,它会组合起来,会变得非常非常多的一些变体,那文字加图片就会变成一种非常强的一些对抗性的一些样本出来,那在互联网上去传播的时候,其实这种识别效果。
05:15
和一些识别的这种新型的一些数据的话,其实是比较难的,那同时的话,我们会发现,即便是呃,达到的一些审核的一些标准的,比如说一些枪支,那在不同的场景里面,它其实的标准是不一样的,那枪支的话,在一些军事节目里面出现其实很正常的,但如果说涉及到一些儿童或者说一些早教环节的话,那频繁的去播放一些这种有带一些武器或者说杀伤力的一些武器的话,其实是不太利于。不符合一些这种,呃,早教的一些需求的,或者是监管要求的,那同时的话,对于一些艺术类的培训的,我们会看到一些世界名名画,它会涉及到一些。裸露或者说一些比较大面积的一个暴露的一个一个一个场景,那实际上在一些艺术类培训,或者是在一些教培场景的话,那其实它也会比较容易出现,但是如果说在婴幼儿教育或者在就儿童教育这里的话,如果频繁的去呃早过早的去取这些呃艺术品的去培训的话,其实也会有很多不适宜的一些场景,可能是需要针对一些呃呃培训场景的话,要进行一些定制化的一些策略的开发。
06:20
那同时的话,我们会发现在近些时候也会发现像一些教材,像一些呃实物相关的,像槟榔这种,那其实也会面临着更多的一些呃审核页的需求,去发现是不是符合当下的一些广告啊,或者说一些事宜对外去做广告宣传的,以及像教材这种的话,是不是呃比较好的去体现了一些价值,价值手相,或者不符合一些当下的一些呃发布的一些规则。那同时的话,我们会发现,随着不同的这种新型的类型或者新型的审核需求的出现的时候,我们的内容不是审核,不是说审核完之后就一直可以是符合要求的,那实际上它会在针对新场景,新的风险类型出现的时候,也是需要对于它历史的所有的存量数据都要进行一个。
07:08
都要进行呃存量的一些回,那这样的话,对于呃存量的一些大数据,存量的一些呃数据的审核时效性,都是需要比较快速去响应,满足监管要求的,这些都是在当下来说的话,我们面临一些比较常见的一些挑战。那同时的话,我们如何去开展去说,如何去发现一个音视频里面有一些违规内容,那呃,我这边的话去简单一张图片,因为。我们的一个比较复杂的场景的话,是音视频,就是说视频场景,但实际上视频场景的话,我们通常的做法它就会变成了说我如何去从画面或者从音频去识别出里面是不是有违规的元素,那通常来说的话,我们再去呃,去主动发现这些违规的一些疑似元素的话,主要是利用的像一些图像、音频、文本等三大三大类的这种机器识别的能力,去构建我们这一块的一些机器审核的能力,那分别的话是从一些画面的人物,画面的一些图标,或者说画面里面出现的一些文字,以及像音频里面的话,说话人的说话的声音,说话的一些语义相关的识别。
08:14
这些元素里面去发现它是不是可能出现一些,呃,我们当下的这种,呃,应用或者说你的产品,你的平台里面是不适宜出现的内容。那通常来说的话,我们现在主要具备的能力,比如说像人脸识别这种会发现是不是说出现的一些不适宜出现的人群,或者说不适宜在这个平台里面出现的一些人物,那同时的话,我们会利用一些图文识别的技术去把图片里面的。以及说像视频里面的画面里面的像,它里面出现一些文字去进行提取,提取完之后的话,再去进行文本相关的一些审核,那以及像。一些画面里面出现了一些台标,那这里因为一些数据脱敏,或者说数据合规的问题,本身我们现在也在传播这些内容,那我把现在的这种呃,图标或者是人物都换成是比较正常的,你比如说像我们识别的台标,那就会识别像腾讯安全这类似的这种台标,但实际上在一些内容审核场景的话,通常我们要审审核的一些台标,可能是一些境外媒体,或者说一些呃,违法违规的一些媒体的logo,那以及在一些广告应用场景的话,我们的logo通常来说的话,会因会随着客户的一些需求,会把它变成一些偏定制开发的能力,比如说像一些电商平台的,电商平台里面的话,你像拼多多这种的话,那其实它就不太倾向于说在他平台里面出现像淘宝或者像京东类似的这种。
09:39
这种元素出现,那它其实也是需要去识别出来的。那这种的话,其实它不像是这种面向监管需求的一些,呃,识别的这种审核能力,那其实它是面向于它本身业务发展,或者它本身的业务形态需要去做一些定制化的能力,那实际上在当下来看的话,这些能力的话,通常来说是把它和内容安全相关的这种能力合在一起的。
10:02
那以及针对于画面的话,其实是基于画面的话,我们也会发现,通常来说,如果说我们发现一个视频里面的画面是正常的,但实际上呃,要去提供一些像音频相关的能力的话,音频也会涉及到违规,那典型来说的话就是呃,你的画面跟你的说话的这个声音或者说话的内容是不不匹配的,你画的画面是正常的,但实际上你说话会说的很多违规的内容。那这里举例可能举的是一个好好学习,天天向上,那实际上的话,可能说你的弹幕或者你的字幕,你出现在文字是正常,但实际上你说话的声音是不正常的,以及即便你说话的那个,说话的那个转译出来的这些文字,或者说转移出来的我说话的这些中文是正常的,但实际上也会在一些。一些擦边提供场景的话,你会出现一些娇喘,或者说声音,实际上你转移不出来,你需要从单纯的一些音频的特征上面去分析些,它是不是有一些低俗,或者说带一些色情相关的一些音频信号在里面,也是需要去识别的。以及针对于整个画面来说的话,其实会去基于画面的整体画面去分析它是不是正常的,比如说它是不是有一些色情倾向性的,获得一些低俗倾向性的,那我们主要来说的话,是通过这种五类的这种呃识别的能力和场景去构建我们的这个识别的能力,从而发现在因式图文数据里面的一些违规元素。
11:19
那这里的话,其实给大家可能简单的去介绍了一下,在直播这个业务场景的话,内容风控的系统它会具备一个什么样的一个特点,那实际上我们在一些传统的审核模式上的话,直播它更偏向于是一个呃生产数据实时播放的一个场景,那它对于审核的时效性其实要求比较高的,并且对于审核的准确率其实也是需要要求比较高的,那在一个典型的直播应用场景的话,我们其实主要来说的话,它会有三种的数据类型。比如说像个人资料相关的,它就会有你的用户昵称,用户头像以及用户资料,那其实这种的话是在用户上传或者编辑他的资料的时候,都可以去提交到内容风控的平台,或者说内容风控的一些系统,去实时的识别出来是不是违规,并且及时告知你的用户,你这边的图片,或者说你的昵称是不是呃不适宜,那你需要进行替换,那同时的话,在直播的场景,为了增加一些互动性的话。
12:16
那主流的一些直播场景,它都会出现一些弹幕,你可以在你的直播编直播的时候,你的主播也好,你的观众也好,它实际上可以通过屏幕上的一些弹幕去不停的发一些文本消息,或者一些表情消息,那这种场景的话,其实主要是一些偏短文本。的一个审核,其实也是可以实时去进行识别和拦截的,那最复杂的其实是在直播这个场景。直播流的话,其实它会包含了像我们刚才讲的,它会有一些画面上的一些元素,或者说有些音频类的一些呃数据在里面,需要去呃差异化的去做识别,那通常来说,针对于这种直播流,你需要去进行一些呃编辑码的工作,或者说拉流的一些工作,去把画面做成提取它的一个,从画面里面提取图片出来,或者从音频里面去切成一个小的音频片段,去送到你的一些审核服务里面去进行它的识别。
13:06
那比如说像图片这里的话,你会有一些呃,鉴黄或者是违法的一些分类模型去做识别,以及像针对于人物这种人群的场景的话,你会有人物识别的这种模型去做检测,那以及像一些特定的台标logo,比如说我们要识别二维码,我们要识别里面是不是包含我们的竞竞争对手的一些呃,Logo我们是不是识别里面可能一些呃。呃,境外相关的一些反动媒体的logo,那都是有目标检测模型做的,同时的话,在OCR这个场景呢,我们需要把图片里面的所有的文字提取出来,看到文字里面是不是有违规的内容,那针对音频来说的话,其实主要分为三类。啊,这个提示我网络不好。不知道大家能不能听到,嗯,就是音频这个场景的话,其实主要分为三类的一个模型,第一种的话是说我们纯音频的,就是说我可能在里面没有说话,有没有中文或者没有英文相关的这种语音相关的信息,它是单纯的去做一些交识别的,比如说一些声音的声音,或者一些呃。
14:04
比如说一些女性或者男性的一种浪叫的一些声音,那会通过一些分类模型去做,那同时的话会有一些涉及到一些敏感人物的一些识别,去识别它里面可能是不是有特定的一些人群的一些声音在里面,以及针对AR来说的话,会识别里面的一些把语音信息都提取出来,从而去过一些文本的这种模型服务文本的话主要是基于三个能力去构建的,一种的话是传统的关键词就匹配里面是不是有一些敏感词,我们对这些敏感词进行呃一个识别。懒通,那在link感词这里面其实会产生你的效果,会说你的召回率,或者说你的发现的这个范围会见效非常非常快,它的范围随着你的加词加的多,它其实也识别的范围会更广,那实际上它也会面临一个问题,针对一些复杂场景的话,其实关键词会产生比较大的误差,那通常来说的话,会辅助一个NP与你相关的一些模型去识别。去识别里面一些情感性的分析,或者说倾向性的分析,即便是一些常见的关键词,那它是可能是一些违规的,也可能是于正面场景的。
15:04
那还有一些是规则匹配的,发现里面是不是一些广告相关的一些,呃,联系方式啊,或者说网址啊,或者有一些就是呃,QQ或者一些微信,或者是偏偏向于这种广告引流相关的一些元素在里面,那在这些基础之上的话,其实针对于直播的话,还要可能在注意一些,就是偏向于流式相关数据,它定义的一些审核规则,比如说在一个直播场景的话,呃,我们通常来说在打游戏的时候,可能都会说一些口头禅,比如说骂人之类的东西,但实际上你如果说在这种游戏直播里面的话,你因为一两句的口头禅就是骂人,就把他禁言,或者说把他踢出房间,或者不让他主播,那其实这个规则会比较严,那通常来说的话,其实会在这种呃,违规类型的这个识别上面去,再把这个时序上的一些规则把它加进来,比如说连续。几分钟之内连续出现多少次,那就认为是一个违规,比如说我们五分钟,如果说你连续了十次谩骂,那我觉得你这个人口的谩骂的这个是是在恶意辱骂你的一个玩家,或者说恶意恶意的去有一些低俗的语言出来,那如果说你你可能就一两次,就是因为一些情绪激动,你你可能骂了一句国粹对吧,那那其实是比较正常的。
16:15
那同时的话,就是在一些直播的一些场景的话,我们可以基于一些历史行为,比如说他经常会去骂人,或者经常会出现一些呃违规的元素的直播的话,那你基于一些账号或者设备,你可以呃对于这类的人群会特别关注,或者说比如说对于他的审核策略会特别严,对于他的一些审核数据的话,你可以说让他呃呃限制他的播主播的一些行为。那对于直播场景的还有一个原则在于说,因为你发现的违规,它是个实时播放场景,如果说基于人积极审核这种判断标准,直接去做拦截和打击的话,其实是直接会影响你的客户体验的,因此呃在大部分场景的话,就是说对于机器识别的,呃,违规之后,通常来说还会加入一个人工平台,人工审核平台去进行一些分级的审核,比如说对于一些高优先级的,我们在国内的场景的话,比如说一些。
17:04
敏感性的就是,呃,比如假设一些涉众敏感性的一些信息的话,可能是高音级去审核,并且是要从严处置的,那对于一些谩骂或对于一些广告引流的,其实危害等级比较高,那可能是放到低优先级去处处置的。那通过这种呃,典型的这种传统的英式图文的审核,再加上一些流失的审核规则的话,再配套这种人工审核平台,其实就可以比较完好,比较较好的去呃应对这种直播业务场景的这种内容风控或者内容审核的一些要求。在另外一个场景的话。我们会发现就是直播是一个场景,但在呃通常来说,我们看一些短视频,以及最近这几年短视频其实比较火,那像一些视频场景,或者说一些视频播放平台,短视频播放平台,那实际上它的一个审核,我跟直播其实是有太不太一样的,比如说直播是实时的,对时效性要求比较高,但对于这种短视频或者视频审核平视频,视频播放平台来说的话,它实际上是先有文件,比如说一些音频文件,或者它有了一些视频文件,它一般是先上传后审核,然后再再允许。
18:11
呃,你的用户或者允许这个平台可以被搜索到。所以它是个典型的先审后发的这个逻辑,那直播的话是一个边审边发的一个逻辑,因此的话,在点播这种应用场景的话,我们通常来说的话是需要提供一些,比如说针对这种文件要去下载,那针对于这种呃音视频文件的话,其实它也会分不同的板块,比如说在呃视频播放场景,你可能有一些动漫板块,或者一些是教育板块,或者体育板块。或者有一些是时事新闻,有一些是这种呃,呃社会新闻类的东西,那其实上你的平台会根据你的业务的一些呃特性,以及你对播放的这种呃,比如说一个常规的这种视频,你去播的话,可能说你你你隔一天或者隔两天审核完再去播也没问题,但对一些时效性的一些实施新为实施热点的东西,你肯定是希望他尽快审核完,尽快能够推出给到你的用户去看,所以他这里会涉及到说我具备一些优先级的队列的一个功能,去针对于特定板块,特定的一些呃视频类型,我可以让他去插队去优先去审核。
19:15
那同时的话,对于。我们目前来说的话,去采取了一些像工作流的一些框架去做,那它其实会具备比较多的一些特性,比如说针对于视频文件,那即便它中间出现了一些问题,比如说下载出现问题,或者说哪个呃,某个子服务出现问题,它其实可以都会有一些自动恢复,会有一些自动的重试机制,去良好的去保证它这里的审核服务其实是可以呃容错的,或者说是自恢复的去运转的,那同时针对于所有的一些呃。过程中的状态数据,其实可以去全流程的监控起来,以及针对于一些下载产生的一些带宽,都可以去灵活的调配,通过一些队列去控制它,那些呃,审核流量的峰值,或者审核流量的这种。突增的一个情况。
20:00
那以及在腾讯云这里的话,其实我们自己除了针对于普通的这种公网链接的这种资源审核,其实还会有一个比较好的一些特点,比如说我们去针对腾讯的S存储的时候,那其实都走的会走内网下载,那其实对用户来说的话,就我们的那种客户来说的话,其实会省一笔的这种外网下载的带宽费,因为我们腾讯本身是内网,腾讯在客户侧是不会产生带宽成本的。那如果说是针对于我们在,比如说我们在一些。互联网电视的这种场景,它会涉及到购买一些腾讯,腾讯视频的一些资源或者版权,那他再把腾讯视频在他。从腾讯视频拿到一些视频资源,在他自己的平台上去播放的时候,其实要也要去进行一次审核,去符合他自己的那个平台的一些合规要求,那他通过这种方式去送审到我们这边的话,我们其实可以直接从腾讯那边去下载一些已经处理好的些数据,直接按照他的一些审核要求,再去定制的话审核一遍,从而把一些呃审核的一些结果告诉他,在这个过程中的话,其实都不会涉及到一些呃版权数据相关的一些传输问题,因为都是在内网去消化的。
21:12
那第第三个部分呢,主要是介绍在腾讯云的这种内容风控的产品下面的话,我们是如何去构建我们的一个呃服务和系统的,那在基于我们的一些呃这个长时间的一些经验的话,其实我们在整个的这个风控体系这里的话,其实分为了呃五个层次,第一个的话,其实解决方案层我们会把内容风控的能力去在不同的业务场景去有一些差异化的一些能力,比如说像策略,像一些模型,像一些呃服务的一些接口能力,它其实会针对于不同的业务场景有一定的这种呃组合好的能力,或者组合好的这个即插即拔的一些。呃,使用使用的一个产品,比如说像对象存储啊,你就可以直接在里面,你只要上传数据啊,研发接入就可以完成你所有的这种资源的一些审核,那在第二层的话是应用层,我们通常来说是把我们面向数据场景的这个,呃,识别能力定义成一个产品,对外提供服务,比如说图片,文本,音频,视频以及。
22:09
我们提供这些服务的时候,会提供他的一些控制台去看数据,去配置策略,以及提供一些人工审核平台去进行人工审核,以及一些人工处置的能力,那以及相对于各个的一个产品,其实也会把一些策略管理的呃接口或者能力开放给了我们的用户。那最核心的其实是中间的这两层,一个是算法层,算法层是最呃最核心的这一层的话,是基于我们所有的这种内容风控能力,其实已经是基于机器学习去构建这种模型服务,去提供我们的识别能力的,比如说图片会有提图片的相关的模型会比较多,这里简单列举了像一些色情相关的,不良行为相关的,以及像一些地图检测相关的,那像音频这里的话,我们也会列举出来,像一些交喘声音,像性别识别,未成年识别,那同时文本这里的话,基于这种呃,色情广告报其实都会有比较多的一些模型,那这里其实大家看到的可能是一个偏向于一个大类的一个呃识别其实对于社情也好,对于一些。
23:11
违禁或者谩骂也好,其他都会分很多细分的场景的模型,那我们其实这里笼统来说的话,这一算法这一层里面的话,会综合所有的这种模型,以及定向的一些细分模型,去把这里的那个原子能力,或者说模型的识别能力构建的足够丰富。然后再通过中间这一层,比如说策略层,会把模型的能力以及标签的能力去组合,形成一个定制的策略,比如说在一个直播场景,那它需要的一个什么样的模型,针对于直播数据,它是一个什么样的一个呃数据模型会比较好,那其实会通过模型的组合,模型的这种标签的组合去形成一个策略,那策略本身的话也会提供一些策略模板,比如说我们针对直播就有一个呃游戏直播的模板,或者说电商直播,一个电商直播的模板,那这样的会保证我们的用户在使用这些产品的时候是可以快速的去。
24:01
满足他自己的一些识别需求的去构建这个能力出来的,那同时在策略层这里的话,除了模型这种策略的话,其实还会有一些专业库,比如说把一些专业知识库,我们在偏向于广告场景的话,会哪些在广告的这种广告法的要求下,你是不允许出现的,比如说你你在广告里面说你是可能国内第一,全球第一,这种其实不太合适的。会把它抓加到一些专业知识库,比如说像一些呃事件库,敏感事件库里面也会有专门的一些敏感事件的一些情况,以及像一些敏感词库,专业的图库,会把相关的一些敏感事件,比如说一些社情的,或者说一些呃政治敏感性相关的,都会把它呃建立专属的一些库,在特定的时期,特定的时候,我们都会把它开启,满足他对于一些定点或者定时的这种实力的需要。那还有一个就是策略层,这边的话,其实这里策略的效果其实跟模型是息息相关的,会有一个模型的平台,去从数据以及到数据的标注,数据的挖掘,到模型的训练,模型的评测,模型的发布,去把这个东西能够自化的运转起来,去不断的去反哺线上的识别效果。
25:06
那最下面的话,其实是一个数据存储数,这里就不过多介绍了,会针对于一些缓存数据,一些持久化的,呃,存储数据,一些日志数据,都会有比较全面的一些大数据的一些组件,那这些都其实使用腾讯云的一些标准组件去构建我们的系统。那在图片这里的话,其实我们会发现,即便是我们常见的一些比如说人脸识别,目标检测或者OCR,以及人脸识别这种基础技术,你要去构建我们的这种审核场景的话,以及像面向这种多行业场景,多审核的这种需求,多审核这种合规要求的时候,其实你依赖于这种纯粹的单模型,其实已经很难满足现在的这种行业的要求了。那比如说像我们现在去构建我们的业务架构来说的话,我们会把模型语音拆分到了原子能力模型,比如说我们不再单纯去说识别它是不是色情,我们会把它识别出来说,哎,你的人体部位是哪些,比如说你是不是有胸部、臀部,那你是不是有一些亲密行为会把它。
26:03
把行为类的检测模型把它建立起来,比如说你会不会有一些性暗示相关的这种这种行为在里面,那综合来说的话,你会把一些。人体的部件以及一些行为,以及像人体的一些属性,你把它关联起来,去组合成我们所谓的性感识别的这个能力,那这样的话,我们在底层的原则能力可以做到说跟业务的识别需求其实是不要完全一一对应,或者说直接强耦合的,那这样的话,在层的某些能力,或者说我要快速去新插拔一些能力进来的时候,可以做到轻量化或快快速插拔进来的一个一个特点,那在中层的话,其实基于一些。原型的原子能力模型,以及我们在一些承接我们不同的这种呃识别能力的要求的时候,会把原子能力模型组合成一个我们所谓的性感识别也好,我们所谓的报告识别好,这样的话就具备一些呃灵活的这种极插即拔或者组合使用的这种场景,那通过这种模型以及模型的组合以及策略的这种这种编辑,那我们会形成说面向不同客户,这里的客户,其实你把它换成一个行业也是适配的,面向客户级的,或者面向行业级的,面向面向场景级的,都可以很快速的去构建这样的,那目前来说的话,我们在我们现有的这种。
27:20
呃,图片审核的能力里面的话,我们其实累计超过了这种300多个标签的能力,那其是标签能力,其实像一些目标检测来说,已经达到了几百个,或者说以及呃超过了300个的这种呃识别的能力,那这样的话,在我们去呃响应客户的需求的时候,或者响应这种行业的需求的时候呢,其实会做到非常灵活并且快速的去满足我们的这个呃客户的需求。那是在音频场景的话,我们在传统的这种音转文去识别,或者说传统的音频黑库的匹配的能力上去补充了很多的新的一些能力,比如说去识别一些语种,那在特定的场景,你不同的平台其实对语种会有一些呃要求的,比如说你你如果面向的是中文场景,其实你不太可能说让他具有一个。
28:06
一些呃,非中文场景,或者说非中英文场景,这种场景的语种出现,如果出现的话,其实大概率可能说它会是在做一些或者从这些啊,不利于你平台,不利于你平台正常或者合规运营的一些内容出来的,所以这些语种检测能力是非常关键的,是要快速甄别你这些数据是不是符合你的运营需求,或者你的产品定位的。那针对语种识别之后,其实会进行AR识别,AR之后其实主要来说是帮我们把一些呃音频里面的一些呃说话的一些声音去显性的转成一个文本,并且把用文本的能力去识别出来。那同时的话,针对于音频的一些特征,我们从。无法去从声音的说话的一些语义来判断的话,我们就单纯从他的音色,音音质或者是音频的特征去识别出来他一些性别相关的,比如说是不是一些未成年人在一些呃直播,那在一些直播场景可能是限制未成年去直播的,那你去识别出来,诶即便他身份或者冒用账号,那他如果说话的时候会一些呃带一些未成年人的话,其实也是可以识别出来的。
29:08
那还有一些性别场景,一些娇喘识别场景,那还有一些就是结合一些情绪场景,你是不是可能会在里面会有一些比较强的负面情绪,比如说你会骂人的一些负面情绪,你会非常啊暴躁一些负面情绪,是不是可能是也会识别出来,对,那同时的话,针对于呃一些特定的场景,比如说一些明显我们可能说不利于在平台里面出现了一些违禁歌曲。或者说在直播场景的话,其实我们一般来说是不允许说在直播场景你会去。大肆放一些国歌的,那其实这些东西都是要快速去识别,然后去识别出来,禁止它去传播的,以及像一些常见的一些呃音频的一些呃库的话,就比如说一些特殊的人群,或者是特特定的人去可以建立一些黑户,从而的话去识别出来它里面是不是违规的,通过这种原子能力的话,去结合起来,去识别出来它最终的一个审核的违规的。
30:01
呃,一个元素,并且告知,呃,这个平台,你是不是可能需要对这些数据进行处置。那实际上在文本这里的话,我们发现文本尤其在中文场景,它的难点会非常多,比如说像一些猜字,你会把你拆成一个耳和女,你会把一些呃符号也会进行替换,比如说你会把蛇换成一个符号的蛇,你会把一些呃文字变成繁体或者说简体,或者说一些大写的一些英文字母,或者一些符号组合起来,就是一些符号的替换,那其他对抗性非常强,那目前来说的话,我们主要的技术来说的话,会集中在呃这几个。典型的一个技术,就通常来说传统的一些关键词以及一些规则匹配,那在这些能力基础之上呢,其实会辅助像一些文本的分类模型,你做去报文识别,你的情识别,以及像一些情感分析,你分析你在说话的时候是不是带有一些诋毁性、侮辱性或者谩骂性的一些性质在里面,即便这个词可能没有,那其通过情感分析话,可以把一些中性的词能快速的识别出来。
31:02
那在当下的话,其实我们随着这种呃,网络就是互联网的网络,其实你比如说大家在以以往来说可能是图文比较多,但现在来说视频会越来越多,那随手一发可能都是一些视频数据,那对于视频数据里面的话,或者是图片数据里面,它都常综合了多种的这种呃数据类型,比如说图片文本合合在一起变成图文的这种违规识别,那对于针对一些未成年人,像去年可能跟针对一些提出了一些未成年人保护相关的东西,那表情其实个小女孩,那实际上可能她的文字配上之后就是一些偏向于一些非常。未成年人社情相关的内容出来了,那其实就会用到一些跨模态的一些识别能力,去分别去针对图片发现它里面的一些。文本相关的信息以及图片相关信息,并且把图片的特征和文本的特征进行综合去识别,然后同时使从而达到一个比较好的效果,比如说像一些呃,广告招嫖,其实这东西是非常常见的一些违规内容,一张正常的或者说一张比较性感漂亮的女女生来或者女性图片那配套一些文字,这个文字的话,存在很多的对抗的一个元素,比如说进行很多的一些字或者说符号替换的原。
32:11
的能力去把它进行替换。让这个识别能力会变渐下降,那如果说引入很多的一些对抗或者说动膜它的这种识别能力的话,其实会比较好的去理解里面的一些隐晦性的一些内容,或者说把一些对抗性的元素能够很快的去能够召回出来。那同时的话,比如说我们在一些场景的话,我们比如说要识别一些logo,或者说。有些是偏中中性的,比如说我们的人民币,那其实你正常去提一些人民币的话,其实比较正常,但如果说你涉及到一些侮辱性的,或者说恶意的,比如说你去焚烧他,或者说去去恶意的,去有一些侮辱,侮辱性的行为,恶意倾向性的行为的话,其实你是需要去额外去关注的,那通常来说中性的话可能允许他出现,那如果是涉及到一些焚烧、诋毁,恶意恶搞相关的,其实你需要去。
33:00
呃,及时的发现并且拦截,那这样的话,其实都是需要通过一些多模态的识别能力去快速的去理解这个本身图片里面的话,可能带有一些个人的一些倾向性,或者潜在的一些情绪倾向性的东西。啊,去解决这类的问题。这是目前来说的话,我们通过一些技术手段要去解决的可能一些强对抗性的一些样本的问题。那实际上的话,我们去面向一些不同的行业场景的话,就刚才我们在前面讲模型的时候也提到,我们需要把一些。模型的原子能力一些这种这么很多的一些综合的技术能力。这边我加快点快了,这边稍微加快一下,进了后后后面后面后面后面没有多。就这个地方的话,就是说把我们要强调是说在审核服务这里的话,其实原来的模型能力的话,其实不太具备一些通用性的,那实际上的话,在这里的话,去把模型的能力和一些综合的一些处置能力,标签能力,或者说一些它的那个预处理能力去综合起来,变成一个呃典型的一些策略模板,并且通过一些自动化的一些发布评测流程,去确保线上的这种识别效果能够实时的能够得到验证,并且不影响线上的一些呃使用体验。
34:14
那接下来的话是介绍我们整个的腾讯云的内容风控的解决方案,那实际上我们对外嗯提供的能力的话,是应视图文的这种审核的API的能力,那它其实可以满足在多种多样的一个场景,比如说论坛社区场景,以及去解决不同的一些呃媒体内容,去时而发现它里面的一些违规内容,那同时的话,我们的产品在依托于腾讯云控制台,腾讯云平台的话,会提供一些控制台给到我们的用户去,能够查看它里面的数据,去配置它里面的识别能力,比如说像爆恐或者广告相关的能力,以及像一些策略的一些能力的话,也可以在这个里面去进行配置,那可以用,可以让用户自己去管理它自己的一些呃相关的一些标准,去对应他自己的业务场景。以及我们会提供一些标准的模板,让他可以直接一键的话,可以快速去启用起来。
35:02
那基于腾讯云的话,其实为什么说我们可以快速的去呃,让开发者能够接入进来,因为无外乎说我们再去构建一个应用的时候啊,其实我们使用到的呃组件其实可能会包含几种,一种的话是视频文件,你要视频播放,那腾讯云会有一些点播的呃产品给到你使用,就是你视频上传也好,你视频播放去加速也好,去多定域分发也好,其实点播这种产品可以给到呃,开发者可以快速继承。那像一些直播,一些存储场景的话,你可以用到腾讯的cos存储,你可以快速的把数据存储进去,那在以往来说的话。你客户自己存储完之后,你要去调审核接口去做审核,那这样的一个研发成本,或者说你的管理成本会比较高的,那在腾讯云上面的话,其实我们目前的这种内容审核的能力是与这种基础产品做了集成的,那你只要使用的像存储存扣除存储的话,你就可以在数据存储的那些呃存储里面去配置一些审核规则。你配完之后,其实所有的数据只要上传进去,你就可以按照你预期的规则去进行审核,那审核通过的话,你就可以说允许他继续这个链接去分享或者去展示都可以没问题,那如果说审核有违规的话,你也可以基于一些违规的。
36:10
这种类型进行一些配置,比如说呃是达到一些事情,或者说西安市的一些要求之后,标准之后,你可以让他自己封禁,或者说直接冻结它,或者说进行一个替换,变成一个默认图,那同时的话,你认为说他哪些类型,比如广告或者谩骂这种,或者说一些广告引流相关的那。分数相对的比较低,但实际上也会有些遗失的嫌疑的话,你可以让他自动推到一个人审,人审,审核完之后再去进行相关的一些冻结操作,那这样的话,对于开发者来说的话,你只要做的事情是聚焦你自己的那个核心的产品功能研发,那对于这种数据的业务安全的这种能力的话,其实是你不需要再去投各多的研发资源去投入的,以及你不需要投更多的运营资源去管理的。你只需要在腾讯云上去开通,去配置好相应的规则,那就可以完成你的业务,完全这个内容审核,相关的这个能力的接入,以及后期的长期的运营。
37:04
那目前来说,我们整个的这个系统的时效性的话,其实也是蛮高的,比如说像图片这种识别的话,我们可以做到同步的实时审核在五秒毫秒以内,像文本识别的话,我们现在主要的一个识别耗时需求在500~100毫秒,那这样的话会看你的送审的文本串的长度,从而影响它的耗时,以及像音频来说的话,我们的实时率在0.15,也就是说十秒的音频会在一秒1.5秒内完成这个审核,那视频的话其实也会支持一些倍数。比如说你40分钟的一些视频,我们可以在十分钟之内完成审核,那同时针对于客户的一些需求,我们也可以把这些实时呃倍数的一些指标,也可以做一些适当的一些调整,可以满足客户的一个快速审核的要求。那我今天分享的内容就到这里啊,谢谢大家。
我来说两句