00:05
尊敬的各位来宾大家好,欢迎来到腾讯云Taco HUB技术巡回北京站的活动现场。我是51CTO,副总编张新伟,很高兴今天作为主持人和大家一起参与本次的活动。太空哈技术巡回是腾讯云2021年推出的开发者技术交流活动,活动自4月17日首次召开以来,陆续走过了深圳、西安、长沙、武汉四座城市,带来了关于计算、工业、互联网、数字媒体、云原生等主题分享,受到了众多开发者的好评。那经过一个半月的悉心准备,腾讯云Taco HUB技术巡回第五站于今天开启。在今天的活动中,我们聚焦音视频领域多位腾讯技术专家以及我们的行业用户专家,将与大家一起探索技术是如何赋能云上新世界。
01:02
在正式进入演讲环节之前,友情提示大家几件事情,首先为了方便大家更好的交流学习,我们建立了活动的现场的微信群。就是在我们的屏幕右侧,然后大家可以扫码进群一下,在活动中或活动后有任何的问题都可以在群里进行交流,那左侧呢是腾讯云培训认证中心和腾讯企业安全的服务二维码,大家也可以关注去了解腾讯云培训认证和企业服务腾讯安全相关的内容。那第三呢,我们每位嘉宾演讲结束之后,都会有一个提问的环节,大家珍惜这个机会,可以和我们的老师进行多多交流,那提问的用户我们也会有精美的精美的礼品送上。那第四呢,大家今天带的这个嘉宾证请全程佩戴,然后来去出入我们的会场和大厦。那好,接下来我们就进入到本次活动的主题分享环节。在疫情的影响下,音视频技术在教育、社交、娱乐、电商等热门领域的应用越来越多。首先有请腾讯云TRTC架构负责人崔立鹏老师来带来主题分享,为大家深入解读实时音视频在泛娱乐行业的落地实践,有请崔立鹏老师上台。
02:18
大家好啊,周末这么早,好多好多同学都来了,我看大家的啊,我们也感觉到。开发者的热情,然后呢,今天我们整个主题其实都是和音视频相关的,我今天第一第一个演讲呢,是关于实时音视频在泛娱乐行业的落地实践。那。这块呢,是我们实时音视频的一个比较重要的领域吧,叫范娱乐,我是来自腾讯云通讯产品中心的崔立鹏。那。今天我的分享呢分四块,第一块就是什么是TRDC,还有我们在呃泛娱乐行业有哪些核心的优势,以及我们一些典型的应用,来跟大家做一个交流。
03:14
什么是TRDC呢?这个是我们,呃。刚才提到的疫情之后,很多线下的场景都搬到了线上,那去年呢,我们腾讯这边也发现。可能下一个的下一个时代就要来了,那就是移动互联网经过十年的发展呢。已经要迎来下一波的升级,我们称之为全真互联网。那从实时通信到音视频的一些基础技术都已经具备了,从我们的算力再到网络5G,现在也大家可能很多同学都已经开始使用了,那。推动信息接触,人机交互一系列的升级呢,都可能会给行业带来变化,那在这种情况下呢,音视频是一个很重要的基础设施,我们认为它应该是全能互联网的基石,所以呢。
04:14
在这个背景下,我们推出了。腾讯r to一站式的。通音视频基础网络,那这RT包括什么呢?就是首先是我们CDN的。有媒体分发网络。这块大家可能做新视频基本上都有所了解,然后另外一块就是I'm的即时通信网络,呃来做。及时的消息的。禁令的传输,还有一块就是实时音视频的通信网络,那这块是主要承载实时互动的音视频的业务。我们。构建RT网络呢,在这个这三个网络,这这三个业务场景呢,是基于我们有全球。
05:04
20多个可用区,20多个区域,60多个可用区,然后2000加的。加速节点基础上来构建的。构建了一张能覆盖全球的。呃,音视频传输网络。那这块呢,在音视频领域呃有不同的场景,可能大家呃最常接触到的就是呃点播最早的,然后直播,还有现在可能大家用呃腾讯会议啊,这些就是比较实时的,我们把这几种场景来做了一个划分,那大家可以看。这这里有一个我们的效果。就是在最左侧是我是原始的,原始的那个上行,那到最右侧呢,可能是我们最常使用的CDN直播,它大概有个。
06:05
呃,五到十秒的延迟,那在中间呢,就是。我们超低延时的直播大概在一秒以内,还有能进行实时互动的300毫秒以内的,呃,RTC的呃,音视频互动这块呢,进行这么一个划分之后呢,我们可以看到有我们行业内可能。会有不同的场景组合,就比如说在秀场直播里面,主播之间可能需要的是第二种多人的实时互动,就是我们两个要能对话,但是呢,观众他可能观看的时候不需要这么低的延迟,那他可以走。超DNS直播,或者说走最右侧的CDN直播,这样来实现一个完整的场景覆盖。我们推出这么一套。音视频的RT网络呢,是基于腾讯20多年的音视频的技术积累,然后另外一块呢。
07:06
我们实际上。这个团队支撑了腾讯内部90%以上的场景应用,比如说呃,最近大家经常用的腾讯会议,还有那个企业微信。还有全民K歌啊,QQ音乐里面的一些场景。另外呢,我们也有三大实验室来做前沿的技术探索,就是我们的多媒体实验室,优图实验室,还有天籁实验室,分别来负责像呃视频的传输,视频的编解码,还有优图来负责一些视频AI。与AI相关的天籁呢,是负责音频相关的。技术。那。基于我们这么多年的技术积累呢,这块实际上是提供了比较。稳定且丰富的场景。
08:04
那TRDC呢?作为RT网络里面的重要一环,它实际上是来做一个最低延迟的实时互动的音视频的传输,那有哪些特点呢?第一点就是。编时低卡顿,这个大家应该是作为都了解,作为这个音视频互动的话,最最低的要求了,就是标准要求300毫秒以内的端到端延迟,然后可以在50%。这丢包下还能做到,视频的通话70%以上,70以下还能做到。正常的语音通话,另外一块就是高音质和高画质。1080P的这种。视频,然后128K的音频。另外一块就是要需要支持全屏来覆盖。我们现在可能开发者遇到的最常见的一个问题就是多端都需要,呃支持互通,那可能在音视频领域,这这一点会更突出,就是很多平台对音视频的支持并不是很好,比如说在web端或者小程序啊。
09:19
如何实现一个全平台的互通,能在安卓能给小程序打电话,能做视频通话,这些都是比较有挑战的,那我们其实主要是在这些全平台覆盖上,也。也做到了比较强的覆盖那。在这基础上呢,我们功能上呢,有覆盖了像超低延时直播的场景,视频通话,视频互动,还有语音通话,语音聊天室这种。这些基础功能,另外一块就是还有像咱们做做泛娱乐会常用到的美颜滤镜啊,还有屏幕共享混响这些。
10:08
那。刚才提到了我们的一些功能哈,也可以给大家介绍一下我们的一个整体的架构,大家可以看到就是左边其实是我们TRTC的一个整体架构,它实际上也是对刚才提到的RT的一个具体的解释,那中间这块是是实行视频TRTC。左边呢,是我们各个端,我们可能有web端啊,小程序端或者移动端PC端这些端上呢。我们有个端的SDK,它可以和我们的实行视频的后台来做。来做互动,然后呢。另外一侧就是我们的观看端了,观看端也是不概括平台。除了TRTC之外呢,刚才提到RT里面另外两块比较重要的就是I'm和那个CDN了,我们常见的在秀场直播也好,或者说在一些呃,其他的。
11:11
直播也好,经常会遇到限令服务或者说文本。图片的这些传输,那实际上可以用到我们的即时通信I'm来做消息收发,禁令的传输,还有群主的管理。另外一块就是。我们的CDN网络上的云直播和云点播,那假设我们需要一些观众做呃,来做大规模的观看的话,可以用TRTC推流推到我们的云直播,然后呢,观众通过云直播观看,另外一块呢,也可以直接无缝的去对接到云点播,实现一个视频的录制,然后回放这些。那这这样的话呢,就能实现一个比较完整的一个音视频的方案来,在我们这个平台上就可以实现比较灵活的组合。
12:08
在在使用的规模上呢,现在我们每天支持30亿分钟的通话,然后呃。能力上是支持十万人以上的延,一秒以内延迟的低延迟直播。刚才刚才提到的TRTC,那在RT网络里面另外一块比较重点的就是即时通信I'm了,它实际上是我们基于QQ的这套即时通信系统来抽象出来的一块。云服务,那像最基础的会话管理、关系链管理、群主管理,还有消息传输都是具备的。我们。如果用它来做一些禁令,或者说呃,消息传输的话是。可以。比较轻松的来实现了,那我们是最最早最大的即时通信服务商,因为腾讯做QQ就是从这里起家的嘛,呃。
13:09
在能力上,我们支持低门槛的快速接入,还有全球的,呃。快速全球的比较低延迟的接入,另外呢,和刚才的我们的音视频无缝集成,还有小程序端也是完美适配的。呃,刚才给大家做了一个。简单的就是概括性的介绍吧,那我们TRTC在泛娱乐场景有哪些核心的优势呢?呃,今天可以跟大家分享一下。首先就是我们。腾讯天籁的多媒体引擎。腾讯天籁呢,实际上是就是我们呃,腾讯会议的音视频引擎的底层了,那这个实验室呢,实际上是专门来做音频这块,呃。
14:04
不管是编解码也好,还是3A也好。这块呢,大家可能用腾讯会议也能也能有所感受吧,就是实际上腾讯会议在呃降噪啊,呃回声消除啊,还有ADC方面都是有比较明显的呃优势的那这块。我们可以看一个我们比较黑科技一点的AI降噪的效果。今天我们开会主要是讨论一下后面的一些计划,还有一些时间安排,嗯,今天的天气不是非常好,雨下的比较大啊,我刚建了一个腾讯会议号,然后大家可以加一下,还有两个同学没来啊,我们等一下他们啊,下面我们正式开始。今天我们开会主要是讨论一下后面的一些计划,一些时间安排,擎到后的效果,今天的天气不是非趁好,雨下的比较大啊,我刚建了一个腾讯会议号,然后大家可以加一下,还有两个同学没来啊,我们等一下他们,嗯,下面我们正式开始。
15:21
对,大家可以看到,实际上在我们平常的场景中,比如说像键盘啊,雨声,微信提示音这些可能会有不同的噪声类型,那我们在3A引擎这方面呢,是来实现了一个AI降噪的功能,可以把我们常见场景中的一些噪声给消除掉,这样呢就能确保我们在。具体的。实践中能够比较轻松的就获得这些能力,那像如果业界如果普通使用的像开源的外8TC的里面的3A的话,实际上是不具备这块的能力的,嗯。
16:00
因为这个能力实际上是集中在端上的,那它对端上的那个性能要求还是。还是比较高的。很多我们。很多我们的用户可能机型并不是很新,那这块我们也是做了比较深的优化,像在呃。IOS端只有0.86%的这种CPU的增长,内存也只需要11兆的增长。刚才提到的是我们在3A方面,那另外一块就是音频,实际上在传输的过程中,它可能会遇到突发的丢包。或者一些抖动,那在这种情况下,如何确保传输到另外一端之后还能比较好的恢复这些?就是这些原始的语音呢,我们也做了不少的探索,像。我们的CPLC基于上下文的丢包补偿技术,可以恢复120毫秒内的连续的丢包。
17:05
这个实际上是业内PLC。也也也是比较常见的了,但是对于连续的丢包到到个可能40毫秒的就不太好恢复了,我们这边可以实现到120毫秒。那另外一块就是基于上下文的前项纠错,就是我收到之后来去恢复这些丢包的那个。恢复丢包的数据。这里。和和常规的fec不同,是基于上下文的。那从。下面的这些。我们实测的效果来看呢,呃,黄色的是呃。左下角黄色的是OPPO,然后那个呃。我们可以看到在貌似值上有一个明显的提升。
18:01
药店一直跟着人,妈妈在另外一个房间里休息。药店一直都关着门,妈妈在另外一个房间里休息。这里是一个哈尔滨,中国的最北面,厨房的桌子上摆好了早餐。哈尔滨在中国的最北面,厨房的桌子上摆好了早餐。大家可以看到,在这种40%的丢包率的时候,中间,比如说刚才听到的有一小段的不连续,实际上就是传输到这边的时候丢掉了,但是呢,我们通过g ec这种。可以把它给恢复出来,并且听不到明显的,就是对它不到明显的异常。另外一块就是。在视频这块,刚才提到的是音频,视频这块呢,我们。也对全链路进行了H265的支持。那。
19:02
大家都了解,现在其实音频对视频的这个画质要求越来越高,然后对传输的带宽也希望能够。更多的降低下来,265呢,呃,随着咱们终端的呃升级吧,支持265的机型越来越多,我们也是在这种情况下呢。推出了H265的全链路的支持。那从推流端。如果你的设备,如果这个主播的设备是支持265的,那我们就会让这个房间内都默认用265来进行推拉流,那。推到我们TRTC之后呢,我们会把265的流推到直播系统。CDN这块也是支持265的下行的,那整个整个链路下来呢,如果说有观众不支持265,我们在C直播系统中,实际上是可以把它给转成264,也就是说。
20:04
支持265的可以265来观看,264支不支持265的可以用264来观看,这样实现一个呃,尽可能多的用户来。达到比较好的效果,另外一块呢,就是如果房间内像主播有有主播不支持,也可以自动的回退到264。现在现在这套。2.5的支持呢,已经在微信视频号的直播里上线了,那。收到的效果还是不错的。除了音视频这块采集和编解码。的技术之外呢,另外一块就是云端的流控,因为我们在呃。具体的。生产环境中,每个用户的网络和它的硬件设备可能都是不一样的。呃,如何针对每个用户来去实时的调控它的QS的参数也是一个比较大的挑战,那这块呢,我们实际上参数是。
21:12
用户的实时的网络,还有CPU、内存的占用会。不断的上报到我们的后台,我们后台来根据这些参数呢。来做决策。对每个用户下发不同的。呃,像。呃,比例这些值,然后来给实现,每个用户都会有一个尽可能的QS的平衡。那。这一块呢,也是在RTC里面比较核心的一个能力。另外就是大家如果做那个秀场直播的话,呃。会有一个比较常见的场景。就是在。
22:01
主播,当主播直播的时候,一般会用RTMP来进行推流,那。这种这种推流方式呢,是。基本上各个云厂商都是免费的,然后呢,再到主播要连麦的时候,因为要比较低延迟的互动,那就需要用RTC来来实现那。在这种情况下呢,就很多厂商,很多那个很多开发者,很多公司可能会使用先RTMP推流,然后中间需要互动,在切成RTC,不需要的时候再切成RTP,其实是为了节省中间这部分RTC的费用。那我们。我们了解到这种情况之后呢,其实也是发现可能在中间的切换过程是不太必要的,会体验不太好,就是中间这种切换会导致画面的不连续啊,卡顿啊之类的。那我们也。推出了全新的推拉流的方案,就是从头到尾都可以用RTC来推流,但是如果没有观众去拉流的话,这部分是免费的。也就。
23:09
也就那个打消了这块的这个费用顾虑,所以能实现一个比较好的成本的节省的同时呢,又能兼顾好体验。这块呢。DN拉流、推流可以用TRTC开头的。这个域名来,然后呢。普通的标准的云直播拉流,可以用HTTP的FRV这种,或者RTMP这种来实现一个呃,成本和体验的兼顾。另外呢,也是呃,今年我们新推出的一个正版曲库的方案,那今年6月1号开始呢,新的著作权法开始实施之后呢,呃,对直播场景的。音乐开始有了比较明确的规定,就是这块是需要呃有正有正版版权的授权的。
24:05
那在这块实际上现在呃,很多公司也是没有找到合适的方案,那在这种情况下,我们和那个呃版权部门呢,联合推出了一个正版曲库的方案,它可以实现在。呃,直播场景下的正版曲库的支持来去解决我们的合规要求。那在这块呢,是也是和我们。SDK是直接集成就可以了。另外一块就是我们。和小程序的。结合呃,大家大家可能现在小程序用的越来越多了哈,那在一些音视频场景下,之前小程序端支持的并不是很好,呃,可能只能支持普通的高延迟的直播,我们和微信团队呢合作,然后也做了一个深度融合,可以实现在比较。
25:06
呃,可以实现在小程序上比较原生的体验,和安卓iOS一样的比较低延迟的互动,那大家如果用腾讯会议的话,其实也能。也呃能体验到,就是开会的话是没问题的。这种几百毫秒之内的延迟。另外一块就是我们。AI的美颜美声的特效了,这也是呃,我们和右图这边来合作的,各种的美颜的效果。还有内容安全方面,音频的内容安全和视频的内容安全,等会儿我们会有监狱的专家同事来跟大家做详细的分享。刚才提到了我们一些典型的一些,呃。核心的一些优势,那在泛娱乐行业有哪些典型的应用呢?呃,我们会主要分成两块,一块就是。
26:09
语音的,语音的社交,另外一块就是视频的社交。呃,语音这块这几年其实发展的还不错,就是像语聊房。还有。那个语音沙龙大家可能呃,年初的时候听说过一个club house比较火,在国外,然后呢,国内实际上我们都认为是。早都有这种产品形态了,那就是理疗房。可能只不过说是大家的内容不太一样。然后另外一块呢,就是在线KTV实时合唱。他实际上也是在与疗法的基础上有了新的玩法,然后还有语音的互动游戏啊,嗯。电台FM。在视频社交这块呢,我们会有秀场直播,游戏陪玩啊,多人互动直播,还有赛事直播这些支持,呃。
27:07
像多人互动直播呢,他可能是。呃,最近最近会。有一个趋势就是互动的人越来越多,可能从原来的两人、三人,到现在可以九人,这种互动直播也是支持的。下面呢,我可我。给大家介绍几个比较常见的场景。一个就是在线KTV,在线KTV呢是。一个房间内有观众啊,主播啊,有有比较多的人,那你可以和主播来去做KTV的接唱,然后这个是比较常规的玩法,另外一块就是我们最近刚推出的一个实时合唱,就是出。两个人可以同时唱,那这个延迟呢,就300毫秒就不满足了,可能要到几十毫秒。
28:00
这块也是要做整个链路上做比较多的优化。嗯,我们的方案呢,是可以支持几十毫秒的低延迟合唱,然后呢,128K的高音子,还有。呃,耳返那个另外就是I'm可以来做一些麦序管理啊,做一些点赞送礼这些。这块标杆案例,像唱吧、全民K歌、K歌音乐这些。还有一块就是语音的互动游戏,那像狼人杀这种,呃。你画,我猜这些语音互动游戏也是对这个音频的要求比较高的,尤其是还需要在小程序上支持比较轻量级的玩法。小程序和APP互通那。这块我们也是有比较明显的一个优势,然后这块也是可以用I'm来实现一些禁令啊,就是。
29:00
心灵的互通。呃,送花,点赞这些。另外一块就是大家常见的秀场直播,秀场直播这块呢,刚才也提到了,实际上它是可以和我们的CDN网络做一个无缝的衔接,从我们TTC推流到CDN是走的腾讯的内网,也是免费的,嗯。这块像。陌陌啊,酷狗啊都是比较大的客户。后面我们也会有同事来做详细的分享。还有就是多人互动直播。像。呃,视频相亲,还有这种在线的自习室,呃,通过像我们原来的把主播的画面混流呢,那观众可能只能看到一个固定的画面,但是用RTC呢,可以拉不同的理由来去随意的组合这些UI。让产品的玩法呢也会更有趣,另外也可以支持像屏幕共享,最近我们发现很多有些公司做的这个自习室,在线自习室还挺火的,就是很多人会。
30:09
开着视频在一个自习室里,线上自习室里做做作业,然后或者说工作。也是比较新的。呃,探索吧。那在接入这块呢,呃,我们为了降低开发者的成本,今年也是推出了一个a pass的方案,可以呃更改UI就能快速的来上线,它集成了我们刚才提到的RTC,还有直播这块都都集成好了,大家也可以到我们的官网进行体验。OK,这是我们的。官网大家如果感兴趣的话,可以去搜索一下,然后这右边也有我们的DEMO。
31:00
我今天的分享就到这里,感谢大家,看大家有没有什么问题哈。来感谢崔立鹏老师的分享,那现场关大家有没有一些问题可以提给我们崔立鹏老师提问的?这有两个提问机会哈。刚才你说的。就是。降噪那个对,那除了降噪,能不能对周围的那些噪音屏蔽,屏蔽一些那个噪音呢。就比如那个装修的。呃,这这个是就是AI降噪里面的。呃,一个就是本来就具备的一个功能吧,但是呢,就是说是其实是也要看噪声的,实际在你整个环境中的音量,如果说它就的确比较大比较近啊,消除效果可能不会很好,但是如果比如说像那种。装修的他比较远的话比较。稳定的噪声是能消除的比较好的。
32:03
没有一个,就一个角。角度之外呢,这个声音都屏蔽掉了。呃,这个需要这个可能需要那个,就是如果有特定场景哈,那那需要单独做训练,因为实际上。最终的AI降噪的那个效果是要取决于最初训练的这个语料的,如果训练的语料里面不包含的话,实际上还需要再做,呃,特殊的训练,我们目前的引擎呢,针对的是。标准的一些场景,大家常经常遇到的一些场景,对。跟那个a me SDK端那个多重身份认证。就那个都包括什么。就比如人脸识别,这些都支持。呃,哪哪一点。SDK端那个RTC厂商集成那个。
33:00
嗯。是哪一有一个。音乐作品那个音乐上啊,音乐版权这块是吧。又有一个多重身份认证哦。OK,这里实际上是来做一个那个就是如何来去保证版权的,就是你你使用的是是。合规的版权,那这块我们是集中在SDK内部了,就是在我们SDK内部就已经实现了这个身份认证,实际上是和那个版权方来去做对接的,咱们如果开发者的话,其实就不用顾虑这一点了,我们会在SDK内部把这些都给做掉,然后你们可能就是开发者只需要按次的去付费就可以了。哦,我想问一下就是呃,视频这一块或产品上线这一块。呃,能不能就是说通过你们这个技术。
34:01
嗯,给这个企业的产品。或者是视频。加入这个。3D的一个链接上这个。手机视频。呈现一个。B。一体化的这个画面。能不能嵌入这样的一种技术?就是说中小企业的,呃,所有产品。他们能看到立体化的一个。场景。包括这个。呃,视频能不能。呃,未来或者是你通过你的这个技术多这界面手机界面,未来肯定他会产生裸眼,裸眼技术,对现在目前呢,就是说。这个手机界面我好多年以前我就呼吁,我说中央和企业的产品干嘛。不用那个3D技术给大给大家给用户展示出来。
35:03
而且在上个世纪90年代,人家国外都有3D机。我说这个包括我们腾讯这个也是全球。对,技术方面是对比。这里面的。那中国有这么这么多中小企业的产品,能不能把他们的产品提升,通过AR一个展示,让更多人。能看到真实的感受到这个产品。我就半体画的。20OK好吧,行这块这块我们实际上也也有这方面的探索,就是像在去年呢,就是像VR看房贝壳的啊,在疫情期间很多人没法出门,呃,看房不太方便,我们也是和快和贝壳呢,在疫情期间快速上线了VR看房这种方案那。呃,它实际上就是一个VR的一个典型的应用场景了,那今年呢,其实我们也和他来做更更深入的方案,像。
36:08
比如说像家装领域,呃,我看到这个这个家具可能在这个房间内怎么来布置,来去做一个,呃。来拖动啊,或者说是换家具啊,这些实际上已经在做了,当然这块呢,呃是需要就是在内容输入上,实际上是还是比较重的,可能要盒子。和那个我们的开发者一块来去做探索,就是比如说那这是一个刚才提到的是一个看房或者家装领域的,另外可能另外一个客户,他需要的是一个别的别的场景,比如说呃,换脸啊,然后或者3D的这种。头像啊之类的,这些是需我们这边有在做,但是也是需要和那个呃,咱们的开发者一块来去看落地场景,实际上是也现在也会有一些像这种远程的来去,比如说远程操控来修修东西的这种。
37:08
来去做一些AR方面的场景,是我们现在已经有一些客户在在和我们一块来做了,所以如果有需求的话,我觉得是可以大家一块来探讨。感谢崔丽鹏老师的这个解答哈,然后我刚才看到有很多的这个我们的朋友还是有很多问题,然后大家也可以在中午午休的时间跟崔丽鹏老师来进行沟通交流。音视频技术在给企业发展带来机遇,给人们生活带来便利的同时,也带来了一定的安全的风险,其中内容安全是实施音视频产品中面临的主要安全问题。音视频服务需要集成音频和视频的图文审核技术,提供违规音频和画面的实时监测能力,才能确保播放内容的合规。那接下来我们有请腾讯云高级研发工程师蔡飞老师为大家带来音视频内容风控尽在掌握中的主题演讲。有请蔡飞老师。
38:07
好的,谢谢主持人啊,大家好,我是来自腾讯安全的蔡飞啊,目前的话主要负责腾讯云这块的内容安全的产品研发,那今天很高兴有机会跟大家在这里分享我们是如何做内容风控这一块的技术和它的一些应用的实践。那我今天分享的主题的话,主要会包含三个部分,第一部分的话是介绍一下当下的一些内容安全的现状和我们面临的一些问题,然后第二部分呢,主要是讲我们如何运用一些技术或者是一些产品的方案去解决这一块的内容安全,违规内容的识别的这些应用场景。那第三块的话是简单跟大家介绍一下,呃,腾讯云内容风控的一下的一个产品体系,那我看在座的各位的话,可能更多会偏向于研发方面的一些工作,那可能之前对于内容安全的了解,更多是在网上听到一些像鉴黄师啊这种职业的一些呃内容,那其实在这里的话,我会简单跟大家的回顾一下对于这一块的一些内容,那这里的话其实从网络安全法这种颁布之后的话。
39:13
呃,国家在一些法律法规的层面,对于互联网企业的这种内容提出了更高的要求,是明确要求企业具备相应的职责,利用技术的手段去控制或者去治理你生态类的一些内容。那也给大家分享了几个数字,那其中我们会发现在整个国内的话,我们有六大的主管部门,向网信办或者公安部这些部门去抓这一块的网络内容安全的治理,那也陆续的去颁发了很多网络的一些法律法规,去指导响应视频信息服务管理,像网络直播方面的一些管理工作的指导建议,明确要求从事相关行业是需要具备相应的内容治理的一些。技术手段的,那也有另外一个数据去,呃,向大家介绍一下,就是也不是危言耸听的,这个数据是在网上可以查到的,那在整个2020年的话,其实整个在国内的话,去封禁了或处置了将近2万个违法违规的网站,因此我们会发现内容安全这个问题已经会成为了互联网企业的这种生命线级的一个问题。
40:22
对大家来说的话,后续可能有想法去创业,或者去做一些相关的产品的时候,其实在你去产生这种想法的时候,就应该把内容安全治理的这种需求去考虑在自己的一些产品的功能体验里面去,以免说你的功能做的再好,也会面临上线之后可能就会面临下架的这种风险。那随着这种监管的要求不断的去细化,那我们也会在整个的一个识别领域场景的话,会面临更多更多元化的识别的需求,那对于识别的力度也会不断的去趋向于精细化的定制化。
41:01
比如说在传统的内容安全的话,我们更多的去识别,去关注的是典型的摄政、色情,或者说一些暴恐的能力。但实际上随着我们在整个对互联网的内容提出更高的要求的话,那我会对于比如说女性去吃香蕉的时候,你会要区分它是正常的在吃香蕉,还是说他会带一些性暗示的在舔香蕉,那其实这种两种的画面它是需要区别的去对待的,对于一些带有性暗示的画面,是需要明确的在互联网的内容生态里面去进行拦截的。那随着国家对于未成年人上网的安全的这些关注,那其实对于内容治理方面的话,会提出了更高的一些诉求,比如说在未成年人上网领域的话,你需要关注一些对价值取向。不太好,或者说不良的价值取向,需要进行相对应的处置,那在不同的应用场景,那有可能说我们需要对于一些动漫人物去进行识别,去区分,它可能说是一个偏性感类的,那儿童不适宜看的这种动漫是需要进行单独的处理。
42:08
那对于一些呃,不良的一些价值导向,像一些封建迷信的啊,拜神啊,求通过这种可能说稍微夸张点内容,其实也是需要进行一定的抵制的。那甚至是说在现在来说的话,我看到有一些相关的报道,当然现在还不太可能说明确下来,对于一些娘炮型的,甚至说可能一些耽美的这种文学类型的话,它其实也是需要进行相对应的分级处理的,去面向不同的受众群体,你可能需要建立不同的内容的处置手段,所以说这一块的内容会逐渐趋向于更多更多元化的识别的需求,是需要我们去解决的。那第二块的话是可能大家也会知道一些,就是我们在不同的审核的一个应用场景,其实我们是没有一个统一的拦截的标准的,在不同的场景里面的话,拦截标准是不一样的。比如说左上角这几张图,本来是想跟大家分享一下真正的一些涉黄的图啊,但是昨天在我们试播的时候发现这些画面都会导致我们的直播会被被封禁就直接停掉,因此我我我就昨晚的话把这些。
43:13
敏感的部位都打上了码啊,大家可以自行的想象一下它的画面。那其实这些画面的话,它其实是一个艺术的油画,或者说是一个在直播,在一个在线教育里面可能会出现的一些医学的课件,那随着疫情的发展,我们会把整个线下的一些培训课,或者是一些真正的在教室里面才会出现的一些课程教育会搬到网上去,去提供给更多的人去在线的观看,那势必会产生对于一些特别敏感,特别违规的。一些场景的图片会极大的去公开在网络,那其实这种的话在于一个教育场景的话,它其实是允许的,但是在于说游戏场景的话,你出现这些其实是需要被拦截掉的,被处置掉的。
44:01
那这种识别的一个力度的话,其实有些某些的风险类别的话,我们也是难以做到标准化的,比如说对于一些儿童色情类的,你会发现儿童,我们一些父母或者一些家长,他去分享一些照片的时候,他会分享一些我给小孩子洗澡,或者给小孩子在换衣服,在护理,在嬉戏打闹,都会涉及到他很多的敏感的。一些身体部位的露露出,但实际上你如果出现在这种偏向家庭,或者是偏向于一些分享,一些个人分享的这场景的话,其实这些照片是可以放过的,但是你如果去呃去去看一些类似的照片,真正的儿童设计,它其实跟这些画面很像,那这个时候你就需要去区分出来哪些是该来,哪些是不该来,这种其实很难做一些标准化的一些一些呃识别手段的,并且针对于这种标准不统一,场景多样化的话,其实很多时候我们还是积。基于很多人工的经验去进行这块的拦截和处置的一些呃,封禁的规则的制定。
45:03
并且随着这种新增的风险类型的话,我们对于一些历史的数据往往也需要在短时间内进行一个快速的回首,比如说最近在娱乐圈里面会出现很多这种,大家看到瓜可能应接应接不暇,那对于这些,呃,可能涉及到一些。不好的这种艺人的话,他的相关作品一旦出现的一些问题之后,他可能会面临在整个互联网的一个生态里面,需要去进行相对应的内容下架的处理,那这个时候就需要去对于历史的数据进行快速的回少,并且完成这块内容的处置,那这样的话,对于整个的这种内容的识别的性能,或者识别的负载,它会提出更高的挑战,往往在短时间内需要我们的系统支持几倍甚至翻好几倍的这种识别的需求。因此我们的一个系统的性能,它也是一个极大的一个挑战,那在这里既然分享了这么多内容,那其实在后面的话,我也会讲简单的去介绍一下我们是如何去解决这些问题的。
46:06
那首先我们针对这种音视频的场景,先通过一个简单的话图片,图片去跟大家分享一下,我们可能会用到哪些的技术手段去发现这个图片或者这个音频是不是违规的,当然这些图片的话其实全是正常的,因为怕拨不出去。那在整个画面里面的话,其实我们会用到一些人脸识别的技术,去识别出在什么样的位置出现了什么样的人脸,它是谁,该不该拦。同时的话,会基于一些目标检测的算法,去发现在图片里面哪个地方的台标或者说它的logo是违规的。比如说一些。相关媒体的一些台标。可能是需要蓝的,那同时的话还会去实通过一些图像OCR以及音频的AR的技术去将图片里面的文字。以及音频里面说话人的一些信息转译成文字去进行文本的审核,去发现里面是不会出现一些文字类的,或者说一些语言类的一些违规,同时的话,需要对于整个的音频去加上一些音频分类的一些检测模型去识别,即便你的画面都是正常的,即便你说的话也是正常的,那有可能你在里面就故意去去做一些什么娇喘、呻吟,叫床之类的,那其实也是违规的。
47:25
所以对于音频这块的话,还需要去基于音频的特征去识别这个音频是不是。违规的。因此整个音视频的这种识别的场景和它识别的元素会趋限于非常多,而且非常复杂,那就需要于我们有一个整体的或者说全面的一个系统架构去承接这一块的一些需求。那在这里的话,我简单的去把一个音视频,或者说一个整个内容风控的总体架构,通过这种分层的架构给大家展示,那首先最核心的其实是我们的算法层,那整个内容风控在机器识别领域,它其实都是基于我的AI的人工智能的模型去加以工程化的应用服务给到各行,或者服务给到各种产品去集成。
48:13
那这里的话,其实我们大概会有四种的能力,第一种的话是图像相关的,去不断的沉淀出像一些图像,色情图像的性感图像的暴恐违法相关的模型,以及一些人脸检测,地图完整性的一些检测,这些能力不断的去丰富我们的算法模型库,以及像音频。文本相关的都会有配套的这种模型去识别,以及一些规则,或者说一些关键词,去快速的响应一些违规的文本的内容,那在整个的应用和算法层的话,其实我们去为了解决一些。呃,更多偏向于定制化,更多偏向于效果优化的这种场景的话,我们引入了一个策略层,那这个策略层的话,其实我们主要是做三大块的一个信用,那第一块的话,主要是一个模型的平台,通过这个平台去管理我们的数据,去标注数据,质检数据,并且打造一个可以让模型。
49:10
自动训练,自动评测,并且支持一键发布的这种操作,去快速的去解决线上的一些模型面临的效果问题,快速的去发起这个模型的优化的迭代的效率,那同时的话可以打造一个策略的中心,去基于我们已有的模型,已有。经验的一些策略,包括一些标签、阈值模型、版本号,去进行它的一个知识的沉淀,沉淀成一个我们所谓的策略的模板去进行管理,那这样的话,基于这种策略的模板去开放给到不同的应用场景,比如说我会有广电的,我有直播的。我甚至有一些电商场景的,它的各个的不同的拦截标准,我会去制定这些模板出来,并且随着你的效果优化的话,我也提供这些策略版本的管理,不同的版本可以进行自动的一些线上的评测,可以有有一个保障的发布的机制的流程,去确保发布上线是可以符合预期,并且不会产生较大的运营失误的,那同时的话也会支持在。
50:13
特殊条件下的话,可能会面临一些版本回退,就直接一键回退。那在整个应用层的话,我们基于这种能力的封装,其实开放出来两大的一个应用场景,一种的话是可以直接通过腾讯云的API去进行系统的集成和调用,那这个时候开发者会基于API去编程,那这样的话在整个腾讯云上的话,也会提供相对应的控制台去提供这一块的业务数据的管理。提供一些策略模板的一些管理,以及提供一些运营数据的监控,比如说你的违规的趋势,违规的分布,违规的比率是什么样子的,去做一个可视化的一个感知。那同时的话还会基于。人工审核的一个能力,去提供人工审核的服务,去实现机器加人工的这种协同审核的能力。
51:02
那这套整个的审核能力的话,其实会给去结合我们腾讯的产品去进行一些内置的打通,那刚才崔老师也讲到,在TRTC场景的话,它其实是已经利用,是已经利用了腾讯,呃内容风控的能力去支持在他的应用里面一键开通,直接把内容风控的能力内置到它整个应用产品体系,那这样的话,你在使用TRTC的场景的时候。产品和研发可以更加专注的去关注他自己的产品功能的开发,产品体验的优化,而不需要去关注说我如何去做内容风控的策略,内容风控的处置手段,那这些都可以交给整个产品体系内置的风控体系去构建。那在这里的话,其实我们在腾讯云上涉及到内容的存储,内容的通信,比如说云通信,腾讯云的对象存储,以及说内容的产生环节,像直播这种,它是一个实时的内容产生环节,都可以内置这一块的处置能力。
52:05
呃,以对象存储为例,那这样的话,你在整个应用去产生数据的时候,都要依托于一个数据的存储,那如果使用腾讯云存储的话,那业务更多需要关心的是我如何去存数据,我如何去取数据,那存储的这些性能,或者说网络,或者说带宽,那由腾讯云存储去解决,那对于说这些内容是否违规,违规之后该如何处置,那就可以在内置的内容风控的腾讯内容风控的能力去完成,你可以在他的产品控制台里面去一键的开通,我需要去过哪些审核,比如说我针对于这些存储的目录是需要识别色情。或者说在这些存储里面,我需要去重点关注一些设置的地图类的,或者是未成年人导向不对的,这种图片都可以支持一些自定义的配置,那这样的话,整个云存储的后台会自动的去识别这些内容。
53:00
去自动的去呃封禁这些内容,当然你也可以通过关联到人工审核去把一些机器判定为疑似的机器判定为不准的,或者说你关注的重点的某个标签去推送到我们后端的人工处置平台,那整个的这个处置能力的话,会基于人工审核的结果,再去进行对应内容的封禁,或者说对应内容的放过的处置策略。那刚才这个图上面,这个图里面去讲了,我们其实是核心是在一个模型的库去丰富我的模型,就打造更多的模型给到服务不同的业务场景,但实际上如果说你单纯的去聚焦在一个社群,或者说性感这种识别场景,在以往的模式下,我们可能是说训练一个模型啊,训练一个模型或者支持多个标签,那这样的话我就可以说,诶,A场景我是我用了一个色情A模型,B场景我用了一个色情B模型。但是在这种面向业务或者特定面向客户的场景的模型的话,当它出现某个效果不行,或者某个标签不行的情况下,那往往需要我们去采集更多的数据,去标注更多的数据,去重新或者说去优化我这一块的模型,那这样的话,他在整个数据采集、标注、训练上线,他其实整个流程走一遍的话,其实是比较大的,甚至说你优化的某一个指标签,它势必会影响另外子标签的能力,那在这里的话,其实我们对整个音图文这种基础元素的识别框架进行了进一步的抽检和它的一个抽象。
54:36
那比如说我们会把环报相关的。性感相关的这些模型去进一步的拆解成为原子能力模型,那这样的话,我会从我们就从人体行为和他物品以及它出现的画面的场景四部分去组建我的原址能力模型,比如说对于社情来说,呃,对于社群来说,有可能说是。它有一些性用品是物品类的,有一些是性行为的,那它属于行为类的,那还有一些它是属于说女性的胸部,或者说女性的背部,男性的这种胸部,男性的背部,这种特殊敏感的部位的这种地方的检测,那以此去积累我们的底层的原子能力模型。
55:19
并且这些原子能力模型可以去面向你的客户,面向你的场景去进行定制的训练,这样的话,原子能力模型库会逐渐的去丰富,然后在中间这一层的话,去基于一个模型的太烂服务去组建动态去组建我需要的哪个模型,我需要它是哪个版本的。去组建成一个客户或者场景自定义的设计模型出来,然后通过这个设计模型开放给到一个特定行业,或者说一个特定的用户去使用,那即便说我在底层。会定位,发现某个能力不行的时候,我只要去补充对应的一个原子能力的模型去进行优化,从而去达到它的一个快速迭代和上线的一个过程。
56:02
那在整个工程实现的话,抛开在公共处理的这种什么健全模块,下载模块,或者说一些策略存取的模块的话,那其实最为关键的是组建一个可以自动或者说自自主去编排模型能力。以及去基于模型的能力去融合这一块的识别结果,去让它可以汇聚成我所要的色情的识别结果,射正的或者射性感的识别结果,那通过这两层的抽象的话,整个的工程实现上的话,其实是一个趋于稳定。然后更多的是让运营或者说算法去关注下它底层的能力的实现,从而会实现整个的运营效率的一个快速的提升。那在下面的话,我会给大家讲一下,就是说在直播这种场景的话,它是如何做这种内容风控的。那在这种直播的应用场景的话,通常来说我们面临的一些数据形态的话,可能是有三大类,第一种的话是一种个人资料类型的,比如说我主播的名称,主播的简介,主播的头像,游客的昵称,这些属于资料类的,还有一块的话是在互动过程中,我出现的弹幕的消息。
57:11
它都是一种文字类型的一些一些呃呃内容,那这样的话,这两种资料类的,或者说弹幕类的都可以通过我的一些实时的图文的识别接口,可以快速的在毫秒级反馈在应用里面的话,去直接进行封禁和拦截,那对于流逝这一块的话,它其实处置的流程会稍微复杂,那我们目前的处理手段哈,是通过对于每路流去进行它的一些自定义的截帧的规则,自定义的一些音频截片的一些规则,去把它抽检成一些。小的元素点,比如说我的片画面或者音频片段,然后再去分别的去调用图片和音频的审核的能力,去拿到它审核识别的结果,然后把把结果通过一些回调服务回调给客户。但实际上在整个识别的过程中,因为它是个流式的,它在不同的应用场景,它其实面临的一些规则是不一样的,即便说我选择一些模型,他命中了谩骂。
58:04
那他其实可能说我也不不会对他处罚。比如说我们在一个玩游戏的场景,假设我们是一个游戏主播,那你在带着队友去匹配的时候玩玩,玩游戏的时候,那这个时候你匹配的队友,比如说李白玩的太差了,对吧。上来就给你送两个人头,你很气愤,骂了句,我操这个李白傻逼吗?对吧?那这个时候你可能会命中的是一个谩骂的模型。但实际上你你会发现,如果说谩骂这种一出现你就禁掉他的话,那其实对于整个。整个这种应用体验其实也不太友好,因为我们其实在线下的生活里面出现一些卧槽这种口头禅,其实很普遍的,出现一些骂一个傻逼,傻缺,傻屌,其实也是普遍的,那你说如果在线上你一出现你就拦截,那其实大家的感知都很不好,所以说在这种场景的话,通常来说会有一些自定义的策略,比如说。我对一个主播,我对一个房间号,我会要求他说啊,你连续在五分钟之内,你骂了我十次,我就拦截你,你骂了我两次,我可以允许你骂,我让你宣泄一下,因为我玩的菜,对吧。
59:05
如果说你的王者王者荣耀那个李白一上来就跟你说,哇啪,连送了三四个人头,你就一直骂,杀杀杀杀杀啊,我把那个型号自己自己填充了骂下去连续骂,那这个时候肯定就是个恶意辱骂的行为,那这个时候机可以进行拦截,那这样的话,其实是在整个模型识别之后的话,还会结合他的一些持续的规则,结合他一些账号的或一些设设备的一些维度的行为规则,去进行这一块的一些策略的灵活的调整,去满足我们可能说更符合线下场景的这种。我应该去怎么去识别的。那对于这种场景的话,其实我们还会把这一部分的识别的数据会推送到人工的储置平台,针对于不同的级别,比如说一些高敏感的内容,或者说一些高违规的内容,像一些社情,或者说一些非常血腥的场景的,那这个时候会加大他的处置力度,对于一些疑似的一些广告引流的,或者些谩骂的,通常来说可能会次优先级的去推到人工审核平台,去发起他的一些违规处置的建议。
60:03
去回调给业务侧,那只有这样子,通过这种灵活的策略模型的去把控它最原始的识别的能力,通过一些持续的或者说规则的能力,去结合他业务做一些自定义的调整,才能满足在当下全业务场景都不可能上云,都可能直播的这种场景下,去做到更多差异化的一些策略。那下面这张图的话,其实是跟大家分享一下音视频的文件内容场景的话,它是怎么做审核的,那在音视频图文件这种类型的话,它其实也是会拆成音频和图片去做审核的,但是在我们的整个识别场景的话,我们会发现,呃,更多的话,其实离线文件是需要有一些优先级的,因此在整个的识别工作识别的框架里面的话,会引入了工作流的这种编排的机制,去把整个的流程去串起来,并且通过优先的队列去支持。可能说某些业务场景下我的数据要快速过审,某些业务场景下我可以允许他慢慢送审,那这样的话就开放一个优先级的一个一个需求给到一个用户可以自定义,对于一些新增的增量式的实时的数据,我可以快速的去利用我的线下的底层的能力去完成审核,对于一些历史的回收的数据,或者说一些优先级暂时不高的数据,测试相关的数据,我可以让它放到队列里面,慢慢的去升势,得到我的资源,可以得到控制线。
61:26
那在整个的腾讯提供的音视频的审核能力里面的话,其实我们也去集成了一些我们特有的能力,比如说在一些呃。点播应用的场景的话,其实除了我们能拿到的第三方公开的这种链接去下载去完成审核,那实际上的话,面向腾讯云本身具备的存储的话,我们可以允许用户自己去配置它的存储或者桶,通过设置库存的可问权限,在刚上线的一些应用的话,通常是对外网不可放不可访问的,那这样的话,我们通过腾讯内部的内网访问用户授权去拿到它的一些cos资源,去进行内网的处置,并且完成这一块的处置审核。那同时的话,对于。
62:10
腾讯视频相关的,比如说我们给到。融媒体或者媒体相关行业的,他通常会去购买一些第三方的版权,比如说他买腾讯云的,腾讯视频的一些资源,那这个时候腾讯视频的资源是不会给到说我给你一个文件去播放的,更多的是给你一个授权的链接,你去集成在你的一些格子里面,或者说在你的SDK里面去进行播放,那这个时候的话,你这个应用播放场景跟腾讯视频的播放场景可能是不一样的,那你需要去针对这部分资源。进行二次审核,那如何去二次审核,那我们也可以通过说你直接内置的传输一些腾讯视频的一些vid视频,视频ID传送到我们系统,我们通过内网的这种数据的打通。去完成你所需要的标准或者所需要的策略相相关下的一些处置建议去完成,并且把这些处置建议和处置的这种呃结果反馈给业务侧去自行的去决定,他应该是。
63:09
可放还是不可放的,那整套的这种工作流的话,其实我们也可以去支持整个工作任务全状态的一些查询,然后在某些。流程的步骤如果失败的话,会允许它自动的重试,自动的恢复,并且整个链路的话,其实是实可以实现全监控的。那对于这种整合的场景的话,我们没有一种说我的策略,在一上线,或者说我给到客户配置好之后,他就可以一劳永逸的解决这块的问题,因为你面临的数据的产生的形式。你数据创作者的一些他的他的一些呃技巧,那你面临的一些数据,它其实不一样的,它的违规类型在变化,你的模型,你的策略的识别效果,它也会做相应也会有相应的一些损耗,或者说相应的一些不适应,那这个时候就需要我们有一套比较好的比较快速高效的一种调优的一个过程去解决它线上如果说趋势线效果不好的情况下,如何去快速的满足。
64:11
那刚才其实在介绍模型框架的时候,也大致讲到,那整个我们的一个审核策略就分为了两大部分。一种的话就是我去。效果不好的时候,我最最小力度的可能更多去关注说哦,我们的标签不好,我去调一下阈值。或者说我有些某个标签不好,暂时可以关闭它去去调整,那还有一种的话就是说我我发现不好的话,我就训练一个子模型,那这样的话,我把我子模型的那些组合的策略去进行调整,那调整之后的话,那其实我们就可以允许他去有一个线离线的这种自动评测,出具他的一个评测结果,看是否合适,如果合适的话,就可以推到一个旁路的系统去进行它旁路数据的一个验证。经过线上和旁路数据的这种比较的话,会发现它的效果是不是符合预期,是不是真正的解决了问题,或者是不是。
65:03
跟他线上的表现是一致的,因为有可能你的拦截量如果增大的话,对于系统的处置,对于客户的体验是有影响的,通过多种指标的这种评测之后,发现合适,我们才允许他推到生产环境上去使用。那这样的话就开放更多的一些配置项出来,并且这种配置项都是通过一些可视化的界面去降低它的运营的难度,那这样的话,对于一些呃从业人员,我们可以简单的去培训,去介绍这些规则,去介绍一些典型的应用场景,就可以快速的去实现这一块的一些策略的优化,并且保证策略的优化和调整是符合一些生产上线的流程的。那刚才讲到对于说一些新增的类型,新增的违规元素的话,它其实是会对我整个的历史数据进行回溯,那这样的话对于我系统的压力也是很大的,包括我的不同的业务场景,在不同的业务地区接入,有时候我可能对于一些耗时要求会比较高。
66:01
我比如说我们有一个客户,他会要求我们啊,你图片的识别速度必须稳定在500毫秒,但是我们会发现你从不同的地域接进来的时候,它其实在下载环节,或者在一些其他的调度环节,那有可能增加个十几秒,20毫秒,30毫秒,甚至50毫秒的耗时的话,它就会产生波动,那这个时候客户就会非常敏感,因此整个的一个审核体系的话,我们其实是结合腾讯云的这种网关处理去支持的一些多地域的部署。那每个地域的话,都会支持两个可用期这种全套完整的服务的一个部署,去满足,去解决它这一块的一些单点故障,或者单可用区的一些故障,并且去被整个的这种整合架构去进行的一些呃优化,去拥抱一些原云原生的一些架构,去做一些容器的封装,去充分的去利用底层的一些容器平台,利用它的一些弹性或收容的特性,去支持一些存量数据,一些突发流量所产生带来的一些。高并发的这种情况下的审核需求,并且这种机制的话也可以去保证。
67:05
否的审核系统是可以支持一些异动异地容灾,并且支持它的一些故障恢复的,并且自动恢复的这种机制。那在这种整个的这种审核的一个体系的建设之后,其实我们会发现。我们的识别的性能是还是不错的,比如说我们的图片的一些识别,那在整个的一个我们观测到的线上的表现的话,它基本上是稳定在500毫秒左右,就一个相接非常实时的一种实例的,那文本审核的话,也是大致是在稳定在550毫秒左右。对于音频的实时的一个。实时的一个拦截,实时的识别率的话,其实是在0.15,就相当于说你对于一个十秒的音频,大概会花1.5秒去完成整个的音频的一个审核的一个。全流程,那对于视频这一块的话,我们也会极大的去加快这一块的视频审核的速度,去利用,就大概放大到四倍数的这种级别,那对于一个40分钟的。
68:05
一个视频资源的话,会在大概。十分钟不到的左右的时间去完成整个视频的审核。那在这里的话也可以给大家。分享一下,就是我们给到一个广电融媒体平台去做的一个解决方案,那其实它在它的应用场景的话,它会把所有的音视图文,包括视频的审核能力去集成在里面,但是他这种场景其实是。特别的一种面向我们整个互联网来说的话,它有点可能特殊的,它其实更关注的是说我要尽可能最大的发现里面的违规元素,因此它要求的更多是我极大的召回里面一似的,或者说违规的一些一些一些元素,那我们针对这种场,这种业务场景是需要去做一些场景的定制化的开发,包括他一些可能他需要的一些logo的识别,以及刚才讲到的他对于一些视频资源的,呃,特殊的处理也是会进行相应的一些。
69:02
呃,定制化开发的,从而去达到它的一个呃成本的节约,包括它的一个业务保障的一些安全。那介绍。这么多的一个能力之后啊,其实给大家简单看一下腾讯云整个的一个内容风控的一个解决方案,那其实中间这一层的话,内容平台是我们能够开放出去,给到用户去自行管理或者自行接入的,比如说这个上层的话是一个控制台,是可以给到用户去自己去配置一些拦截策略,去配置说你想要的模板,你要过哪些模型,你的业务是哪个场景,它会自动的去关联我们系统调约好的一些场景策略。以及你去结合一些词库的逻辑,一些敏感人物或者说敏感图库,你可以自己去进行你业务上所需要的,但是实际上在行业或者在其他场景不需要的,也可以做一些自定义的一些呃数据的管理,去实现它的自己定义的拦截策略,那同时底层的一些审核能力和一些审核策略的模板,辅助的策略都可以是开放给到用户去自行的去管理。
70:04
那基于这整套的方案的话,其实我们会解决像面向社交,像教育,像一些电商场景的多样化的一些场景的识别的能力,以及去解决像一次图文的各种识别类型的一些违规的一些内容的检测。那整套的一个产品系统的话,其实呃,我们自己总结下来有的是优势,那其实第一个的话是说我的实时的性能指标是一个实时的,我的策略调整是一个非常快速的,我可以及时的满足业务上可能面临一些突发的信息,或者说满足他一些对于审核时效要求比较高的这样一些M聊天场景,像一些图片分享类的,我可能允许他快速的去完成审核,快速的去呃发布出来,去达到它一个较好的一个用户体验。那同时的话,我们的一个识别模型也是相当精准的,比如说我们基于这种底层能力的构建原子能力的模模型的封装,那其实我可以组合更多的审核标签出来,那目前在我们系统里面的话,其实大致会支持到300多种的一种审核标签的一些呃模型能力,同时的话,它经过这种模型的优化和模型的编排,那我可以达到一个95%在上的一个识别准确率,那同时依托于整个腾讯云的话,我其实我们的服务的话,其实是可以提供72小时的一些优化,并且允许他利用腾讯云上的一些弹性资源去做一些超大规模的识别需求,去满足业务上面临的一些监管产生的历史海量数据的回溯。
71:29
那同时的话,整个腾讯云内容风控啊,是依托于整个腾讯的识别内容违规的这种经验来的,就大概会积累的大概22年的行业经验,并且我们其实整个积累的可能性就包括像一级的一些违规样本库。甚至一些超过5万里边的这些敏感工作人物库去提供给到客户,去自行的去去关联,去要过他自己的审核人物库。啊,那我今天的分享的话,其实就到这里,谢谢大家,看大家有什么问题。
72:00
感谢蔡飞老师的分享,那我们这一轮因为时间有限,我们只有一次提问的机会哈。嗯,谢谢蔡伟老师啊,那个我问一个就是实际应用场景出现的问题,就是问题是咱们这边的这个机器审核,人工审核的这种容错率大概是多少,因为我现在是晚上也是在做这个视频号直播,然后现在也比较火嘛,然后经常会遇到的情况,不仅我一个人,因为我们也有那个直播的小组,然后大家讨论,就是我在最后跟那个嘉宾,就是听直播的嘉宾,因为呃,直播间有很多人互动嘛,最后在连麦的阶段,他有那个视频的,有那个音频的,然后视频呢,他有的时候他不太了解,就普通人,因为他看直播比较少,他在跟我问问题的时候,他就会有的时候会喝着酒或者说抽着烟,有也就是说这种情况出现过,但是我就会收到提醒,有的时候还会被断播,这样非常影响整个这个直播的节奏,所以说不仅我一个人遇到这情况,所以说我今天对这个兴趣,这个内容特别感兴趣,想问一下,就是这种情况下,咱们因为我知道都是机器在审核嘛,然后。
73:07
但是我们直接就被停播了,或者提醒了,然后这样特别影响我们这个直播的这种进程,就是这个问题,我想问一下,谢谢。呃,我理解的话就是说你们在做一些音视频的场景,直播场景会说因为一些连麦的环节,那些观众进来的时候,他可能他的一些行为,比如说他在抽烟,或者他在喝酒,这些会命中你们的一些审核的逻审核的策略对不对?对,其实这种场景的话,我们当我PPT没讲,其实刚才这种属于在直播场景,它需要解决的问题就是,呃,一些指导意见会要求你在直播场景是不允许出现,比如说床上直播的行为,比如说喝酒,比如说抽烟,这种其实是不允许出现的,但是说你在连麦环节的话,如果要做解解决这个事情的话,其实机器识别能告诉你的,那就是告诉你说你在这个里面出现的这种类型。那如果说怎么去处置,那500会就是两种手段,第一种的话,你直接帮他画面禁掉,那这样的话会影响你的体验,但还有一种的话,可能会不会更多是在以产品,产品层面的一些体验,比如说你如果出现这种这种情况的话,在一些技术手段,你是不是可以把观众这一路接进来的流,把它禁止,不再对外。
74:19
其他观众看不到,只有你自己看得到。那其实这块的影响范围把它控制缩小,其实可以去解决这个问题的,当然我们还是会进一步的是说要求你在做这个产品的时候,就可以有一些公告或者公式告诉他,因为你这些内容是所有人在看的。有很多受众群体是需要提醒他注意他个人的融装或者个人的行为的,以免会触碰这些审核的策略,它其实是个综合的,一个一个一个一个识别策略,也会包括你的机器处置的,也会包括你的那个产品体验方案去综合去考虑。当然你刚才讲的说容错率这个地方,我我更更加感觉说。容错率的东西是在于说你的产品体验怎么去考虑,机器去识别的,更多是告诉你。
75:02
我有很多的东西在这里,你你可以通过一些产品体验去解决它的容错,那机器更多的是说我精准的告诉你。我告诉你的都是准的,然后你做的产品体验才能更准,体验才能更好,谢谢。那一般来说你画面的话,你也会做分级嘛,比如说你会发现你直播里面出现色情的,我机器告诉你这个识别准确率就是19%了,那你就可以直接对。帮他先暂时断一下,如果说你是一个轻度的,你可以允许他提醒他,你有行为,你比如说谩骂你你有谩骂行为,你请注意一下你的一个措辞啊,其实是可以实时的,然后如果说人工的话,其实更多是在于说一些巡检,一些机器拿捏不准的一些判断说哦,这个可能是也可能模式的这种。那你可能说推到人工,人工发现确认一下之后,再去反馈到你的一个处置机制。感谢蔡飞老师的精彩解答。云点播是基于云计算商业模式应用的视频观看、视频管理与应用的总称。其中媒体处理是云点播中的核心功能,提供了转码、截图、AI等一系列音视频处理的能力。然而,媒体处理作为一种耗时长的离线任务,对平台任务调度的可靠性、公平性、资源利用率等方面有着极高的要求。接下来有请腾讯云高级研发工程师严楚雄老师为大家详细介绍腾讯云点播的媒体处理调度平台的技术实践,有请闫楚雄老师上台。
76:36
呃,大家好,呃,我是来自腾讯云视频产品中心的闫楚雄,呃,今天我想分享的主题是云点播媒体处理平台的技术实践。啊,今天因为有点咳嗽,所以会影响效果,请大家见谅。呃,我分享的内容主要是分为三个部分,呃,首先第一呢是媒体处理任务的特点,然后呢,我将介绍云点播媒体处理平台是如何设计的。
77:06
呃,到第三步呢,我会讲一下我们面临了一些哪些新的挑战,以及对应做的一些架构的优化。呃,首先看一下什么是云点播,那简而言之呢,呃,云点播它是一个一站式的视频点播的解决方案。那内容的生产者,呃,可以通过像短视频SDK和云检平台,嗯,把自己的媒体制作了之后,通过服务端,客户端或者直播录制这样多种的途径上传到我们点播的媒子存储中。然后呢,用户可以根据自己的需要去对自己的呃视频进行转码截图这样的媒体处理的操作。那转码出来的视频或者截图出来的图片,可以通过呃,播放服务的CDN来进行分发。
78:02
呃,得益于CDN的加速,呃,终端的用户可以呃通过集成我们的播放器SDK去流畅的播放自己的视频。呃,可以看到我们的点播是集成了呃,像呃制作,上传、存储,还有处理和分发的一系列的功能啊,就可以助力我们的视频内容平台的发展。那媒体处理是我们点播的一项核心的功能啊,也是我今天想要介绍的一个重点。呃,媒体处理它其实是呃提供了一些非常丰富的能力。嗯,首先。啊,第一点就是转码,可以把视频转播多种分辨率规格的呃视频,然后可以让客户端可以根据我的当前的一个网络带宽的一个情况去自由的去切换。
79:02
嗯,选择我更合适的一个规格。那第二项呢,就是截图,比如说我们可以为呃播放器去截取一个用来预览的缩略图,那这样在进度条拖动的情况下,都可以获得一个更更好的体验。啊,第三呢,就像刚刚呃我们呃上一位同学说的,AI可以提供像人脸识别,语音转字幕,还有内容审核这样的一些能力,那这就可以帮助我们的。内容的视频的平台,更加了解自己的视频内容。那视频加。呃,视频加密对于有版权保护的需求的用户就至关重要了,特别是对于像呃一些在线教育的一些场景。呃,那媒体处理他的呃任务的特点是怎么样的呢?
80:00
呃,首先呢,我们看一下像腾讯的QQ和大部分的一些网络游戏,他们其实是呃一种延时敏感型的业务,适用的是请求应答模型,那这些这种模型呢,它关注的是高并发和低延时,呃评价的指标主要是QPS。呃。但是以转码为代表的媒体处理,它是适用于离线任务模型啊,具有批量调度、资源消耗大、执行时间长这样的特点。啊,那用户提交一个任务之后呢,呃会他不会立即呃有结果,而是要经过一段时间的执行。那比如说呢,我们有一个两个小时的电影,如果我们转1080P的话,可能就需要一个小时的时间才能转完。呃,那因为这样的离线任务的一个特点呢,我们就需要通过轮询任务的状态,或者是通过任务完成的毁掉来感知任务的完成。
81:12
呃,那媒体处理任务它通常是资源啊,密集型的一个耗时的操作,对任务执行的可靠性要求就非常高啊,任务状态或者执行结果的丢失,通常对于我们来说都是不可接受的。呃,用户一次提交的媒体处理任务呢,它可能会包含有多个子任务,呃,比如说像流畅标清啊,高清多种规格的转码,以及多种分辨率的时间点截图,采样截图。呃,我们对这样子的一种任务呢,称之为复杂任务。那我们的调度模块是设计了complex和ATOMIC2个历程。呃,用户提交任务之后呢,首先会由complex历程的复杂任务处理引擎把任务拆分成啊细力度的子任务。
82:06
然后再通过atomic历程调度到下游的执行集群。那任务执行完成之后,呃,任务的结果会在complex历程进行一个结果的合并,然后再通知到上游。那这里的话,我们就通过模块的解耦支持了,呃,复杂任务。呃,细化到一个atomic的历程。当接收到一个任务的时候,会首先把这个任务入推到分布式的Q中。然后schedule会根据任务的并发配置以及当前的任务的执行的一个情况来把任务调度到下游的执行集群。呃,因为我们呃,设置了这个并发的配置,就可以控制每个用户的最大的并发执行任务数,实现了用户之间的隔离,并且也可以做到对下游执行集群的一个整体负载的可控。
83:07
呃,还有就是我们的任务是支持设置优先级的,高优先级的任务会被优先的调度。那任务的执行中间的状态和结果都会被缓存在呃,分布式的筛选里面。历程向上游提供了任务查询的接口啊,并且在任务执行完毕后会立即回调。那这样我们就保证了任务执行结果的及时性和可靠性。呃,下面我们看一下我们的调度算法是怎么实现的。任务在进入队列之后呢,呃,会包含有任务ID、用户APPID优先级和入队时间这几个几项源信息。那我们的调度算法是对用户IAPPID来按照顺序来逐一调度的。
84:02
调度某一个用户的任务时,首先调度高优先级的任务,那对于同一个优先级的任务,我们会按照他的入队时间来进行调度。呃,当调度一个用户时,呃,当他的任务的并发配置达到上限,或者说他已经没有更多的任务可以调度时,我们就开始调度下一个用户。啊,这样的一个调度算法,可以做到高优先级的任务优先,以及早入队任务优先。呃,因为每个用户都有最大并发控动并发度的一个控制,所以也可以做到用户之间的公平调度。呃,另外讲一下我们的队列是怎么去做选型的。呃,我们选型队列的时候,综合考虑了像mango redis和像卡普卡这样的传统的消息队列。
85:00
呃,因为刚刚讲到我们调度任务时,需要去获取到所有呃排队任务的用户的APID。呃,也就是说我们要获取所有的key。那这里就只有mango和可以支持。另外呢,对于任务调度时,我们需要按照呃,APPID优先级和入队时间来对任务进行排序。呃,也就是说我们要用到符合索引。啊,此时呢,就只有mango可以支持了。另外,我们的mango在可用性、一致性和性能这几个方面表现表表现的都很良好,所以我们最终就选用了mango来实现任务的队列。呃,我们媒体处理的架构是这样子的。用户把任务通过云API提交之后,会经过我们的呃调度服务,然后下发到各个园区的集群。呃,任务的排队和中间状态信息都会呃存储在芒果中。
86:05
那任务的执行结果会写入到消息队列,呃,供用户来拉取。呃,媒体处理任务,它是具有一定实时性要求的,离线计算任务种类多样,参数很复杂,那我们的这种架构呢,就可以呃,实现任务的公平、高效、可靠的调度,并且也能够满足对于任务的实时查询和及时回调的一个要求。呃,我们的点播媒体处理架构上线之后呢,呃,持续稳定运行,也接入了很多的标杆客户,那在运营的过程中呢,我们也面临了一些新的挑战。呃,首先呢,第一个挑战是,呃,我们的当前的一个架构,在容灾方面存在一定的风险。
87:01
呃,首先我们刚刚讲到我们的调度服务其实是一个强依赖于mango的一个设计,那如果说当这个中间件mango出现异常之后,整个集群就不可用了,并且会造成媒体处理任务无法进行。呃,另外呢,媒体处理调度服务和下游的执行集群通过负载查询,任务推送等接口进行交互,那任何一个下游的接口如果出现异常啊,都会直接影响这个园区的任务调度。呃,为此呢,我们进行了架构的升级,首先呢,我们在这个调度层的之上呢,引入了接入层。呃,它可以支持多种的任务的路由的策略,当调度层的呃某一个集群出现故障时,我们就可以通过接入层来实现呃快速的切换。另外呢,我们还根据园区以及大客户的需求来搭建多地的集群。
88:08
呃,集群内呢,是独立调度的,互相不干扰。那各个园区集群的数据呢,会通过这个s data模块去同步给我们的接入层。呃,最后呢,我们把调度层推任务的模式改成了由执行层来拉任务的模式,那这样调度集群就不需要通过接口去感知下游的一个集群的负载,也不需要去调用下游的接口来推送任务了。那拉取任务的模式呢?简化了调度集群和执行集群的交互啊,提高了这个调度的稳定性。呃,我们面临的第二个挑战是,呃,执行集群的资源利用率偏低。呃,我们综合分析了像转拉、剪切、转码这几个执行集群的CPU使用率。
89:02
呃,发现一天当中。会大量出现低风的时间段。呃,并且平均的负载只有30%-40%,整体的利用率都偏低。那我们的第一点优化是对资源进行整合和容器化。呃,目前呢,我们这些呃执行机群使用的都是呃独立的虚拟机,甚至是物理机。那我们就将各个类型的执行机器按照园区呃整合在一起,构建K8S集群。这样就更利于维护及提高利用率。然后呢,我们按照任务类别划分不同的规格的等级。啊,比如说对于转码任务,我们根据可以根据它的目标的分辨率,帧率、码率这些参数来划分出两种不同的转码容器规格,比如4CPU8G内存的和8GCPU16G内存。
90:05
那对于像转拉这样的。他这样的一种任务,它的资源消耗主要是在网络IO,那我们就只需要分配0.5CPU和2G内存就足够了。那不同规格对应分配不同的资源的配比,可以减少统一容器带来的不合理的利用,提高资源的利用率。呃,我们的第二第二点优化是实现了二集群的任务窃取。呃,执行集群刚刚讲了,我们是多元区部署的,就可能会出现负载不均衡的情况,就是呃,有的集群在空闲的情况下,可能其他的集群已经出现了任务的积压。那这个时候呢,我们可以去设置一个,呃,合理的一个时间点。
91:03
就呃,当某一个集群出现积压时,呃,可以由其他的集群去窃取任务来执行,这样它既可以缓解积压任务集群的负载,同时呢,也可以提升自身集群的一个资源利用率。那比如右图的这个例子,有重庆和广州两个执行集群,那T2时刻我们的重庆的集群已经开始出现了队列的积压了,那到了T3时刻,这个任务积压的呃,情况加剧,已经开始出现了超时的任务。嗯,这个时候广州的集群,它的队列是空闲的,此时他就可以去开始窃取重庆任务的重庆集群的任务去执行。那到到了T4时刻呢?重庆的GI已经消除,恢复正常,广州就不需要再去窃取新的任务。呃,我们面临的第三个挑战是。
92:02
呃,新业务的接入的,呃,研发效率偏低。呃,因为我们点播的媒体处理它的功能很多啊,也经常会有一些新增的一些功能需求,那我们的这个执行集群是对接了多个的下游团队的。呃,在对接过程中,我们双方都感觉业务接入的耗时很长。呃,主要是有两方面的原因。啊,第一呢,就是各个执行集群,他们的交互协议是不统一的,每个下游服务都有自己的一套离线任务的,呃,一个协议。那这些协议的格式、错误码、超时的设置,还有园区覆盖度都千差万别,这些都需要我们的调度层去一一进行适配,开发联调的耗时都很长,而且呃,可能会需要数周的时间才能完成。呃,那第二点呢,就是,呃,我们就是执行层的运营工具建设也非常的耗时费力,每个下游的服务都要自己去搭建,呃,像日志监控告警。
93:15
并且呢,搭建的成果还不能复用。那针对这个问题呢,我们和合作团队进行了沟通,然后呃,协商是采用一种统一的合作模式,就是由我们的点播调度团队去提供执行层的一个接入的编程范式。同时呢,去提供日志监控等一些基础的通用的组件。那合作方只需要按照我们约定的范式去实现,并且提供二进制的执行程序就可以了。呃,具体来看一下我们的这个标准化的接入体系,我们是开发了一个统一的执行层的架构。
94:02
主要是由S和WORKER2部分组成的。呃,SHUB统一和上游进行交互,呃,支持调度层任务的查询呃,并且也可以从调度层去拉取任务。呃,并且负责把任务信息做持久化。那worker。包含了worker pro和具体执行业务的二进制程序。呃,这里就是病。呃,两者是部署在相同的pad里面的。呃,首先呢,Work pro会从center HUB去拉取任务,并且创建工作目录,然后唤起二进制程序开始执行任务。呃,像右上角呢,是我们制定了的这种二进制程序的一个接入规范,是通过命令行的选项去告知二进制程序从哪里去读我这个任务的输入的一些参数,以及说我把日志,还有执行进度,还有执行结果写到哪里去。
95:15
那读取和写入的目标呢?都是挂载在宿主机上的,呃,本地的容器文件。那我们的worker,他要去负责监听本地文件的变更,并且把这些结果通过send HUB回调给上游。嗯,最后呢,我们还建设了运营的工具,以set car的方式去部署了像日志上报、下载等各种agent,统一解决像日志收集,呃,监控上报以及下载安全等问题。呃,通过这样的方式呢,开发者就只需要去聚焦于二进制业务的一个逻辑开发,极大的提升了啊这里的研发的效率。
96:06
嗯,这是我今天分享的内容,谢谢大家。感谢严楚雄老师的精彩分享,然后我们这次也是只有一次的这个提问的机会,现场哪位朋友愿意来提问?呃,严老师你好,呃我们是做那个呃这教育直播行业的,然后对我们来说,那视频的版权这方面是比较重要的一个事情,然后想问一下咱们,嗯咱们腾讯云的点播就是有没有提供呃播放器的插件,如果有提供的话,想问一下如呃咱们的播放器如何避免嗯在客户端去逆向我们的比如说javascript的代码来破解我们的这个加密的算法和密钥的。谢谢。这个问题就是刚刚我们讲的这个版权保护的一个问题,就是呃现在用的比较多的是H,就是苹果HS的一个普通加密啊,但是它的这个安全性很低,因为是它的这个密钥是铭文,可以被呃直接被终端去抓取到的,所以呃现在像国外用的比较多的都是像we play这样的商业gdm这种是它的安全性是很高的,就是说它是完全在呃这个终端,它的一个硬件级的一个呃。
97:33
加解密就是说呃可以不用,就是说考虑像你刚刚说的会被立项的这个问题,但是受限于我们现在国内的一个一个环境吧,就是我们的很多终端它是不支持这种商业界dim的,所以说我们目前目前来说,呃,像我们云点播是基于刚刚说的苹果的这种简单加密的模式,又去做了一些升级,做了一个呃要定制化的一个加密,就是把这中间的密钥再做了一个二次加密,然后我们的终端会按照我们的内部的一个。
98:09
一个呃就是二次加密的算法,再去做解密,就提升了这里的安全性,然后你刚刚说到的呃,怎么去防止去逆向这个解密,呃这里我理解跟终极的方案是还是商业gdm,那我们的这个呃,就是刚刚说的这种,呃,私有加密是提高了这里的一个。破解的门门槛,但是也不能说达到商业gdm的这个高度,所以说我们建议如果说对呃内容的安全性要求非常高的话,可以牺牲一定的终端的兼容性,去采用商业gdm的一个方案。感谢这个严楚熊老师的这个解答下就说。
99:00
那我们如果有更多的这个问题的话,也可以在我们的这个现场活动交流群里边向我们的老师提问,或者在中午午休的时间跟老师去做沟通交流。当今流媒体和云游戏市场火爆,在科技巨头纷纷入局云游戏市场的背景下,如何提升流畅度,提高玩家的游戏体验显得愈发重要。下面有请英特尔中国研究中心有限公司视觉云首席架构师于志宏老师为大家带来英特尔服务器显卡与云游戏的主题演讲,让我们一起学习面向服务器数据中心的独立显卡是如何支持流媒体和云游戏的业务,有请于志红老师。喂,大家好,那个啊,看到这么多人这个周末也过来听这个技术讲座,我觉得也是非常那个高兴哈,就是我一直是做这个救赎身,嗯。呃,今天再想给大家分享一下,就说英特的,就是呃,最近是有一个呃,很重大的一些发布吧,我不知道大家关注过没有,就是一票的这个architecture day,就说我们。
100:12
一个很重要的主题就是这个独立显卡的这个啊,产品线对我们呃。里面是投入了很很多的一呃技术,还有工程师呢,去打造这个英特尔的GPU,对在这里我也想讲一下,就是说呃,我们对这个BP还还有跟腾讯在云游上面的一些合作,对。哟。Sorry,我放到前面一个了。游戏呢,我们实际上跟腾讯呃一起呃。说实话是,呃,很。合作了很长时间嘛,当时我们就是在思考一个问题,就是嗯。我们从互联网从最早是一个呃文字形式的一个呃交互对吧,再到后面的一个音频,再到现在的一个流媒体,就是音视频的这样的一个呃交互方式,呃,那下一个这个爆点会是什么,会是一个什么样的一个形式呢?我们也是在思考这个问题,就是音视频呢,到现在4K8K啊,就是高清这些呃技术呢啊都是目前已经是。
101:23
我认为是趋向一个非常成熟的一个阶段。嗯,在这个思考过程中呢,我们呃研究下来呢,我们觉得可能呃,云游戏可能会是下一个,呃呃就是。下一个市场嘛,就是会带来不同的一个体验,就是以前呢,你是一个被动的去。接收这个内容对吧,就是那个网站给你推给什么内容,就你就去接收,那未来呢,可能更多的是一个互动形式的,对吧。就说呃,现在很多游戏的,呃,不知道大家玩不玩游戏啊,就是不管是手机端还是PC端,你都是要把很大的游戏下载到本地,然后你去打开去联网,对吧,你如果觉得不好玩再删掉再重新买,对就是这样的一个行为,对这跟我们以前就最早的时候去看那个。
102:12
呃,影片实际上是很类似的,对吧,你通过这个呃这个下载的这个这些工具去把这个有呃电影影片给下到本地,然后去看啊到现在所有的基本上都是全是变成流媒体了,就没人再去讲的去把这电影给你下载到本地再去看。我觉得这是一个技术社会的进步,也是一个技术的一个进步啊,因为我们现在网络条件还有呃,终端的这个呃。普及都是。呃,到了另外一个层次。对,所以在这在这个思考的下面呢,我们当时最早的第一代的,呃,GPU产品呢,我们是实际上是以游戏作为重点的,就是我们服务器啊,服务器的这个GPU是以云游戏作为一个重点,呃,Workload来看我们怎么来打造一个。
103:05
为游戏服务的这样的一个GPU。对,这是我们当时呃,设计的这个。已经发布的就是去年发布的一个GPU产品,我们叫做hone,呃,它的特点呢,就是说它并不是一个非常大,因为我们当时做了一个市场研究呢,我们认为在国内呢,可能还是以安卓与游戏手游为主,对,所以我们当时呢,是以。嗯,是想呢,就说以呃安卓游戏就手游云游的这个作为一个突破口去去打造这个市场,因为大家也都知道,就是GPU市场的话,实际上是在二轮转嘛,对吧,呃,NV是市场独大,然后AMD呢是在。呃,也有一定的市场份额,英特尔进来呢,它实际上是面临非常。激烈的这个市场竞争,大家都非常清楚,对,我们是一个后来者。那我们就想通过这个一些新的一些业务呢,去。
104:03
推动我们的这个产品能够落地,呃。H它的特点呢,就是它并不是一个非常高呃高高呃高性能的这样的一个GPU,它还是走的是一个呃低功耗。做高密度的这样的一个思路,就说我在一个板卡上,我可以堆叠多个GPU,来提高我按那个手游云游的密度。对,因为手游迷云游呢,它是一个成本非常敏感的这样的一个业务,就是你在卡单卡能够是更多的路数,你的成本会压的更低,那你一张一个硬件卡呢,如果你只是一个大的GPU呢,它的一些软件的一些oha,就是你一些宽带切换呢,你的一些软件的oha呢,就会让你的GPU的性能发挥不出来。对,所以我们研究来研究去呢,就觉得可能是走这个小GPU多多实力的这个方法去。去做这个市场,所以我们我们后面呢,设计了这个规格以后呢,我们是把它呢做成了一个。
105:05
呃,塔上面是四个GPU的,有四个小的GPU只有150瓦,有这样的一个产品。呃,当然这个产品呢,我们也是针对呃云游戏这个场景呢做了,呃也是跟实际上也是跟你们呃腾讯呢有紧密合作的,我们就看了他的一些显存的要求啊,他的边界码的要求啊,呃还有他的一个算力的要求啊,所有的这些要求呢,我们都是呃做的很仔细的先期的调研,对所以我们一个很大的一个不同呢,就说我们上面第一个我们上面是四个四个GPU。另外呢,就说我们也针对腾讯的飞呢,我们把每个GPU的呃,显存呢,加到了加的比较大,加到8G,这我整卡呢,是32GB的这样的一个显存。因为因为他的实力很多,就是他会跑很多的实力,他每个实力呢,它都会占一部分显存,如果你实力呃显存不够的话,他很可能就说你虽然你还没用完,显存已经没有了。
106:05
对,所以这个我们也是,呃,针对这个场景做的定制化。呃,另外一个点呢,就是说我们呃,在编解码的密度方面呢,也做了一个相应的一个匹配对,如果因为。因为手游云游呢,它的特点呢,就是它渲染的要求可能不是特别高,但是它的密度高的以后呢,它对你呃编解码的这个压压力呢,会极大的递增,如果你编编码是成为一个瓶颈的话,你只能是转到用CPU来做呃编码。但CPU的编码的复呃复杂性大家都很清楚了,所以它的O的会比较高。对,呃呃,刚才我已经讲了,就是说我们为了匹配他的这个手游应用呢,我们在编列码上面呢,也是做了呃很多的一些改进,比如说我们的AC hvc。呃,我们都有这个doency的模式,就是一个第一时延的模式,呃,因为手游云游呢,它因为云游场景呢,它真它对整个音视频网络的压力是非常大的,对一常规的这些音视频的流化,呃,交付。
107:13
说实在话,都满足不了云游戏的这个要求,因为它的延迟都是以这个毫秒级来计算的。你一个100毫秒跟一个180毫秒的这个延时,呃,对用户体验就完全不一样。对,所以我们针对这个编码器呢,也做了一些呃第一第一呃的这样的一些定制,就是我在。GPU内侧呢,我的我的一帧的这个编码时间呢,可以压压缩到三个毫秒到五个毫秒这样的一个啊级别。就是就可以出来一帧对吧,这样的话,我在至少在编码的时候呢,是不会,基本上你可以认为它的占的百分比是很小的,在整个全链路的这个LIC上面。嗯。对,这个也是我们针对游戏做的一个优化,我们现在支持avc跟h he VC作为主打的这个code,呃,VP9呢也也支持,但是VP9呢在国内呃,接受度并不是特别好,因为手机端支持的不是特别好,但国外用的比较多。
108:17
下一个下一个扣袋,可能我们会支持AV one,但o AV呢,是在下一代GPU才会支持,这一代还没有支持,还没有来得及,因为这个产品呢,是去年就发布了吧,就是AV那个时候的标准还没有定下来。嗯。我们打造了这些东西以后呢,我们另外一个呃,很重要的一个点呢,就是我们的软件呢,是比较开放的,就是英特尔的它的做GPU呢,还是呃把的软件,还有它的生态呢,会比较一个开放的形式。啊,比如说我们的大部分的驱动代码都是开源的,对你们实际上是呃,都可以从开源社区可以拿账。
109:00
另外我们也支持了一些mediadk啊,还有FM pack呀,这些常用的这个,呃,主流的社区的这个framework。呃,另外一点呢,我们就是在安卓层面呢,我们也做了一些呃特呃定制化,就是说我们把。美散就是,呃,管匪这块呢,我们在。安卓环境下也都全部做了适配,对就是说它是可以跑整整个没ta sta呢,是可以跑在那个安卓里面的。嗯,这个好像也是其他的厂家,我们友商没有做的,就是他很多时候呢,你要把渲染那部分呢,给up到主机上来做,就是Linux主机上来做,你不能够在呃安卓里头来做,这也是一个比较大的一个困扰大家的一个问题。嗯。在这基础之上呢,我们还提供了一整套的软件stack。呃,对,当时我们做这个跟腾讯一起来合作这个项目的时候呢,一个一个,呃,很大的一个问题呢,就说因为大部分安卓手机都是ARM的嘛,对,你怎么能够跑到叉八六平台上,就利用上你的这个显卡。
110:09
对,我们也跟呃,腾讯一起合作呢,做了这样的一个基于安卓container的这样的一个方案,就是一个高密度的一个安卓container的方案,嗯。就是我们把。呃,安卓的这个AP,呃,做了一个做了一些定制化,就把它能够在一个Linux的一个host上呢,去多实力,我们现在最多呢。如果是加上VM隔离的话,我们最多可以做到300多个,现在已经测到300多个,呃,实力了。但如果是在呃比metal上的话,我们可以做到呃。200个左右这样的一个啊,安卓实力在上面,然后我们有一个technology呢,就叫做TEL Intel那个bridge technology就是其实上就叫做侯迪尼了,对,它是做一个M指令到X86指令的一个翻译的这样的一个工作。
111:03
嗯,那为了这个云游戏的这个场景呢,我们还做了一个SDK,叫做Intel cloud的SDK。嗯。他的他的一个主要工作呢,是为了因为我刚才说的就是我们应游的它整个全链路的liency呢,是非常关键的,对你怎么样,你怎么样。把这个雷ency给它啊,减到最小,所以一个很一个很关键的技术呢,就说我渲染出来的东西怎么样尽快的交付给编码器。对吧,就说我中间最好不要有呃memory拷贝啊,不要有这个呃。CPU memory到CPU memory的这样的一个拷贝啊,然后做一些格式转换啊,这些操作最好全都在GPU里做完了。对,所以我们这个,呃。这SDK呢,就是把呃mea跟这个迷恋扣袋这块呢,就全链都可以都给打通了,就是呃大家拿到的就不用调,基本上就拿呃拿上就可以用,就整个。
112:06
呃,渲染到这个编码器的一个数据通路呢,都是最优化的。呃,另外我们在GPU内部呢,也做了一些颜色空间转换,因为渲染出来呢,是一个RGB的一个。呃,不对,但我编码的时候呢,是按照这个YUV来编的,对。呃。所以呢,他你要需要做一个RGB到这个YUV的这样的一个转换,这部分呢,也都是在呃,我们在这个G啊GPU内核里面去做的这个转换,对,所以它整个链路呢,从渲染到编码到嗯。出打包出来,呃。他很多操作呢,都是可以在GPU上完成,只有在。编出来以后去打包的时候,才会拷贝到这个CPU的M去做,对这样的话,我们把整个整个链路的延时呢,是控制的非常低的。
113:00
我们现在,嗯。现在我们测下来的话就是。一个安卓实例,在在我在服务器侧加上渲染,加上这个编码,我们现在最短的话,我们现在测下来,如果呃,系统不是很忙的情况下,我们可以是测到。呃,25个毫秒左右就可以啊,就可以出来一帧。这样的话,就说我整个serve测的雷C呢,是是给你保证了的,对你不用担心,就说我按一个安卓应用跑在一个自强服务器上会不会。变得很雷,这个很大,它能不能work啊,它的密度能不能上去,对所有这些问题呢,我们都呃。啊,都帮那个客户解决了,对,所以呃,所以我们这个方案呢,现在在it上的测试结果是,呃,非常不错的,就它的密度,它的稳定性,它的dency,呃整个我们在整个系统上都做了一些优化。
114:02
当然我们,呃,为了达到这些目标呢,我们在系统级别呢,也做了很多的一些工作,比如说这个container的一些绑和策略啊,就是说我怎么去啊,因为我要控制这个Li,所以我要去做一些绑和策略,我要去做一些资源隔离。对这些工作的话,都是在系统层面,呃,我们做了很多的优化,这里我这里就不一一展开了。嗯,这个是这个是大家比较关注的吧,就说你说了这么多,你到底密度跟竞争对手有什么差别,对,这个是我们的一个,呃,实测的数据。对,我们在游戏侧的话,就是单卡的话,我们可以呃做到80度这样的一个呃游戏基本上是属于呃终端的这样的一个游戏吧,不是不是这个高端的。但高端的这个游戏呢,像元神之类的,它的它的这个要求会比较高,对他可能就达不到这个密度,对,但对主流游戏呢,我们可以单卡是可以测到80度的,NV的提货呢,目前是它的啊,公开的材料的上面呢,是是写的是那个32路。
115:13
我们是跟他比的话,是有呃一倍多的这样的一个提升。对,这个是这个编码的性能,呃,刚才我也说了,就说因为我要支持这个安卓应用的话,我呃,即使你算你能够支持到这么多路,但你的编码效果如果。呃支撑不了你的业务的话,你还是需要用走到CPU列测来做这个呃编码,对,所以我们即使在呃loading的这样模式下的话,我们也是可以做到很高的一个编码密度,我们单卡可以。做到60路,这个是一个呃高质量的模式,如果是一个均衡的模式呢,我们可以做到七三路,就单卡上面。嗯,因为我们现在给客户推荐的基本上都是这个是指的是1080P的。
116:04
对1080P30的这样的一个配置,对刚才讲的这个80度呢,是这个72030的这样的一个分辨率。对,所以呃,所以大家可能看这两个数据可能会有疑问,说你这里才60度,呃,但游戏怎么变成80度了,对,因为他两个分辨率不一样。对,如果是720P30的话,这个密度会更高,就转码密度会更高。对。这个密度的话,跟t four比的话也是,呃,差距也是非常大的,对,我觉得我觉得可能不是一个量级吧,就是他两个可能不在一个量级上,也不太不太好比,差不多有五倍五六倍的这样一个提升。OK,对,就是我们,呃,针对这个。手游云游打造的一款那个GPU版,现在在因为手游云游呢,现在在整个市场上还是非常火的,嗯,但但但我个人认为呢,就是说它还是属于一个起步阶段,就是大家都在呃投资这个领域,但真正的就是大规模应用呢,我觉得还是需要有一个积累吧,对现在都感觉呢,就是说呃。
117:14
一个一个大家公认的一个,呃,完美的这样一个平台呢,还没有出现,对我也并不是说自强这个,呃,我们这个平台呢,是完美无缺的,我们还是有一些缺陷。在里面对呃,但大家都在探索,就是有各种各样的一些机型在在出来,对我们也是在参参与到这个,呃,这个行业里面去讨论,看怎怎么样是一个最好的一个硬件设计来支撑这个业务。OK。那我们可以,这是我们已经量产的一个东西,然后呃,后面呢,给大家介绍一下,就说呃,英特尔GPU,呃。未来的话是有个什么样的一个规划,对吧,因为这个这个投资还是比较大的,因为呃,它的整个的技术复杂性。
118:07
跟他的呃,软件配套,还有它的ecosystem,它整个生态,嗯。说实在话,要花很大的功夫才能够推得动,对,不是说呃一两年就能够就说就是能够成功的,对我们是完全是认可,呃,知道这样的一个艰难吧,对,现在。电NV差不多是一家独大吧,对,因B可能是捡点那个圣果子,然后英特尔再进来以后呢?就会变成那个三国三国志嘛,对吧,三国大战。但英EL尔呢,它实际上呢,一直是在做啊显卡GPU的,只不过是它是做在这个CPU里面,它是一个集成显卡的这样的一个设计,那集成显卡的设计呢,它因为就会跟CPU呢来去抢这个。呃,Power跟那个抢那个带。
119:01
所以英特尔的GPU呢,以前都是做的呢,是属于那种中低性能的,就是因为你要集成在CPU内部的话,它是有一些功耗啊,还有面积的一些限制,所以你也做不大对。呃,所以这里写的呢,建九啊,建11啊,就是我们的architecture的这个代,实际上已到了11代,对,就是在集成显卡呢,已经做到11代,呃,一的话实际上是12代,就是G12 G12呢,我们是把它改名了,就改成这个叫X1的这样的一个啊名称。从XE这一代呢,我们才真正把它从CPU的带上面给拿出来,对去做一个独立显卡,那独立呃做做了独立显卡以后呢。它的整个的这个功耗限制,跟它的带的面积的限制呢,这些就没有了,就说我们可以做的更大,可以做的呃,性能更好的,把频率呢可以标的更高。对,这些是我们会呃正在做的一件事情,万只是一个第一步,后面我们会有更多的一个产品线呢,去把这个独立显卡的产品跟它性能给它呃丰富起来。
120:12
所以后面我们呃,做graphic这一块的呢,主要是叫做HPG,比如high performance graphics。HPG呢,主要是做渲染跟那个游戏的这个显卡的一个产品啊,产品类别,呃,我们还有这个hpc就专门做呃hpc跟AI的这样的一些产品线,它叫做hpc。因为这里我们主要讲那个云游戏嘛,所以我还是讲这个HPG为主。对,这是我们在前呃前两周这个architecture day刚刚呃发布的一个新的品牌吧,叫Intel。对,然后一个多年的一个GPU的一个low map。嗯,这个龙map这几个英文名呢,是比较难比较难弄的,对,不过没有考过。
121:04
压抑的可能都读不出可能。但但实际上很好记,实际上你就那个看abcd就完了,对,就是因为它首字母就是abcd。啊,明年第qone呢,它出来的这一代呢,呃就A呃是会明年qone就会量产。嗯,样片呢,我们现在都已经拿到的,都在都在做软件开发,很大一部分工程师呢,也都在中国这边,然后在上海这边也是有很大的工程师在做这个产品。对,但这个是这个是呃刚呃这个是client端的一个产品线,就是我们对应的server端的也有对应的产品线,就是跟这个呃带呢是基本上基本上是吻合的,我现在看下来。对,就是他呃,Client端会有个产品线,我们呃设备端呢,也会有个产品线,但是我们设备端产品线呢,啊还在保密阶段,对我现在还没法说就是他的。
122:04
他的一个呃,品牌米嘛,这些我现在还没有公布。对,但我我现在呢,主要是在做这个这两代的这个产品吧。是我级的产品。对。嗯,对,所以我也是非常期待,就是也非常看好,就是英特尔。就是投入到这个独立显卡这个市场,因为。因为当呃,因为今年的市场环境,大家也都知道这个显卡的非常缺货,就把这个挖矿,就基本上把这个所有显卡都买掉了。嗯,另外呢,价格呃高的离谱,对我觉得一个大的一个。厂商进来的话。呃,对最终用户还是有好处的,就他的技术演进会变快。另外它的价格呢,会做的更低。这个对最终用户来说的话,绝对是一个很好的一个事情。
123:02
呃,这是我们的一个一个架构示意图。对,我们,呃。刚才说了,就说我们的架构呢,实际上是还是一个非常scale的一个架构,对,我们是基于T的这样的一个形式,我们叫做T。Size do random size,每个random的里面有很多那个执行单元。呃,在NV那边呢,它叫做库大库,我们叫做那个EU,但EU这个数这个名字呢,可能会后面也会换掉。呃,我们是有很多的这样的一个slide,跟它堆叠成的一个architecture,然后再通过这个。比较大的这个达斯cash把它给互联起来,是这样的一个设计。嗯,因为刚才也说了,我们,呃,做了独立显卡以后,它就没有。呃,基本上没有功耗,还有这个大的面积的一个建制了,对,所以后来我们每一代呢,实际上它有很多不同的规格。
124:00
有高端的,有低端的,实际上也是,呃,像CPU一样有个高低搭配吧,对。它的主要区别呢,就是它的这个size的个数。呃,是不太一样的,就是会根据你的这个应用场景,跟做笔记本的显卡呀,台式机的显卡,还有serve级别的显卡啊,它的这个,呃,它的这个size的配置是不一样的。然后里面的话基本上都是类似的,就是一些呃eo就小的一个核心小的一些,呃我们叫做EU,呃在NV那边叫库拉库,然后有那个光线追踪模块,呃有这个呃3D的这个拍line,然后有这个迷点这块,就是编解码这块,编码这块呢,也是一个啊独立的啊硬件模块。呃,放在这里面的。就说你做边界版的时候,实际上是不会去吃这个渲染的这个呃性能的它它实际上是没有没有太多的一个竞争,竞争性在里面,对,所以你即使做高性的那个呃编码,他也不会影响你的这个游戏的这个渲染效果。
125:10
对,这这方面呢,在硬件上就做了一个做了一个保证。好,这时候那个我基本上就到这了。感谢于志红老师的精彩分享,那我们现场的朋友们有哪位要提问吗?诶你好于老师,我想问一下,就是咱们这个游戏是就关注两点,一个是它的这个性能,就是它的那些质量画质,还有一个是它的延时,就我想知道就是咱们这个GPU的话,对于它这个延时这一部分有没有什么帮助,因为像它在本地直接可以运行的话,它只是说本地端与服务端直接连接,这样的话它就是延迟可能会低一点,但是就是说云游戏这边它经过了两个阶段,所以说延迟可能会比相当于本地更高一点,就是在这个里面怎么把这部分延迟降低,就是降到很低,甚至说可以就是能不能降到和本地与服务器端那样。
126:17
大概是这样。对对,这个这个这个问题呢,实际上我们开始做呃,云游戏的时候呢,就是不停的被被人追问的一个问题,对,呃,应该这么说,就是说。游戏永远不可能做到跟你在本地玩一模一样。对,因为它多了一个多了一个层级,对,因为你实力呢,变得在在云端,然后你手机端呢,只是一个受众端,就是一个很很小的一个应用程序在跑。所以他对手机端的,它实际上不是一个游戏,它只是像一个呃player一样,就是一个视频播放器一样的对。嗯。所以,所以当时我们在。
127:01
讨论这个云游戏的时候呢,实际上是,呃,也因为这个问题呢,也背负了极大的压力吧,对,就是不停的各种的来challenge,我们说你这个根本就普及不了。对,那我现在是这么这么看的哈,就说。这个呢,这个这个东西呢,它是一个,第一个是说我技术是不是到了一步了,我是不是做的太早了。对吧,这是这是一点,第二点就说用户习惯是要培养的,对,因为你手机端的游戏跟我们以前的那个商业大作,这些在本地玩的那些PC游戏还是不一样,他还是为你的用户习惯做了一些调整。呃,从技术这边来看的话,我认为就说现在的技术呢,跟以前十年的这个技术呢,是完全不一样的,对,我们现在有呃5G对吧,我们现在有这个啊啊边缘计算,边缘计房这个也是一个很火的一个话题,对。
128:01
所以这些所有的这些技术演进呢。都把这个延迟呢,压缩到一个很低的一个水平,对,我可以告诉你一个一些数据。我们这五这5G边缘机房跟运营商合作预测。它的雷基本上都是十个毫秒以内,就链路链路上的。对。对,然后我所测我刚才说的,我可以做到20个毫秒对吧,25个毫秒就打死吧,就25个毫秒,然后我电路测呢,是十个毫秒。对,在这游戏本身,它可能会有50个毫秒这样的延迟。那我这样算下来的话,我就是可以在100毫秒之内能够做下来。那这样100个毫秒的延迟,你觉得就是说会对人的一个感官有很大的影响吗?我觉得不会的。至少对手游有有是没有问题的,因为它手游已经为你的这个手指的这个触控做了一些调整,他跟以前用PC鼠标玩是不一样的。对,如果你仔细去分辨,那些射击游戏跟PC上玩的游戏的体感还是不一样的,他为你手处做的一些调整的。
129:09
对,这是一点哈,就是说我觉得技术上。我并没有太超前。对吧,如果是这个就是十年以后才会普及,那我现在就不用做了。我等到四点以后再做好了,对。第二点呢,就是说用户习惯的一个培养,用户习惯培养我们是不是到了一个点,就说我去下载一个游戏,我都不愿意去下载了,对吧,当时我们为了去看大片的时候。我因为我是。我是九几年上的大学吧?那个时候刚是互联网,刚是PC机啊,还有这个DVD火的时候,对吧,我们我们干的事情就是买大街去买这个便宜的DVD嘛,对吧,过来看,然后后来呢,就下载到到那个。到那个用那种那种什么BT的工具去下载这个视频,就下一个晚上第二天来看断没断对吧,看本地是不是下载好了,然后再看大片,都是都是玩这些东西。
130:08
那现在的话,你让我去下载一个电影,我才会干的,对吧,我即使有这个时间我也不会去干,对吧,我直接点开。直接去看就完了,我现在也是腾讯视频的一个会员,对吧,对啊。所以所以这个这个用户习惯呢,他我觉得人呢,他是。它是一个就是当你技术到那个到那个阶段,你感觉不到痛苦的时候。用户习惯思维改变的。对,当然如果是以前是很痛苦,为什么我们要用那个BT来下载这些影片呢?就是因为它下载的太慢了,你看影片根本就不流畅。那大家就家就不玩了,大家就直接下载了,等下载完了再看好了,对吧,那刚才我说了,如果我的技术已经到那个地方,那你感觉不到这个差异。那这个用户习惯就会改变了。
131:01
对,慢慢的人就会越来越多的这个去适应这样的一个云游戏的一个场景,我不用下载任何东西啊,我就是一个终端入口,我可以玩任何游戏,不用下载。对吧,我现在一个PC机,PC上的游戏。动辄就是80G100G,你还是要下一晚上。对,我就这这么跟你说吧,对,但如果说我有云游戏的话,我根本就你在公交车上,在地铁上,你随时打开就随时玩了。对吧,这个吸引力,这个对用户的这个吸引力还是会非常大的,我所以说从技术的read跟用户体验的这个培养。我觉得已经到了这个时间点,说这个这个这个变革会发生,对现在唯一的一个困难是在哪呢?现在唯一的困难就是说你在起量的时候,就说用户习惯在改变的过程中。这个云游戏的,它的投入会比较大。就刚才我说的就是CPUGPU,它的密度呢,是还是偏低的,对我我有个数据可以告诉你,就说我普通的这个网游对吧,我我游戏还在终端,但我游戏连到服务器嘛,都是网络对战嘛,对吧。
132:14
这样的一台服务器呢,一个一台服务器现在可以支持1000到2000个用户。如果你连到网上去打的话,但是你看到我做,如果做云游戏的话,我一个一台机器才能支持多少用户。现在是100到200这样的一个点。等于是说我为了打到这个云游戏。如果是比如说。500万用户全部切成云游戏以后。你的你的服务器,你的显卡的投入是巨大的。这也是为什么就说我刚才说的。就是这个架构是不是一个最终适合于游戏这样的一个硬件架构。目前是没有定论的。对,我们现在做的一个尝试呢,是说有把好多个小的GPU给他堆叠成一个卡,然后在卡在在设上去插多卡这样的一个skill的一个方式,对,但这个方式是不是最好的。
133:08
呃,目前还不敢说,因为你跟跟那个普通服务器,普通的网游。一台服务器给1000个客户比的话。你还是有五倍到十倍的这样的一个成本增加。对,这是一个问题,对。所以我现在看到呢,就说。我们的。我们的成本。呃,还有投入呢,还没有,还没有到这个水平,让这个业务能够爆发式的一个增长,因为因为投入要太大了。对,这是我的观点。好,谢谢于老师,感谢于志红老师的精彩这个回答,那到此呢,我们今天上午的所有议程环节都已经结束了,感谢腾讯课堂对本次活动的直播支持,腾讯课堂为超4亿用户提供提升职业和就业技能的在线课程,其中针对互联网it行业从业者的开发的新选系列课程更是好评,那大家可以通过扫描我们会场外的这个腾讯课堂易拉宝上面的二维码去了解更多细节。
134:13
那我们接下来要进入到今天下午的这个内容分享环节。在音视频领域,网络传输极其重要,如何保障低延时、抗丢包和抗网络抖动都是网络传输的重要使命。腾讯云拥有多年的在线视频运营经验,支持高亮支高峰期海量并发,并有效保证服务的可用性和媒体传输速度。接下来有请腾讯云专家工程师张鹏老师带来下一代overlay网络架构探索的主题分享,有请张鹏老师上台。嗯,Hello,大家好,嗯,我是腾讯云的张鹏,然后本次给大家带来下一代波布类网络架构的探索的一个主题分享。
135:00
呃,然后本篇分享呢,主要有三个部分,第一部分呢,我们就先回忆一下互联网的高速发展史。呃,可以看到呢,其实网络很早就出现了,但是外围网呢,是1989年才被发明出来的,然后慢慢被推广,然后呢,就是大家所熟知的了,21世纪的第一个十年是PC互联网的黄金时代,就诞生了Google啊,Facebook啊,Facebook空间呀,百度啊这些网络应用,然后第二个十年呢。呃,第二个事情呢,就是移动互联网的浪潮啊,依托iOS跟安卓两个系统生态,然后手机APP呢,就如宇宙春笋般出现。嗯,然后之前的网络应用呢,可以转向移动互联网,然后还诞生了像微信这样的国民级的应用。然后呢,转眼间已经到了21世纪的第三个十年了,就不知道大家有没有感受到一些什么新的变化。嗯,然后呢,可能大家就发现,呃,能做的呢,基本上都已经做了,然后距离上一次的大规模APP可能还要追溯到抖音快手。
136:07
然后就算是拥有很高效的那些中南化组织,然后即便号称号称APP工厂,那可能也无法在创造这样辉煌的一些APP能够被大规模的上亿级用户使用。那可能这里呢,要不仅问一下为什么。然后呢,今天,然后呢,这就是今天我要跟大家分享的一个主题所在,就很可能就是传统的网络架构已经支撑不了,已经支撑不了的,所以呢,我们就要总结一下历史经验,然后结合现代呃需求的一些技术瓶颈,然后探索一下下一代互联网的架构在哪里。然后进入互联网的下半场,就是称之为产业互联网,那产业互联网到底是什么?呃,这是一份来自腾讯研究院的一个对比,我个人呢相当认可的,就以呢是人的互联网,现在呢是物的互联网,然后以前呢是以主机为中心,现在呢是以数据为中心。以前的互联网呢,总想把持住传统行业的网络入口,然后想洗牌整个行业与传统行业对立,现在呢不一样,就要相互结合,产业互联网,工业互联网。
137:16
还是全能互联网也好,万物互联也好,5G也好,他们呢,都有一些千丝万缕的联系,然后最终呢,都应该指向同一个东西,应该就是下一代互联网。然后他们呢,还将面对比以往更加艰难的一些挑战啊,比如说人口红利的呃终结,流量红利的终结,然后这些都是客观事实,但我觉得啊,这并不代表着超常规高速增长的终结,因为谁也料不准。下一波的技术潮流大爆发究竟是什么?下一个巧克力是什么?然后本篇分享呢,就大胆的预测一下,下一波的网络将如何演化。然后在此之前呢,我们还是要站在前辈巨人的肩膀上,先总结一下,之前的互联网基础设施很成功,支撑了互联网的高速发展,然后我们看看它有什么好学习利用的,然后总结下来来看呢,其实OSI5层分层模型非常成功,很成功,现在都很少见到分层如此清晰的一些架构,然后TD pidp呢,大放异彩。
138:15
就与之齐名的FTP,像FTP文件传输控制都已经逐渐淡出了人们的视野。就是。因为什么呢?因为FTP能做的那些东西呢,IDP都可以做,而且还有丰富的一些健全安全,就现在你可能也没有见过哪个云厂商的对象存储,它是基于FTP协议去提供的,除非偶尔用一下,你可能都不记得FTP协议是在哪的。然后呢?呃,你还会发现像直播的这个兴起呢,其实也离不开IGDP的推波助澜,就之前呢?只有一些RGPRTSPRTP,然后那个时候的直播圈子挺小,然后后来有了IDPFRVHRS,还有代持协议,这些呢都是基于IDP作为承载分发的,然后呢,这样之后才。
139:06
更好的打通了进入互联网,呃,更好的进入了互联网的每一个角落。然后到现在为止呢,IP协议可谓是每个开发者都要了解的一个东西的存在。不过传统网络呢,也有一些问题,然后呃,比如说前几年就已经暴露出来的这个数据,呃,日益增长的数据量级全部存在云网上面,那肯定。呃,太太可怕了,然后呢,还有呃,分发效率第一这个指什么?就前面老师也讲过了,呃,RTRTC实时通信呢,都已经卷到100毫秒以内去竞争了,它的分发效率啊,是要求很高很高的,然后呢,还有一些什么用户数据主权意识的一些觉醒。然后接下来第二部分呢,我们就来探讨一下下一代的网络架构,它有一些哪些要求,在此之前呢,我们要先了解一下overlay到底是什么意思,Overlay,呃,熟悉网络的。
140:05
呃,同学呢,可能都知道,呃行业里面呢,把它翻译成覆盖网,那其实这个翻译是不太好的,然后行业里面还有一个,呃,更通用的,更接地气的一个词叫上层,上层网络我觉得更加合适,欧类就是上层网络对应于安德类底层网络,然后这样理解起来可能更加简单一些。呃,然后新型网络要求呢,首先是呃,更低廉,更高效,并且呢,更容易使用,至少不会太复杂。啊,这点可能是毋庸置疑的。啊,大家可能会疑问,现在使用网络服务不是?已经很廉价了吗?不是都免费上各种网络,免费使用网络服务吗?那其实这里指的这个成本啊,不是指这个,它是指To B的,比如说你家里买了一个家用摄像头,然后呢,你如果没有SD卡的话,你可能还会对它的云存储进行付费,每月九块九。
141:00
呃,我个人觉得这个可能还是有点贵的。然后呢,比如说再比如说你以前做一个公众号,做一个小程序,可能花不了几个钱,买一些基础设施就可以了,就可以运营起来了,但是你要再去做一个视频号呢。记得去年有一场第一场比较大的一个视频直播呀,达到了100万人的一个观看,然后主播呢,可能会为他有100万人的粉丝感到高兴,但是。如果,如果他要为这100万人的直播分发成本承担一些费用的话,那他就会感到压力很大了,因为这一百一百万人观看这个带宽成本是很高的。然后再以CDN为例啊,CDN,从CDN上面能看到很好的一些影子,就是万维网诞生之前呢,大家都要去,呃,直接去主机中心去访问,然后CN诞生之后呢,不光成本低,而且质量还挺好,而且还解决了谷官网的一些瓶颈,然后使用方式呢,基本上跟没有CD一样,就是就是还是大家还是通过IP协议使用一下ul,其实这就是一个很好的技术升级,该有的一个样子,然后下一代网络架构,我觉得应该也是这样的,就成本更低,资源利用率也更低,资源利用率更高,然后使用起来呢。
142:15
更容易,至少不会更复杂。然后第二个要求呢,就是要打破架构束缚,呃,什么意思呢,就截止到目前基本上所有的数字化。它都是经过云中转而产生的数字化。然后依赖呢,还是以数据库,消息队列啊,大数据啊这些技术来完成,也不知道大家有没有注意到。呃,现在见到最多的是什么呢?就是无论是文章、图片还是短视频,除了内容本身就是。点赞、收藏、评论三连,仿佛我们的数据世界就是这么多,然后然后呢,背后再加,顶多再加一个推荐。就是。就是大家不知道大家是否也会想就数据。
143:00
经过云中转就能够覆盖现实世界所有的场景吗?然后我们的世界其实应该很复杂。其实应该很复杂,靠关系数据其实能做的还是挺少的啊,受益比较好那就只有社交电商啊,内容传播,还有数据录入管理这些这些东西。所以呢,架构上一定要打破只能云中转的这种方式啊,比如说一些呃,工业互联网私有云,他们都不要求经过云的,然后打破之后,其实就很接近,现在大家都了解一个概念,叫区域中心化的。去中心化的,更加分布式的一个网络,然后它的挑战呢,可能有万物互联,然后呢,高可用的这些服务怎么去构建,然后异构的覆盖能力调度。然后呢,是结合5G5G这几年概念呃,特别火啊,速度快,低延迟,流量大流量,然下一代的,呃,信息技术革命知识,但也确实如此啊,但只有5G还是远远不够的,因为5G的一毫秒延迟,5G的大流量都是基于空口实言的,然后骨干网的传输,传输质量呢,一竟是改善不了的,那怎么办呢?
144:10
就5G肯定要搭配边缘计算。但是边缘服务器呢,又不可能部署到每一个5G基站都有一个5G的,都有一个边缘服务器,对吧,所以呢。所以呢,还是要依赖连接上的进一步的解放,就尽量让同一个武器站的设备啊,能够相互连接访问。提供就近服务,这个呢应该就是5G跟下一代互联网的架构的一个启示。呃。然后呢,就是。这可能才是5G的正确的使用方式。就近连接。呃。不过很遗憾,就现在呢,5G只有底层网络物理层的网络层支持了,然后软件上的应用框架呢却没有,所以呢,经常会有大佬出来感慨啊,5G其实运用范围很狭窄。然后呢,再说一下呃下一代网络的数据治理,就是右边这个图呢,是今年年初麻省理工评论评论的一个呃十大突破性技术,然后他其实是由Google的s lab做的一个数据信托,他是什么呢?就是他打算彻底解决呃个人数据被滥用的情况。
145:19
然后现在呢,你可能会发现个人数据很难说是属于你自己的,个人数据是被应用所产生的,然后是被应用所所属的公司存放在自己的数据中心里的,就虽然有一些法律约束,有大公司的保证不会滥用,但是也难保不会出现一些大数据杀熟这些情况,就谁知道这些大公司以后会不会忘记他不做恶的这些愿景呢?所以呢,未来的数据很可能不会存放在。公司的数据云,那个云数据中心了,而是托管在各种各样的。小的银行保险箱里或者社区性质的存储,呃,存储箱中。然后存储上呢,就做到了反垄断,数据上反垄断,然后安全上呢,呃,即便是数应用产生的数据,其主权呢,可能也不是属于应用本身,而是属于。
146:10
个人。而且分发访问速度呢,它要快要快,这跟之前的网络呃不呃,要求提的更会更高。呃,然后存储分发成本呢,要更低,其实说起来嗯,直播。这个形态就很有代表性。就就大家不妨回忆一下媒体内容,从文字,图片,视频,呃,都是存放在云上的,然后云绝对有。绝对的控制权,然后直到直播这个形态呢,才会突然发现语音没办法对直播有绝对的控制权了。呃,主播下线了就是下线了,云这边想要把内容续上不可能的。如果说云上,你如果说云可以录制,那其实录制已经不是直播了。所以呢,直播是一个很特殊的一个东西啊,它很可能是承上启下,开启下一个网络架构的一个很重要的一个东西。
147:05
然后呢,又再说一下高可用,就做应用这么多年呀,呃,高可用一直是一个很高频出现的一个词汇,是CP理论里面呢,最不容易被牺牲的一个东西,但回过头来,我们可能会去想想,也许我们被高考用这个词汇给绑架了,因为数据主权一旦回到了个人手里,个人怎么会像计算机一样随叫随到?像服务器一样可靠呢,所以呢,数据和服务我觉得应该分开看。服务要高,可用数据呢,就不一定了,就主人不在线,你连获取他的数据的机会都没有,这就像打电话。对方不在线,发短信对方没有回,一样自然,但是底层的网络服务呢?电话网络服务呢,永远都是高可用的。这个是肯定的。然后呢,最后讲一下腾讯云对上述思考的下一代欧瑞网络的一些探索落地。
148:01
首先。还是回到连接,然后这种连接呢,肯定是不再是经过云中转的那种连接,而是对等网络中的那种连接,腾讯的企业文化里也特别重视连接。他已经成功就腾讯已经成功连接的人与人,人与服务,然后下一步呢,将继续推动连接人与设备,设备与设备,就对应前面所说的物的互联网,然后依托腾讯多年来的技术积累啊,其实腾讯都从QQ开始就已经到就已经连接各种各样的直连了。然后我们已经能够做到任意两个节点之间很高的联通成功率,并且还打通了小程序的呃,小小程序平台的联联通性就即将发布的那个新的微信版本,而且呢,还能让节点自组织就近连接组网。然后服务网络呢,肯定离不开连接,先有连接才能通信。然后现在我们做的这套连接方式呢,我们把它看成将是下一代架构的总线级别的一个基础设施,是打破架构输出的一个关键,就是未来。
149:03
哎,不会是只有BSCS只允许浏览器访问服务器,允许客户端访问服务器,未来还可能允许客户端访问客户端,浏览器访问浏览器,这样来打破,然后它也可能是实现万物互联的一个根基。然后接下来是存储的。呃,名字呢,可能大家比较陌生,ICN,呃,CCNDCN,然后下一代的网络架构呢,是为了解决以云或者以主机为中心的网络架构的那些弊端的,还有哪些弊端呢?呃。就是日益增长的数据量低,分发效率不够快,然后用户数据主权这些问题,然后呢,下一代的。数据的组织方式呢,应该是以数据为中心的。也对于前面所说的。然后呢,其实数据都没有必要存放在呃一个数据中心了。那怎么搞呢?他把数据的行为呢,拆解成发布和订阅两个。
150:01
然后呢,它有以下几个步骤。首先呢,是发布者产生数据。产生数据,然后呢,并将数据存放在本地,或者存放在一个就近的一个数据托管中心里面,然后给它起一个名字,然后呢,并将名字和服务和数据存放的位置注册到网络,至于怎么注册的,呃,方式也有很多,但但都会,但但是会跟现在的传统的那些方式很不一样。然后订阅者呢,知道这个名字,然后通过某种查询或者路由算法找到数据在哪里。然后为了提高分发效率呢,应该是越热的数据访问越多的数据呢,它在整个网络的那些节点越多,呃,副本数越多,然后呢,呃,所以呢,回程链路会对这些数据进行酌情的缓存,越多的数据它的副本越多。然后再依赖一些安全的呃能力,依赖于权限系统做好安全访问这种特这这种特性的存储架构呢,比数据下沉还要更进一步。其实。
151:06
其实它呢,本质上可能还是一种分布式的存储,分布式的一个文件系统,不过不同于HDFS,这种HDFS是只允许。处于ID机房的一些机器参与分布式的一个存储,我们这种呢,我们我们内部把它叫成叉DFS,它是允许所有的。节点设备都来参与。存处。然后我们已经有了很好的一个基础版的一个实现IDFS,然后未来呢也会逐渐完善,然后呢,希望能拓展到更多的一些领域。然后呢,再看计算就有了总线和存储呢,连接跟数据的问题都已经解决了,那剩下的呢,就是最核心的一个计算了,其实除了云计算,还有很多其他计算呀,比如说天空计算,边缘计算,雾计算。监控计算是什么呢?就是把所有的云都管理起来,他们统一起来都是商家云。
152:02
然后呢,提供统一的云云服务接口层,然后对客户而言呢,这些云就像电话网一样。然后呢,这些客户就能够轻松的切换AWS啊,腾讯云这些各种云,对客户员就像换个电话卡一样,换个手机号一样那么简单。然后站在云厂商的角度而言呢,这其实看起来有点像那种什么云团控啊,通过云比价决定使用哪哪朵云。然后边缘计算,物计算呢,就是把云以下,地面以上的所有设备呢,都参与进来,然后扩展参与节点,与之相对的呢,只有云IDC机房才参与计算。比如说,比如说某一个闲置的摄像头,它在闲置的时候呢,它还可以干一些事情,然后它的节点数量,计算能力都是远超云IDC机房的,而且更加啊不稳定,但是成本更加廉价,然后以分制分摊的这种思想去考虑,它把一些任务啊分解成小任务,比如说map reduce。
153:01
或者通过共享计算的这种思想啊,把他们把这些广阔的计算能力都利用起来。那其实想象空间很大,能干的事情很多,而且呢,也符合成本更低点。然后呢,上述呢,就讲述了网络存储计算上的三大落地实践。但是。终究离不开呃,云为基础,云为基础,然后为此呢,腾讯云推出了rt one3网合一,然后融实时音视频通信网络,即时通信网络,流媒体分发网络三网一体,然后这些呢,就目前来看,其实。呃,已经已经沦为很基础的一些能力,基本上所有的应用都需要这些东西,基上做个应用都离不开啊,跟你的其他的用户聊聊天,点点赞。之类的。然后一来呢,是为了方便开发,丰富现代的一些应用,二来呢,也为下一代的网络架构奠定坚实的基础,因为云的网络是是下一代网络的。
154:04
呃。最终的依赖就是他要兜底呀,他要做高可用的,下一代网络不稳定的,然后都可以跑到云上来兜底。然后呢,我们再来呃,看一下程序的一个演进,就第一代的程序呢,就是算法加数据结构,第二代的程序呢,给他加了个UI,加了个UIGUUI人机交互界面,然后第三代呢,就是UI变成了。呃,UI跟程序第二代程序分离了,变成了前端跟后端,浏览器变成了UI,然后APP也变了UI,然后呢。呃,数据呢跟算法呢,基本上都在后台,然后第四代呢。嗯,可能是。客户端跟服务端又融为一体了。这就像本来你想要。本来你也想要成为商家提供服务,然后呢,本来只能在数据中心才能这样做的,那现在呢,所有的个体户都可以成为商家来提供服务了,就彻底解放了个体客户端干嘛的生产力。
155:07
然后再看一下,我们再回忆一下云计算刚刚诞生的时候啊,很多人都不知道云计算是什么。以为做一个网盘,做一个程序托管就是云了,然后直到亚马逊重新呃定义了云。重新重新重新定义了云云计算,然后下一代网络架构呢,可能也是如此。就是好像好像把这些广阔的节点都加入进来,然后做一个内容辅助分发,就是下一代了,但是细一想,嗯,好像又差了点什么,差了很多对吧,然后再看云计算呢,它。靠的呢,主要是虚拟化技术,虚拟化技术,虚拟化四层以下的网络虚拟化系统,为什么?因为他有权限呀,他后台服务器随便他搞,随便他升级呀,然后到下一代网络呢,你要把所有节点都拉进来,你再想靠,再想走虚拟化那套思路,可能就不行了。
156:00
因为没有权限,然后取而代之的呢,可能就是统一应用层协议,也就是我刚我之前所说的IB的一个协议,IP协议真的挺伟大。然后呢,呃,这也是本片分享之所以强调欧类的一个地方,因为underline我们呃控制不了,是属于运营商去升级,呃升级升升级换代改换设备的,然后呢,其实运营商也没有这个动力去把自己的设备,呃,自己的设备去升级。然后综上所述所聊呢,我们就得到一个十分可能是下一代网络架构的一个架构,它也是分层清晰的,然后也没有打破底层的网络一些基础,然后只是添加了一层,添加了一层让所有的连接都能够成功的,而且是在用户再添加一层,不是在底层,因为底层就控制不了了,然后上层协议呢,依然是IP的一个协议的接口。然后在此之上呢,我们再去支撑各类的其他应用场景,然后比如说呃,内容分发已经覆盖了直播跟点播的一个内容分发,然后呢,物联网的,呃,物联网,物联网领域的万物互联,然后包括后面的还有很多的其他应用场景,我们都会去支撑,然后我们呃希望呢,这样一个新型架构能够扣开下一代网络架构这个大门,因为现在像4G,像物联网,像5G,像5G物联网,万物互联已经提出很多年了,但是依然没有一个杀手锏那个应用出来。
157:26
估计也缺乏一个软件框架,然后我们希望我们这个能够加速一下它的到来。呃,然后请敬请大家期待,然后我的演讲到这里也就结束了,谢谢大家聆听。嗯,感谢张鹏老师的一个精彩分享,那接下来也进入到这个QA环节,然后我们也是有精美礼品送上,然后我们预计有两位的这个幸运的朋友,有哪位要提问吗?然后我就在想嘛,呃,它它本身这个就是链路上这个通信的协议的话,它是不是就是在物理层这一块,然后说应用层上面,比如说是呃做做一些改变的话,是需要吗。
158:09
比如说目前的HTTP协议啊,或者说那些什么,呃,邮件协议啊,他们也需要对5G去做一些适应嘛,才能够充分发挥5G的性能吗?是不是?嗯,我个人觉得不是啊,那其他的一些协议应该不用变,应该不用变,然后5G呢,提供的那些能力,你把上层型也改了,很多应用形态都会变,那这个代价太大了,5G它带来的其实是一个对我们新型网络架构带来的是一个思想上的一个改革,就是还要就近访问,还要就近访问,你不就近访问,通过5G连接到基站,然后再回到云中心,然后再回来,其实已经。已经把5G给浪费了。所以呢,5G它首先要就近访问,然后我们这个新型框架呢,就是达到一个就近访问之后,达到一个网络的一个之后,上能协议依然没有变,我们是希望这样一种形态来。
159:03
使用5G的,5G的一个优势。对对对对,所以要打破很多的一个束缚嘛,就你没有必要都还是CSBS这种架构。谢谢张老师,是刚刚我在听到您演讲的过程中有一个问题,您说嗯,在未来的时候,关于用户的信息,就是目前是存在于各个公司的中心,说将来的话可能会存在于社区中心,或者是其他的一些,呃,相当于是数据管理的中心,然后您还提到说可能会通过用户来允许访问或下载这个数据,才能够将这个数据分发和下载,那我在想。我在想啊,抱歉啊,张老师,我可能对这方技术方面不是了解特别了解,了解的太多,可能会也有点那个天马行空,如果有有说的不太到位的地方,你你请包容啊,我就在想,假如是按你这样说的话,那他肯定要先经历一个像现在这个阶段,先把数据上传,然后还要。
160:09
比现在再多了一个步骤,就是说我要先经过用户本人的同意,再去获得和分享这个数据,这显而易见就会比现在要多一到两个步骤,那在时间上。会会不会说这个速度就会变慢。嗯嗯,其实它不是多一个步骤,它很可能是少一个步骤,你刚刚一开始说的数据要上传没必要啊,数据就保存在你本地,或者保存在你的小区里的一个托管的一个服务器里,因为之前我已经讲了嘛,连接已经打破束缚了。他不是说所有人都要经过服务器就去才能联系到你,而是直接就联系到你了,他就像举个例子啊,嗯,像做一个病例对吧,你的病例没有必要存放到服务器上的,你要要求把病例放到服务器上,很多医院很多我们自己都不愿意了,有这么敏感的一些数据,那怎么办呢?就是。
161:07
你去看病了,你上线了,然后医生可以直接连到你的手机里,访问那份病历。它是少了很多步骤的,所以能够更快的,你不上线,所有人都访问不到,对吧,数据根本就没法保障,他就这样子的,然后像那些应用公司呢,他去获取这份数据呢,呃,他也是这样的,他可能需要争取你们的授权,或者你们自愿的让他可以访问,他没必要获取所有用户的这些数据,他只获他有他,他只可能获取到一部分数据的,这些用户拿来自己做分析就已经足够了,其实已经足够了。哦,好像明白行,谢谢张老师,我感谢张鹏老师的精彩解答。智能语音技术是人工智能核心的基础技术之一,随着信息技术的发展,智能语音技术已经成为人们信息获取和沟通最便捷、最有效的手段,被广泛用于智能家居、医疗保健、语音支付等各大场景。那么智能语音技术在新居住领域是如何应用的呢?下面有请贝壳找房语音技术负责人邹伟老师为大家带来详细解读,有请邹伟老师上台。
162:21
好,谢谢主持人,大家下午好,现在这个时候确实是一个比较困的时候啊,我讲的内容也有可能会比较乏味吧,就看争取让大家没那么困。对,我叫周伟,然后是来自于贝壳找房,现在是负责整个语音技术,对,今天和大家分享的内容是智能语音技术在新居住领域的一个应用。得先介绍一下自己吧,对,我是毕业于北京大学言语听觉研究中心,对,然后当时是在做语音识别啊,语音合成等算法的研究工作,然后毕业以后去过滴滴还有百度之类的公司,对。
163:11
好,接下来就是这次分享的一个内容,嗯,内容可能包括三个部分,第一个会给大家介绍一下智能语音技术,然后第二个会看一看当前在整个工业界它的一个应用现状。最后和大家分享一下在新居住领域的一些比较重要的一些应用。我们可以先看一下智能语音技术,对,智能语音技术其实是我们现在说的人工智能中的呃,核心技术之一。当前做的比较多,或者是核心技术,可能大家都都基本上现可能都见过,比如说智能语音,然后我们的机器视觉,还有自然语言处理。然后这是一个,嗯,2019年整个在这三类或者这几类基础的人工智能技术里面,智能语音技术它的一个市场份额的,对,在一九年的时候,我看到黄色的那个那部分是呃,智能语音技术的一个占比,差不多占了22%左右,对会比哦,商业化用的比较好的一些,视觉会差一点,但其实。
164:27
已经是一个比较成熟的一个状态。对,然后这个整个市场的话是,嗯,就是一个eo智库,他们的一个预测,也有之前的一些统计,然后从一七年开始,其实在之前智能语音技术可能商业化用的不太多,然后尤其在一六年以后,或者一五年以后。哎,你好。OK。
165:01
然后对16年五年以后就是商业化会做的比较好,然后预计的话,到2023年可能会达到500亿这样一个市场吧,对。然后在这也给大家做一个那个智能语音这个技术的一个定义,定义可能不会不是特别准确,但他也也说从这定义里面能说明哦,这个技术它主要用来干什么,同时它可以利用到一些什么样的信息或者技术。对,智能语音技术,它是以一类,嗯,以语音信号,就是我们的音音频数据为基础,然后我们搭配我们的资源处理,还有我们一些对话的管理啊的一些技术,然后将我们的语音,然后进行提取分析,然后最后可能会通过语音的方式或者文本的方式,然后完成整个响应的一个人机的语言的交互技术,对这个这句话比较长,对。它也说明了大部分的,或者说我们一个全链路的语音,智能语音的一个过程,第一个我们会有一个比较好的一个采集音频的呃模块吧,然后这个时候我们要对采集的音频,然后做一些机器学习,然后同时如果我们把它转换文字以后,我们是不是要要做一些自然语言处理,然后把这些信息,然后经过提取分析。
166:27
理解以后,我们最后还要和人或者机器进行交互,就会有这样一个过程,那技术层面上的话,它可能会包括语音上面的一些信号处理,然后语音识别,还有声闻,然后这样一些处理,然后对话系统,对话管理,然后云合成等技术。然后这儿给大家分享一下,就是我们智能语音的一个发展的一个阶段,这个阶段可能不是特别准确,但是也也可能是,嗯,也可能我们可以分段看看它在不同的时候,不同年代,到到底主要是关注做了一些什么事情啊,其实智能语音技术,嗯,做的时间已经非常长了,在上就是可能比1952年之前还要早很多,但是在1952年的时候,其实是有一些比较,当时那个阶段可能是比较成熟的。
167:18
的一些技术吧,或者最后也是一些应用,比如说当时可能我们做那时候会做特定人的就是。一定是那个录音的那个人,然后的一些孤立词的语音识别,然后那个时候可能大家会用比较一些简单的偏信号处理的一些。模板匹配的方法,然后到了呃,上个世纪。啊,80年代左右,那个时候可能呃,尤其是尤其是我们的基于统计的技术学习的一个发展,那个时候我们可能更多的是做呃,基于概率统计的建模,那时候可嗯,我们语音语音识别之类的就已经进入到大词汇量的一个连续语识别,对,然后到了一一年以后,那个时候可能会是一个大的突破,那个时候深度学习啊,深度学习应用到我们语音技术,尤其是运用到语音识别整体的。
168:15
语音识别的精度有大幅度的提升,这个时候也促进了我们后面到1016年以后啊,大量的一些智能云技术的一些产品或者应用的落地,可能后面就是我们现在用的比较多的,比如说手机上的语音助手,还有一些智能音箱等等应用相距落地吧,在一六年。对,然后当前的话,其实语音技术,嗯,已经是在我们的生活或者是工业界中已经是广泛的应用,对,然后。比如说我们的一些智能客服,大家现在经常能能接收到各种外呼电话,对吧,然后智能家居,我们的那些音智能音箱,还有智能电视,还有一些it设备,比如说智能手表之类的视频直播,就是各个各个场景下面都能用到我们的一些的智能语音的应用。
169:14
然后智能语音的应用,其实可能当前整个市场上可以分为两大类吧,第一类是我们消费级的一个市场,就TOC的,就是我们这种一般的用户能用到的,呃,智能语音的一个应用或产品,这里面的这个这个TOC的一个市场,可能更多的是去满足个人的日常生活,包括我们的呃,正常的家居生活,或者是我们办公,我们教育等。对,还有自动驾驶,然后比如说我们智慧生活手机助手,比如说苹果上面Siri,还有现在基本上所有的这个手机都,它都会有自己的所谓的一个语音助手存在,还有你很多我们的智能的穿戴设备。然后对,另外是智能家居,智能家居这个就现在可能智能音箱啊,它会智能家电也比较流行,然后智能办公,比如语音输入法,然后智能驾驶,就是我们现在的也是一些。
170:16
啊,新兴的那个新能源车啊之类的,它都会有一些啊,所谓的车载的语音交互系统。或者是我们的啊,平时用的比较多的导航。啊,另外一个市场可能就是企业级市场,这个企业级市场更多的是明,可能是更偏向于特定企业的,它的特定场景的一个服务,比如说我们的智慧医疗,智慧教育,还有智慧的一些金融电商啊,还有电信可能产品,包括我们什么智慧课堂,就是偏教育型,还是还有我们的智能客服,还有偏还有我们质检审核或者是风控之类的,对。
171:01
嗯,另外就是接下来可能跟大家分享一下,嗯,在新居住这个领域,就是家居这个环境,或者是或者是在新技术服务这个行业中的一些典型的一些语音智能语音的应用吧,第一个是智能家居。对,嗯,对,比如我们的家里面可能会有智能音箱,然后手扫地机器人,扫地机器人,现在可能有些产品他都是可以跟他进行语音交互的,对,然后智能中控,然后还有智能电视啊,这些都是我们家居环境中可能常见的一些智能产品吧,然后就是要支撑这些智能产品,我们会有一个叫做语音全链路的一个概念,就是就它这样一个一个概念,就是这些智能产品,一些智能硬件,它会先要嗯一个声音采集,声音采集的设备,比如说我们智能箱和一些麦克风阵列,对吧,这样的我们也能采集到音频。
172:04
然后在这音频上面会做一些云信号处理,然后导致我们会支持云唤醒,比如说Siri啊之类的,然后后面,然后唤醒以后,我们会做语音识别,就是就能理解到他说,知道他说了什么内容,然然后通过语音理解,我们就能理解到他到底有什么样的请求,比如说是请问天气或者是之类的。对,然后后面会通过我们对话管理,然后和和用户进行交互啊,最后的话会我们通过语音的方式,就语音语音合成,通过语音的方式和用户交流,对,就会有这样一个全链路的一个概念,对,然后。这个智能家居这个行业,其实整个行业行业现在还是在发展,然后这个也是一个一个他们的一个估计吧,然后在202年20年的时候,其实中中国的整个智能家居的市场基本上都已经突破2400多亿了,然后其中。
173:08
全球的一个智能化的市场的平均渗透率超过60%,就右边那个图就是现在的大部分,尤其在智能电视上面,可能现在大部分电视都是都是智能化的电视上面,可能都是可以通过智能语音来进行一些操控啊的一些交互的一些能力。对。对,然后这跟他家举一个例子,这个可能就是更偏技术点了,就是我们如如果要做一个所谓的智能支持智能语音交互的智能家居场景的这样一套全链路的能力,它可能涉及到哪些部分,对比如说左上角这一部分是我用户,我们会有一个唤线池,我讲你你好什么什么,然后会问他,诶今天天气怎么样,对,然后这个时候我们会有前面的一个硬件部分,就是我们一个语音频的一个数据采集的一部分,对这个这个基本上就在我们自己的那个硬件设备上面的设备端,然后这设备端我们会具有一些算法的能力,比如我们会有语音信号处理啊,语音唤醒的能力,然后以些DD是我们一些,比如说静音检测是看用户是不是已经说完了,或者是有发音,然后这些能力我们。
174:21
截取到的用户的请求的,呃,语音的数据流,我们会传到那个。传到那个服务端,这就是服务器端,就是我们上面可能会做一些语音识别,然后对话管理,然后家言理解等等,然后这些处理完以后,我们会下下发到我们支持的设备,比如说支持,然后这个控制设备做一些呃,相应的一些控制或者回回复吧,比如说他只是问一个天气,我们直接就是中控控制我们的语音合成的能力,然后就通过扬声器,就比如说北京今天停温度。
175:02
25到30度,那可能有另外一些,他不是说是直接是和用户,他是交流,他可能是一些控制,比如说他是要控制家里面的,嗯。灯的开关对吧,他可以说诶你好什么什么,然后请把家里的灯关掉,最后他的一个通这样一个全流程的结果,以后他是把家里面的那个灯关掉了,对,他会是这样一个整体的一个流程。然后另外一个可能是在新居住领域还是用的比较多,或者是一个比较重要的。应用场景嘛,这个在整个语音的应用场景,整个工业界语音的一个一个市场里面都是一个比较大的一个,呃,一个应用可能是智能客服。对智能客服我的理解,它的核心目标可能是在于去降本提效,因为这个可能更多的是做对企业来说的,他是做那个企业级的,对江本就是通过这样智能化的一些。
176:05
一些能力,然后去降低整个企业的运营成本,然后提升服务的效率或者运营的效率,对在这里在智能客服下面其实有很多不同类别的工作或者应用,比如说智能外呼,对现在我们可能说经常能能收到各种打来的电话,然后其实后面可能都不是人,可能都是通过这样的一套整个智能化的一套系统,就说对,然后另外一个智能机器人。对,智能机器人就是我们通过文字或语音的方式,然后直接和后面的机器人进行在线的一些咨询交流,或者业务的一些办理,然后另外是智能IVR,智能IVR的话就是我们可以为那个呼入的用户提供自主的一些咨询问答或者是业务,但这个一般呼入的那个入口都是通过电话。对,然后还有智能热线辅助,就是我们去辅帮助人工客服在服务我们的用户的时候,给他提供各种各样的辅助,那另外可能是偏向于整个质检或者审核。
177:14
对,下面可能给他可看一下一个这个智能客服,它一个整个的一个所谓的技术架构,它这个可能分几层,第一个来说要做智能客服,或者是要一个。啊,支持啊,语音语智能语音能力的那个智能客服,可能下面会有一层比较好的一套一套客服系统,对然后这里面可能有自己的一些客服系统,然后订单系统对各种系统,然后这里面然后同时要有能获取到各种类型的数据,比如说是呃,用户的一些数据,行为的一些数据,还有平台的一些数据,还有我们这些客服人员的一些数据,对然后同时。
178:00
基于这些数据,还有还有在客服流程中的,我们获取的音频音频信号,然后嗯,再基于我们的整整套的智能语音的能力,然后然后可以应用到上面的一些应用场景,就是刚才我说的那那五类大的一些应用场景。然后对,然后智能客服这个这个这个场景,其实在整个智能语音这个应用里面,就是已经做了很多年。对,但其实现在做的做的做的那个做的厂商,或者是嗯嗯,应用其实还蛮广的,但是还没有达到一个一个已经饱和的一个状态,其实后面还是有比较大的一个潜在的一个增量的一个空间,对,然后这也是个预测吧,预计在未来的时候还能释放到释放一个300到600亿的一个潜在的增量,那后面可能增量主要是来自于后面。后面我们可以做一些所谓的智能的终端,一些设备,然后还有很多企业他要做一些所谓的一些智能化的一个转型。
179:10
我们给大家举两个例子,就是讲智能客服里面的,他他的启动的一些能力,他怎么怎么来做的,或者他要解决什么样的问题,这这里面有一个叫IVR,对IR,可能是有些同学他不太了解,他叫做互动式语音应答,对它是用户可以使用电话接入服务中心,根据语音提示进行操作,实现互动式的语音服务,对但其实大家可能这个接触的非常多,比如说我们以前对吧,呃,中国移动的,然后你要去去打个热线,10086,然后要去查个种东西,他会让你去,诶你你想查话费话,话费拨一对吧,然后选择另外的拨二,就这样的方式,然后最后。跟你聊了很久以后,然后说,诶不按哪个键可以进入人工,对,你要等很久可能然后才能进入人工,对就这样一个方式。
180:06
对,这是一个传统的一个AR的一个流程,对,然后可能另外智能啊,就是在我们通过整个。智能化技术来把这个AR技术做一个优化,或者或者是提升他的一个实名是我们当用户,我们以后用户在用的时候,拨打我们在线客服的时候,就不太需要直接说按照以前的已经设定好的选项,然后进行拨号,而是说你直接可以去。描述或者是去咨询你的问题,对,然后通过我们后面的智能化系统能。有效的理解你的问题,同时更多的是通过自助,自助去解决的方式来解决这样的问题,对他的可能目标是我们去降低人工的成本,然后同时提升呃用户和整个客服系统它的一个效率,比如说我们用户可以快速的去找到自己的自的答案,或者是解决自己的问题。
181:10
对,然后同时降低去转人工的一个转人工率,对,然后它最大一个一个变化是在中间这部分是我们用户。热线接入以后,对我们用户就直接去和我们整个后面的一套系统模型去去描述,诶比如说我说我要去查一下我上个月的话话费,然后然后整个系统他的他因为他知道知道用户之前的一些历史信息嘛,他对自己对用户他有一个识别的模型,和之前的他一些画像,对,然后他就能快速的去去理解用户的意图,那同时然后通过智能应答的方式就可以自主解决对。对,另外一个可能大家现在用的比较多的是叫做智能机器人,对在这个在这个在很多场景下呢,可能都都需要对他一个他的一个一个核心的一个目标或者用法,是我们针对不同的用户吧,他他对他有各种不一样的一些问题或者需求,它可以通过语音或者文字的方式和和我们整个系统进行交互式的式的一个交互。
182:23
啊,他们整个系统能快速的去定位用户的问题,然后同时提供嗯,精准的高质能高质量的一个问答的服务,对它整个流程可能是用户我们通过语音或者文本的方式和整个机器人进行交互,如果是语音的话话,我们会前面会有一个语音识别,把语音或转换文字,对,然后处理好了,处理好的文本我们会进行一些处理,比如说分词啊,执行标注啊,对,然后后面就会基于,然后进行我们的所谓的语音理解,我们就能基本上能明白用户他到底是什么样的一个诉求,然后在这些在明白的基础上,我们通过检索,然后能快速的得到那个用户的一些答案,答案的方式,同时我们也可以通过文本或者是语音的方式和用户进行一个交流。对。
183:17
下面就是回顾一下今天给大家分享的内容吧,今天可能因为时间时间比较少,然后可能都讲的不是特别特别深入,对,那可能分享了有那个我们的智能语音技术,它的一个。呃,市场当当前市场怎么样,它是怎么样一个定义,然后它的一个发展一个历程吧,另外是和大家介绍了一下智能语音技术,它的一个现在的一个现状,就是应用的一个现状,然后还有是在消费级上面的一些应用,还有是在企业级To B上面的一些应用,另外是给大家举了两个例子,就是在新技术领域中可能用的比较多的是。
184:03
比如智能家居和智能服务这两个云技术的一个应用,嗯。哦对,今天内容就这样,谢谢大家。感谢这个周伟老师的分享,那接下来进入到我们的问答环节,然后有哪位用户来想提问?嗯。嗯,周老师你好啊,我想问一个问题啊,就是说我据我们同学介绍,他说他这个声音他们分析情感做的比较深入了,我也想问问他们能不能能够通过声音,不通过那个面部表情或者手势之类的,就能够判断人家说的真假话,能做到什么程度。呃,其实是应该是可以的,对,这其实是应该是可以的,因为在在在声音里面,其实一个人的声音里面,它可能包括两类信息,第一个是语言信息,就是我们说了什么,第二个叫副语言信息,副语言信息可能有很多类了,比如说比如说我的情感情绪,对,还有其实你那种其实是在情绪中,可以说是一种特定的一些不正常的情绪,或者是这些潜在的一些信息,它其实是可以识别的,对,是可以的,但这个可能有比较大的问题,就是现在的很多我们做语音或智能语音技术,它都是一个数据驱动的。
185:31
就是数据呢,是基于数据我然后进行大规模的一个训练,它通过概率来做的,对就是它需要很多这类型的一些标注的,或者是历史数据,对就是可能就是您刚才提的那个的话,它有个比较大的依赖,就是这样的数据可能很难去去去构造。对。你好的,我想提问一个问题,就是说因为现在这个,呃,就已经这一块,就是好多人,比如说这个智能机器人什么的,就是说我们来提问他之后,他都会有一个预预的。
186:03
说他的知识库或者语料库来根据这个来做相应的回答,搜索回答匹配上就回答,然后我想问的就是说现在这个语料库,就是说是在有没有在线更新的这么一个技术,就是说这一块这个现状。就是说他,呃,除了比如说我第一次问的是这个问题,他语料库里面没有,他会。和相应的自我分析。这块现状认识。呃,对,我我其实可能我我先先先先先先问一下你的问题啊,我有可能没太理解,对你你想说的是,呃,整个在就是像那个智能机器人一样,对吧,他在回答的时候,他可能之前只支持的一些能力可能是有限的,对吧,然后但是通过我们俩经常去交互以后,其实他可以是不是能够去能去扩展更多的能力,或者是能支撑以前他不。
187:01
不支不支称等来不会嘛,是这个是吗。自我更新,这有的技术有有有有有对,这也是,这也是其中可能是在做这些技术里面,后面的它会有一些一些这个叫做比如说我们,嗯一些词之前没见过,我们会后面也会有一些所谓的新词的一些发现,或者是一些迭代啊,同时像像你说的那个能力上面的,其实能力上面的就是在后面的这个能力上面的,有些是需要去人去构建的。对,其实人去构建的,比如说一些知识库啊之类的啊,去后面一些人去构建的,它会慢慢慢慢的变多,对,但是如果说是针对个人对吧,就是各个用个人用户这个也是可以的,也可以这样做的,对。老师好。就是想问一下您对于方言问题有没有什么比较好的处理方法呀?嗯。嗯,对方言问对蛮好的,这个问题非常好,方言问题确实是在现在做整个语音技术或者整个应用的时候,一个潜在比较有挑战的问题,对方言的问题,他最大的一个问题可能就是因为他的他的数据资源比较比较稀缺,对像普通话就是基本上没有资源的问题,对可能现在做方言的话,可能大家做的比较多,另外是想去借用,呃普通话或者是另外的方言一起来提升它,比如说是做联合建模。
188:28
对,然后做一些迁移,或者是我们在模型城市上面,比如做一些呃无监督或自监督,然后或者是一些半监督的工作来做一些提升,可能会效果会有立竿见影的方法,但整个来说,方言还是最大一个问题,还是因为它整个数据它稀缺性太太太高。对这个问题解解决不了的话,他有一个特别大的一个质的提升,我觉得难度还是蛮大的。好的,谢谢老师,还有一个就是,呃,现在就是一般在进行处理的时候,全都是把那个音给转化成文字,然后再进行。
189:07
自然语言的处理和见吗?就是有没有可能就是直接就进行语音的那个处理,哦对,有的有的有的有的对这个确确实是因为,因为整个来说,我们口语理解其实就是一个端端的任务嘛,我觉得说了以后,你应该就马上能理解我最后说的意图是什么样的,现在也有蛮多这样研究的,但是他有一个问题,就是它整个复杂度非常高。对,所以说现在我们都用pipeline的方式,就是先把它转换为文字,就是先把它当做前面是语音识别的任务转换文字,然后在后面文字到一个理解一个的任务,这样的话,其实整体来说它的复杂度,难度,各个小任务的难度没那么高,对,但是这个确实是因为整个它的拍peline,它有一个信息一个丢失,同时还有一个错误累积的问题。对,然后另外刚才你说的那个确实是一个现在研究比较热的一个方向,那现在应用的可能会稍微会少一点,可能有可能过几年他就比较成熟,可能感谢邹伟老师的精彩那个回答,那我们接下来要进入到我们的茶歇的时间,那茶歇的时候我们也在场外给大家准备了丰富的茶点,大家可以一步到外场外来去响应,那同时大家也可以关注一下我们的腾讯,腾讯云培训认证中心,腾讯安全企业服务的两个公众号,然后同时也可以扫码进入到我们今天现场活动的交流群,然后我们也会有这个调查问卷,然后也请大家可以扫码填交调查问卷,在活动结束之后,然后来去领取我们的专属礼品,那查歇时间是15分钟,那查歇过后,还有关于音视频与AI技术结合的一些精彩内容分享,也请大家不要错过。
190:45
开启全真互联新时代,大家回来,然后我们接下来还有两场的这个精彩的内容分享。致编了深入的优化,接下来有请腾讯云高级研发工程师刘兆瑞老师带来腾讯名谋技术优化之路的主题分享,有请刘兆瑞老师上台。
191:25
好呃,大家下午好,呃,首先还是很高兴今天有机会能来这里跟大家分享一下,那我们腾讯视频云的基于AI的一个明谋技术,那我们在一些视频处理上所做的一些工作,那我在视频云呢,主要负责的工作一个是编码内核的优化,还有一个就是我们基于AI的一些画质重振,画质修复的技术,在来进行一个实践的落地,那也希望我们今天在分享的过程中,我们的这些AI技术在实践落地中所遇到的一些问题和痛点。能够给大家带来一些帮助吧,那今天分享内容主要分为几个大块吧,第一块是有一个行业的趋势啊,主要是从我们腾讯视频云来说,那我们作为一个To B的厂商,对接了很多视频行业的客户,来给大家阐述一下在我们的理解上,那目前视频行业的客户在这些视频处理上他们的痛点,那他们的一个诉求是什么?
192:23
啊,第二个方面呢,也就是呃,我们基于目前一个行业的趋势,那我们推出了一个腾讯名模的解决方案,那具体我们名模的解决方案中间是由哪些东西构成的,那究竟是做什么,能够帮给大家带来一个什么样的帮助,解决什么样的问题。啊,那第三个部分就是说我们腾讯名模的一个极速高清技术,那我们极速高清技术,那主打的是一个给大家提供一个非常极致的视频压缩,那这里跟大家分享一下,那我们整个的一个极速高清每个阶段的迭代过程中,我们所考虑的一些问题是什么?啊,那第四部分呢,就是我们一个画质修复的技术啊,画质修复呢,也是我们腾讯名模的另外一项能力,呃,这里也是跟大家分享一下,那我们再把一些复杂的AI的模型啊,在一些落地的过程中啊,包括一些稳定性的调优上,那我们所考虑的一些问题有哪些?最后一个就是如果说大家想要去试用,怎么样的去快速的一个接入和体验。
193:23
呃,首先呢,从行业的趋势来看吧,那从我们这边看,我们觉得呃,行业上有两个主要的大的一个趋势,第一个呢,就是说随着现在大家的显示器的分辨率越来越高,包括手机的分辨率也越来越高,同时呢,电视也越来越大,那大家其实对于超高清视频的一个诉求,诉求是越来越高的。但是呢,其实我们从生产端来看,那视频的制作和生产端基本上最高的分辨率还是在1080P的这个分辨率上,那对于一些大屏电视来说,它其实是已经可以比较好的展示4K的一个分辨率视频了,但是并没有这么多的一个视频源。
194:01
尤其是对于广电行业来说,嗯,他们急需一些AI的技术,能够把我们原来一些不够清晰或者说不是超高清的视频,那我们可以把它做到4K或者更高的分辨率,同时呢,它也真正达到了一个4K的清晰度。啊,第二个行业呢,可能就是对于广大的一个互联网的企业来说,那对于互联网的一个企业来说,那随着最近的视频行业也是飞速发展啊,无论是说我们的一个直播,还是我们的短视频,那最近其实都是一个突飞猛进的一个发展的情况,那对于互联网行业来说呢,那他所面临的一个问题就是,呃。啊,他所面临的一个问题就是,呃,我们的。呃呃,他所面临一个问题,就是说我我们呃行业的快速发展,同时带来我们一个带宽和存储成本的一个飞速的增加,那我们这些带宽存储成本的一个增加,那对于一些互联网的行业客户来说呢,其实是有一定的一个经营的压力在的啊,同时呢说,如果说对于互联网行业客户来说,他们播放视频也非常关注的是我们播放一个流畅性啊,我们是否有卡顿,我们的手帧怎么是怎么样的,如果说我们能够提供一个保证食品源的清晰素,同时一个极致压缩的一个产品,那对客户来说,在降低带宽成本的同时呢,也能够提供一个非常好一个更加流畅的官方体验。
195:24
那再一个就是从未来来说吧,未来来说的话,那未来大家关注的一个热点呢,就是元宇宙和VR,那无论是做元宇宙还是VR,那中间一个核心的痛点问题就是说,呃,大分辨率大码率的视频呢,如何进行一个传输,那我们如果可以通过压缩的技术,可以提供一个保证清晰度的同时一个低码率也是一个未来的发展方向。对,也是针对于之前说的那几个目前的行业趋势吧,那我们推出了一个我们腾讯名模的整体的一个视频云的AI处理的品牌。
196:00
那我们主要的内部产品其实分为三个部分,第一个是极速高清,那极速高清呢,主打的就是一个极致的压缩,第二个呢,是我们的画质重生,那画质重生主打的就是说我们对于一些呃,比如说1080P,或者是标清的一些视频,那我们通过一些AI的技术,能把它超分到一个高清,或者是4K的更高的清晰度。对,那除当然我们腾讯名模主打的视频嘛,但是音视频毕竟是不分家,所以我们腾讯名模其实也和我们腾讯内部的很多实验室进行了一些深入的合作,在音频的上,那我们的视频处理呢,也集成了我们腾讯天籁实验室的一些音频处理的能力,那在视频处理的同时呢,也可以给大家提供一些音频的降噪,音频的一些去混响等等一些音频处理的,呃,比较公司内部最好的一些能力。对,那这里呢,就是我们整个腾讯名楼进行视频处理的一个papeline的一个框架,那通过这套,呃,我们无论是我们的极速高清呢,还是我们的画质修复,其实都是在这套框架下来进行一个处理的,那可以看到那我们腾讯明眸的一个整个处理框架,和正常的一个普通转码流程相比,那中间其实还是有非常多的一些额外的步骤来辅助我们进行更好的编码的。
197:18
那首先在解码之后呢,那我们会先进行一些场景的分类,然后进行一些噪声啊毛刺之类的检测,然后呢,基于这些分类和检测的一个结果来更好的去调用我们后面的一些前置处理,也就是在编码之前,那我们会对对应的根据你使用的产品不同,比如说如果使用的是极速高清的产品,主打压缩,那我们会做一些前数约像的滤波,做一些降噪,VBM3D等等的一些滤波,来辅助你进行一个更好的编码,如果是进行一个极速高清,呃,如果是进行一个画质修复,那我们可以做一些超分,做一些插帧的一些操作。对,那这是编码之前的一个前置处理,那通过一些前置处理,我们对视频语言进行一些修复和校正之后。
198:06
呃,进行一些修复和校正之后,那我们也并不是直接进行一些编码,因为在我们的啊调研过程中啊,在编码之前的一些感知编码,其实也可以很好的辅助一个编码,所以我们在编码之前还会进行进行一些感知编码相关的操作,比如说我们的RO检测,我们的内容自适应码控和我们的一些GND检测,然后我们拿到这些感知编码的参数以后,再放入编码器进行一个更深入的一个编码。对,那下面就跟大家详细介绍一下,我们极速高清的一个能力究竟是什么样的,能够给大家带来一个什么样的一个服务,以及我们整个迭代的过程中大概是哪几个步骤,每个步骤考虑的问题是什么。那首先先整体介绍一下我们的极速高清吧,那首先我们的极速高清啊,对编码器进行了全标准的一个支持,26426肯定就不用说了嘛,呃,那目前呢,我们A的产品也已经成熟上线我们的MS视频处理,大家可以体验最新的A的一个处理能力,包括2266,那目前我们也已经完成了一个成熟的产品化,如果大家有需要的话,可以联系我们,我们可以在内部给你开通2O266的一个最新的编码器的一个处理能力,那我们的编码内核呢,其实和我们的多媒体实验室,以及呃,腾讯视频,微信等等多个团队进行一个合作,在编码器上我们呃有也有额外的100多项专利。
199:35
那在2020年的MSU的编码上,那我们也取得了很多第一的一个成绩。对,当然我们,呃,极速高清做到一个这样的结果,那我们的肯定也不是一蹴而就的嘛,也是分阶段一步一步迭代做的,那我们在最开始第一代最开始做极速高清的时候,就我们所考虑的一个问题,就是说我们能不能利用一些视频的场景,我们利用一些造成的检测,一些毛刺检测,来更好的利用我们现有的一些技术。
200:08
啊,那在这个阶段呢,那我们通过一些场景的检测的一些能力,然后呢,更好的利用我们现有的一些,比如说细节增强我们的一些渠道,更好的利用我们当前的一个编码器,呃,根据不同的场景,用不同的一个编码参数来发挥出当前编码器能够达到一个最优的性能。那把这一步做好呢,在我们来看,大概就有10%几到20的一个编码增益,就是和普通转码相比,那我可以额外的压10%几的一个码率。呃,但是随着我们的整个的迭代和我们的打磨过程中,我们发现,呃,首先从我们的编码器来看,那目前开源的编码器,其实它虽然是呃,可以说做的比较好吧,但是它其实跟商业真正的商业编码器相比,它还有很多地方做的并不成熟,也做的并不完善。
201:01
那以HR64呃为例吧,那目前HR64的的这个标准,那开源做的最好的编码器就是叉R64,对吧,这是基本上是业界公认的,就是开源做的最好的,但是在我们的使用过程中,我们发现叉264的一个实现,那和我们真正的业务还不是非常的贴切,那还有很多能力支持的并不友好,那除此之外呢,其实叉264的毕竟是开源嘛,不是商业,不是一个商业机构,所以HR64标准其实有还有一些比较复杂的标准,比较复杂的编码增益的工具,叉264他其实并没有去做。对,那在这个基础上举个简单的例子吧。呃,就比如说分层逼帧,那X264其实它只能做到三层的分层逼帧,那这样大的达到的一个结果就是说,如果说你中间设了连续有七个逼帧的话,那其实叉264的编码器,它的逼帧是没有参,没有办法参考它的前后帧的,我们知道其实在编码的过程中,如果说你的帧离你当前要编码的帧更近,就说明他俩的相似度一般,他的那个相似度是更好,更高,更能够找到一些相似的块,但是叉264就做不到这样,那在这个基础上呢,我们在这个地方做了一些优化,做到了呃五层的B帧N,那可以保证每一个B帧N都可以在它最临近的帧找到它的可以去做参考的帧。
202:27
那这是我们核心极速高清优化的第二阶段吧,就是我们在编码器的内核上进行一个深入的打磨,那在编码器内核上的一些打磨,那就纯从编码器来看,那我们和开源的一些编码器相比,就有比如说HR64就有20%的一个增益,那我们内部打磨的呃,O265的编码器和叉265相比,大概就是纯纯编码器就有50%的一个增益。对,那这是我们的第二阶段,那那随着我们的继续的产品的运营啊,包括我们的一些外部的客户接入来使用,那毕竟我们是To B的吧,是吧,客户提供了什么样的要求,我们都要尽可能去实现,那客户也提高了,提出更高的诉求,呃,不知道大家对这个玛丽是不是有一个比较清晰的概念啊,就是我们比较典型的一个客户吧,呃,是一个比较大的一个电商用户,他的主要产品呢,也是做直播的,电商带货嘛,那他对电商带货的要求是说,呃,你可以使用H265,但是你的720P的视频,你的码率只能有300K。
203:31
也就是300K的一个码率,你要保证我720P的视频是一个非常清晰的,客户是可以认可的,对,那在这种程度上,其实我们发现在编码器上无论再怎么做,其实已经不可能达到这个标准了。所以我们就在思考,对,如果说要达到这个标准,那我们还有哪个方向去可以做,或者说我们去看一下编码器,它究竟它的缺陷是什么,就是说它整体的这个编码器设计,它的问题是什么?
204:00
其实通过我们深入分析,可以发现了几个特点啊,就是第一个我们来进行压缩的时候,我们拿到的这个视频源,那这个视频源肯定是已经被压缩过一次的了,对吧,我们不可能拿一个裸的数据来给我说OK,云厂商来帮我压缩一下,那进行既然这个视频已经进行过了一次压缩,那第一次的压缩必然会引入一定的编码,造成的一个编码噪声。对吧,有可能你人眼看不出来,OK,但是细节,但是从一个像素一个像素点的去看,那这个噪声它还是必然存在的。所以但是我们在编码的过程中,我们在后续后续的诶。我们在后续的进行一个编码器编码的过程中呢,其实他并不知道这个第一段引入的这个噪声究竟是视频源的一些真实的细节,还是说这些噪声是我们应该去抹除掉的,那编码器我们在二次编码的时候是不知道的,编码器是不知道这个信息的,所以呢,编码器呢,也会把这些噪声会尽他所能的去并行编码,而这些小的毛刺和噪声是非常非常消耗码率的一个部分,也造成了我们整个马力的很大一部分浪费。
205:10
那我们发现的第二点呢,就是我们整个编码器来进行编码的时候,它是从数据驱动的,他并没有考虑呃人员的一个主观是怎么样,他更多可能是PSR或者一些指标来进行一个数据的驱动。那数据的驱动的话,在一些比较非常极限的压缩,就可能带来一些问题,就比如说我们如果说做一些很极限,下面说的比如说720P的视频,我们只以300K的马力气压,那它出来的一个结果就可能是说我们在一些它可能在一些细节的地方,它还保留住了,但是在大面积的平坦的地方,可能出现了很多大面积的块效应啊,还有大面积的毛刺,对吧,因为它是从整体来看,并不知道人脸的感官细节。所以呢,我们在想的一个问题,就是说我们在编码之前能不能说,如果说我们发现啊,这个编码器给的码率很低,那我在编码的过程中一定会损失非常多的细节,那我们有没有可能在前置处理的时候,我们先把这些细节手把它给损失掉了?
206:07
也就是说我们在编码,我们发现编码器一定会造成这个编码质量很差的时候,我们在前置处理,我们通过一些AI的能力,先主动的把一些人眼不关注的细节,把一些人眼关注不到的小的毛毛刺,毛边,把这些全部都给磨平掉了,这样的话呢,我们在编码之前,我们就把这个视频相当于简化了,让这个视频呢更符合编码器的一个编码标准,来让编码器来进行一个编码。对,基于这样的一个思想呢,那我们在编码之前呢,也做了一些基于AI的呃,去毛刺,以及基于AI的毛刺估计的一些呃,Filter,那基于这些filter处理之后呢,那我们就可以达到一个比较好的效果,在一些极限压缩的情况下,它可以保证整体的一些人眼的主观看起来质量是OK的,所有的一些大的框架,大的边缘是清晰的。
207:00
对,这里也简单分享一下,就是我们极速高清目前能够达到一个什么样的程度,和一些呃,腾讯内部的产品上极速高清以后带来的一些收益。首先呢,就是对于一些幺零,比如说1080P的电影影视剧来说,对于这些影视剧来说,那我们极速高清一个比较极限的压缩,如果是HR64的话,基本上1.5兆就可以保证一个非常高的清晰度,或者说一点兆我们就可以保证这个视频的微得分是95分以上。那如果是H265的话,基本可以保证900K,就可以保证微MAP95分以上,如果是AV的话,我们可以在650K就保证。呃,尤其是对于教育的客户来说啊,教育类的客户相对来说是PPT,一个老师加一个PPT的场景比较多,那这种场景我们有一些更深入的一些,呃,场景优化,那真对于这种场景优化,那我们HR64基本60多K的码率就可以保证一个非常高的清晰度。那H2的30多K,我们只需要20多K,那其实这个概念,也就是说我们音频的一般的码率在64K左右,也就是说我们现在的一个极限压缩,我们针对于教育的场景,我们可以把视频的码率做的比音频还低,那下一步其实你考虑的应该是音频怎么去压缩了。
208:15
音频占成这个视频的一个,马云占占比的大头了。那通过我们我们腾讯内部的一些产品上了我们极速高清之后呢,首先从我们的存储和带宽来看,大概可以降低70%的一个存储和带宽的成本,那与此同时呢,在客户端我们CDN不需要任何改造的一个情况下,那我们带来了的首帧耗时大概也降低了20%。对,那下面分享的一个技术呢,就是我们极速高清的,另外呃,我们腾讯明眸产品的另外一项技术,就是我们的画质重生的技术,那画质重生的话呢,和呃前面的压缩不同,它主打的是说我们怎么样能把我们的画质变得更高,比原更高清更清晰。
209:03
对,我们其实常经常说啊,就是我们经常可能说,呃,这个视频源有点模糊,有点不清楚,其实不清楚模糊是一个比较笼统的概念吧,那如果我们从详细的去分解,去拆解的话,那一个我们的主观概念上,一个视频的不模糊清呃,或者说不清楚,是有多个原因组成的,对吧?它有可能是经历了一个下采样,它有可能是经历了一个模糊,有可能是经历过低码率的压缩,产生了块效应和毛色效应,那也有可能是他拍摄的设备的原因,导致了一些色彩不够艳丽,色彩丢失,对吧?所以其实针对于不同的特性,就是需要不同的一个画质修复的能力来进行一个。弥补的。那我们的画质修复能力,那也是,当然也是包括很多项了,当然今天时间有限,我主要给大家分享两个我们呃,一个是超分,一个是插帧,那这两个是基本上所有做呃视频处理或者画质修复的客户最关注的两个点,一个是我们把怎么把视频的分辨率变得更高,同时画质更清晰,一个是怎么样把我们的帧率变得更高,同时看起来更流畅。对主要分享这两个呃一些业界大概是怎么做的,那我们在落地过程中有什么问题,我们怎么解决的。
210:20
对,首先从超分来看,其实提到超分,我们离就呃离不开前几年比较经典的一些模型了,比如说edr。呃,比如说我们edsr的模型,基于一些网络来做的。对其但是这些模型有一个问题吧,就是这些模型呢,基本上也都是呃,偏科研的一些同学做出来的,也发了比较多的paper,那他的一个特点是我们可能在PSR这些科研的一些指标上确实做的比较高,但是从人眼来看,这个PSR的指标和人眼的感官差距很大。那我们最开始也用了类似于net这种模型来做超分对吧?呃,它的效果的话,就是说它肯定跟原来比是有一定的超分的效果的,但是不够惊艳,会有一些部分有一些模糊,有一些模屏的感官存在。
211:12
如果说呃,你要做到一个非常符合人员感官的一个清晰度的话,那基本上目前还是以干网络为主吧,啊,但是如果以干网络为主的话,其实带来另外一个问题,毕竟我们做的是视频,不是图片,那基于视频的话,就是该网干网络的一个针尖的不稳定性很难控制,会导致很大的一个抖动。OK,那基于上面的一些背景吧,那我们在对我们的超凡网络进行了一些迭代的优化,那我们最开始上线的,我们的最开始的画质修复的超分,其实也是基于rest net的那种模型来做,就有一定效果,而且足够稳定。呃,那我们进行了一个迭代的优化以后呢,我们这一次的迭代优化主要是在两个地方吧,第一个是在我们的loss函数的设计上,那第一个我们loss函数的设计上,我们把干的一些呃特征也放在里面,作为losss,同时呢以PSR也放在里面,同时呢还有一些边缘放在里面,这样的话呢,我们希望达到的一个效果就是说,呃,我们既能够有干的一些非常强的一个脑补细节增强的一个能力啊,同时呢,我们希望我们原来的一些PSR的一个指标能够抑制它,能够带来一个针尖的一个稳定性啊,同时呢,我们又增加了一些双注意力的机制。
212:29
对,这样来达到了一个比较好的效果,那目前呢,我们明眸的一个超分都是基于这种新的模型来做啊,新的模型来做的话,和原来的呃,基于EDSR的模型相比,其实可以有一个非常明显的一个人员主观的一个增强。OK,这里是一些,呃,对比视频吧,对。可能屏幕上不是特别明显。对,另外一个就是做插针,那插针的话啊,其实业界有两个方向吧,第一个方向就是拿两个针来直接做卷积生成中间帧,那这样的一个问题的话,也是说它生成的中间帧有可能会造成了一些模糊,那虽然它是比较稳定的。
213:14
呃,不会有特别不会生成一种特别奇形怪状,特别乱的帧,但是它的生成的帧的清晰度会偏差一点。那第二个方向呢,就是做,呃,我们的光流法,那通过一些深度学习的模型来估计出视频之间的一个光流,那我们知道一旦估计是光流以后,其实中间可以插非常多的针,而且每一帧是非常清晰的,但是这个光流法带来的一个问题就是你的光流估算不一定是完全准确的,一旦估算不准,那就是灾性的后果,对,所以我们的第一版名我们做插针,其实也是基于CN网络的这个模型来做。当然K模型运行了一段时间,或者是跟一些友商对比一些PK和我们的一些打磨之后,我们发现K网络,呃,不可避免的就是它的。
214:05
呃,它插出来的针,它的清晰度程度是有限的,是有一些模糊的,那我们无论在K网络上再怎么样的去更改,也没有办法说达到这个模型的一个突破这个模型的一个限制,对,那在这个基础上呢,那我们把这个模型进行了一些迭代优化,那我们把啊,针对于。光流的和K网络的这些我们希望合在一起,把两个的特性全部利用到啊,简单来说呢,那我们就是在先估算出来一个光流,估算出光流以后呢,那我们根据前一帧用光流插出来。一帧后一帧根据光流插出来一帧,这样呢,我们每两帧之间,那插出来两个帧,那我们用这两个帧再类似于K网络去做卷积,来生成一个真实的一个中间帧。对,这样的话呢,既可以比较好的利用了光流生成的一些清晰的视频帧,同时呢,我们还有一个比较好的一个帧间稳定性。
215:02
当然了,画质修复的能力还有很多,这里就不一一介绍了,比如说针对于老片,老片的一个特点是它有非常多的一些划痕,有非常多的一些雪花,那划痕的雪花其实是需要专门的模型去做的,一般的通用的模型很难处理这种啊,包括一些去毛刺,去背影,当然这里还有非常多的能力,如果感兴趣大家后面可以在线上去体验。对,那这里简单说一下,如果说想要体验如何去使用吧,那首先我们目前在打也是在打磨一个腾讯内部的一个体验馆,后面这个体验馆也会开放出来,那大家就可以在体验馆上直观的去看到我们视频压缩,画质增强的一些处理的效果和直观的体验,那目前体验馆还没有出来的前提下呢,大家可以就是从我们的产品上来接入,那我们的MPS产品目前也是非常成熟的一款产品了,那只需要开通以后,把对应的视频上去,就可以进行对应的视频处理,那里面有极速高清的模板,可以进行一个比较强的压缩。
216:03
对,那我们的智能编辑产品,那主要主打的就是我们的画质修复的一个能力,那在里面可以通过API,我们会分成很多细的,像比如说去毛刺,比如说去燥啊,去划痕,去雪花等等,有不同的一些能力也可以去体验。好,那我今天在这边分享内容就是这样,谢谢大家。感谢这个刘兆瑞老师的精彩分享,然后接下来进入到我们的这个问答环节,有哪位用户想提问,可以举手。嗯,老师就是想问一下你,就是因为最近这个原宇宙的这个概念也比较火,然后就是现在目前市场上的这个VR产品,其实最新的一些产品,它的那个视频还是会有一些纱窗的感觉,然后就是想问一下,就是我们对。电视频这个某,然后它有极速,就是它那个极速高清,有针对VR这一块的。
217:05
做一些什么样的优化吗?呃,首先其实VR视频它对我们比如说视频编码来说,它出来的也就是普通的视频,它和普通的视频唯一区别是它只是带了一些midda的信息来描述这个视频应该怎样去展示,但是对我们来说,它就是一个裸的YV的数据,那我们的极速高清能力的一些比较强的压缩,是对于所有视频通用的。对,所以对于VR视频来说,也有一些VR的产品在用,包括央视他们也尝试我们极速高清来帮他们做一些VR的压缩,是是是可以通用的,对,然后还有一个问题就是就是因为最近自己那边也有,就是去收购。是VR,对对,就是一家公司就VR就高了一家去。然后我们这边怎么对。对未来战略上的。你这个战力太高了,这这种这种我也回答不了。
218:02
嗯,刚才我看老师的那个极极限压缩那个挺震撼的啊,我忽然想到一个事,这有没有可能就是说我们人类啊,适应你这看这个极限压缩看多了,这种片看多了。就是说他他他适应人的眼睛了,嗯,就是说人慢慢慢慢它那个视觉会退化,就是说。看大致没那么敏感了,没有以前那么敏感了,你这种。我我觉得不会有这种现象吧。呃,毕竟首先啊,就是呃,市场上还是有非常多的产品嘛,对吧,呃,也不是都使用我们极速高清的一个能力来进行压缩,还是有正常的一些视频存在的啊,第二个是说就是如果说我们角色高清主打的不是说让你变得退化,是说你现在其实你就不敏感,你现在给你的视频,你可能粗略看你也看不出来,当然如果说你把两个视频一个拍一个拍的对比,OK,你还是能看出来的,就是不是不,嗯,我理解不会说让你退化,而是说基于现在的一个能力,就是你现在人眼的感官是什么样的,就是可能现在人眼就看不太出来,那我们。
219:12
呃,满足人脸现在的一个情况去做,如果说举个例子啊,呃,比如说您说的退化嘛,那您说退化肯定是现在能看出来,后面看不出来嘛,如果说现在我提供一个极速高清能力,您是能看出来的。那大家就不会买我这个产品了,对吧。呃,老师你好,我是,呃刚刚听你提到那个元宇宙的这个概念里面,然后我有一个就是算是方向性的问题,就是二元性的问题,想问一下就是呃,原宇宙里面一个比较重要的概念是属于交互,还有沉浸,就是你们是在做视频的这个概念的情况下,就是你们是想把它就是一个是现实虚拟,还有一个是现实增强。就是你们在做的这个路线,就相当于是把这个虚拟的东西变得更真实,但是就是另外一个维度的话,它可能就是回归到现实里面,它只不过是把现实增强,增强了,然后就是把很多知识啊。
220:11
就是相当于运用到实际当中,就是这两个,呃,方向的话就是你觉得就是。呃,就是最终会去的哪个方向会更好一点,就是你有什么判断吗?对于这样一个是现实增强的,还有一个是现实虚拟的。呃,我我个人的感觉啊,我个人的感觉呃,发展的比较快,或者是更满足大家的一个需求,更想象的还是在现实的虚拟这一块吧。对,包括我们做的一个技术也是说,呃,因为做现实虚拟,它有可能有一些目前的一些瓶颈,比如说我们做呃,VR一些元宇宙,它是需要一,如果说如果说你要做到不头晕是吧,一些真的能够满足你人眼的一个真实感受的话,它可能是需要一个4K的视频来传输,那这些4K的一个高清的分辨率,可能需要20兆,30兆的一个码率,才能让人感受一个比较清晰的一个场景,对那我们目前所做的一些工作啊,更多的一方面来说,我们怎么样去推动说现实虚拟这个东西能更好的一个落地,因为现在落地的带宽成本比较大,带宽比较大,大家手机的一些带宽也没有那么高,会有卡顿,也是一个痛点嘛,我们希望说我们的技术能帮大家解决一个这样的痛点问题。
221:27
呃,我稍微再深入问一下,就是你刚刚讲的就是因为就是从脑神经。这样的来说的话,就是我们视觉上接受信息是呃,处理信息是80%,但是如果我们在那个视觉上就是做的帧率越来越高,然后就是呃,颗粒度做的越来越小的情况下,就是呃,我不知道就是就是现在视觉这个行业里面有没有考虑说引入一个其他的维度。比方说是除了视觉之外的维度,比方说是可以压力,呃,压感控制啊,还有比方说是温度感测的那种控制,因为就是。
222:04
以视觉方面走到一个极限的话,就是就是有没有这方面的,就是可能性会。就引入一个其他的维度进来。对,我我我觉得这是一个方向吧,从我个人的体验,我觉得如果这个这种体验做的更好,那肯定是一个更好的一个沉浸式的一个体验,对吧,但是呃,这个问题怎么解决,目前就不在我们团队的一个处理范畴内了,但是从我个人的感觉,我觉得这个方向是OK的,也是我比较想要后面能见到的一个产品的话的一个形态吧。谢谢,谢谢。很感谢刘兆瑞老师的精彩这个解答,那如果我们用户还有这个更多的问题的话,也可以在那个稍后的这个交流群里边,或者在现场跟我们老师进行交流。那上午的演讲当中,我们听到了关于音视频内音视频安全的这个内容,那从音视频审计服务架构设计审整合运营体系等方面了解了音视频内容风控的相关内容,那接下来有请腾讯安全。
223:08
的周维聪老师来带呃,接下来有请腾讯安全高级应用研究员周维聪老师将为大家来带来音视频内容风控中的AI实践,解读如何利用AI技术对音频、视频文本进行内容识别和违规信息的判断,同时结合多模态的技术探索与应用,解决隐蔽的违规内容露出。有请周维聪老师啊,谢谢主持人。也非常感谢大家坚持到了最后。呃,我先介绍一下自己。我叫周维聪,来自我们腾讯安全的内容风控团队,呃,上午我的同事给大家介绍了是我们这个内容风控的关于工程和产品相关的一些信息,那我呢,就代表我的团队来给大家介绍一下,在内容风控场景中,我们的AI技术具体是怎么结合业务做一些落地,做一些实践,嗯,然后跟大家一起来探讨一下。
224:04
那首先在进入到正题之前,我们可以想象一下,在目前的这个呃环境中,网络环境中,其实每天催生了大量的呃信息,信息爆炸的一个时代嘛,嗯,然后大家每天都会接收到不同不样呃各式各式各样的信息,其中也会涵盖一些不良的呃,违法的可能是诱导未成年人,或者是呃对未成年人有一些呃这个不好的一些信息在里面,那我们用AI技术来在这个事情中做这个呃事情的话,其实是能够帮助内容厂商,能够帮助客户去减少人力成本的投入,以基神的方式去呃,达到一个降本增效的一个目的。呃,首先我们来进入一下内容风控,了解一下我们现在做什么样的事情,我们面对一些什么样的挑战和难点,其实大家在网上冲浪的时候,比如说用各式各样的APP啊,像直播的,游戏的啊,浏览各种各样的网页,它里面的信息呢,都是归根结底还是以图像、视频、语音、文本这几种模态呈现在大家的这个呃,耳朵或者是眼睛的之前,那我们的这个审核能力,其实最底层呢,也是以这个英式图文的这个技术来构建我们整体这个审核能力,像通用的话。
225:23
涉及到呃,像通用的这个审核的话,涉及到一些涉黄啊,呃,谩骂的一些识别,嗯,还有像什么爆恐啊,广告等,然后像一些小众领域,可能还及到一些灌水,在我们单独的这个音频场景上,也是涉及到娇喘,色情娇喘的识别,比如说像一些语聊房,有一些主播,他可能会传播一些色情淫秽的内容,那这个时候我们要及时对他的这个内容做一些风控处理,及时的把他这个账号进行一个封禁的操作。还有另外就是我们也会涉及到音频上的一些语种识别,可能是呃,什么中英日韩呀,一些语种,就是不同的国国别之间的语种,也涉及到我们国内可能有一些少数民族的语言,那针对这样的一些小语种,我们也是后端配以了它的这个匹配的这个SR,像这样的一个审核能力,所以前端我们是要做这样一个语种识别的事情。
226:14
我们来看一下具体的case,就以这张图为例的话,其实对我们的图像,嗯,审核系统来说,我们首先会认为它是个人脸,然后它取呃,具备了一些属性,比如说他带着一个黑色的头纱,围着一个黑色的面镜,然后还有一把这个冷兵器,一把匕首,那这样的话,图片系统肯定是把它判为一种,呃,最高概率可能是爆恐这样一类,最后做一个我们审核的这个结果来输出,那这样的图片肯定是需要屏蔽掉的。还比如说这三行文本,从上到下,其实它的这个最大倾向依次也是呃,谩骂,呃广告以及涉黄相关的。嗯,接下来我们来说一下,就是我们在这个技术沉淀的过程中碰到的一些挑战难点,其实也是整个这个风控,呃内容风控行业的一个特点吧,首先第一个就是会存在这样的强对抗的这样的一个样本出现,他这呃各种形式,比如说呃图片,还有这个音频它都会有,嗯还有就是呃多模态的结合来做这个对抗变异的这样一个事情,呃甚至说呃,因为我们是机审嘛,所以有的人他可能就是在不断的尝试我们的这个机审,然后找到了我们的这个规律,然后他自己去设计这个呃这个样本,然后试图是绕过我们的这个机审,然后同样的,其实呃大家都是做技术的,可能在座的也有,是不是尝试过用AI的技术来做对抗的这样一个事情,希望也是绕过急审做一些这个对抗样本的生成,所以说我们面临的这个困难还是挺大的。
227:50
以这个图片为例的话,其实这个呃女生你单看她的这个图像的话,好像也没有那么的有问题,但是加了这个字以后,这个意思就不对了,尤其这个字还发生了这个呃汉字变成拼音的这样一种变异,其实也是给我们的OCR带来了一定的难度。
228:08
另外一个就是我们不同业务场景上,它的这个标准尺度也是不一样的,那比如说这样一把自动步枪的这样一幅图片,我出现在军事的节目中间,那这个是很正常的事情,那如果是出现在什么婴幼儿早教的节目中间的话,那这个肯定是不过审的。嗯,另外他还有一个特点,就是在我们某些业务场景上,他比较的复杂,然后他有些常尾的问题,他甚至可能是长尾中间的常尾的问题,像青少年他特别喜欢看ACG这种漫画,那在这个漫画这个内容中呢,他有一些其实很很明显的有些色情的倾向,不良的这个行为的引导的倾向,这些是很容易筛掉的,但是有些厂家他可能觉得像这种,嗯,没有露出关键部位的,但是又大面积露肤偏性感的这样一一类图片,他他觉得这个尺度他需要卡的很严啊这个,所以这个也是我们碰到的这一类问题。另外一个还有一个很重要的点就是时效性,像最近娱乐圈的瓜是一茬接一茬,大家吃的应接不暇,然后对这种劣迹艺人,呃,要求这个全网迅速封杀,不光是对我们现在生成的内容要做这样一个封杀,还要对平台已有的存量的内容做一个回溯清洗,所以这个也是对我们的产品,对我们的这个算法的效果也带来了一定的挑战。
229:27
呃,下面我们首先从图像视频的这个风控切入,来了解一下我们在这块是具体怎么做的。从审核能力上来说的话,我们其实对图像视频来说,我们需要具备有呃,色情啊,包孔啊,呃像围巾啊,宗教等一系列的,包括二维码,包括性别识别,那此外我们一个工作重点也是对未成年人需要去,呃帮助他们识别一些这个违法违禁的内容,然后在版权方那面的话,我们也是配以了logo识别这样一个审核能力,那从这个审核能力倒推,我们可以想象一下技术要做什么事情,有的人可能会问说我们直接拿一个图像直接做一个分类,分他是什么色情爆款可不可以,其实也可以,就初期大家可能简单的都可以,呃这么搞,但是一个是效果可能不好,还有一个是我们刚才说的挑战,它无法去针对不同的场景做这种不同标准尺度上的这个灵活的这个适应,那怎么办呢?其实我们是拆成了很多具体的功能点去完成这个事情的,比方说人体的话,我们不光要看人体的全身。
230:37
真的属性我们可能还要提取出它这个人体一些关键部位,关键部件,像臀部是不是过过于突出啊,像胸部是不是过于裸呃裸露啊,以及像场景这块,我们是不是判别一下是正常的场景,还是一些血腥啊,车祸爆炸的一些场景,然后我们可以呃对不同的这样一些属性,然后得到它的这个识别呃,分类的一些结果,然后整合到我们这个策略当中,然后像OCR可能还会配一项文本的审核,然后最后构建我们的审核能力。
231:11
那再往下倒推的话,其实就是我们底层的图像技术去支撑做这些功能,像人脸识别啊,目标检测,OCR,还有人体的识别等等。那具体来说,我们首先是对标签做了细化,呃,像暴恐这一类标签的话,我们可以拆成多个子标签,比如说有暴力行为,有枪支,有血腥场景,那可能有的业务方他会觉得说我只要有中间的几个标签啊,构成了这样一个图像的要素,那我就认为这个图片它就是判断为爆孔的一个呃违规类型。此外我们在算法上也是做了一些优化,像之前我们在改进之前的话,在这个attention的这样一个模块当中呢,我们的这个呃模型,它其实不光关注到了我们这两架应该关注到了飞机,还关注到了一些其他额外不必要的信息,比如说天空,嗯,但是在改进之后呢,我们通过一些mask的策略,我们可以让这个模型更聚焦在我需要关注到的这一个要素的事物上。
232:13
嗯,然后我们说一下这个logo识别,Logo识别的话主要是用于图片的来源分析,图片的这个版权的分析,我们也是采用像呃,Encode扣的这样一个网络结构,提取了图像的一些基本的特征,然后给到后端的这个呃,不同的head去提取它这个信息,比如说做分类啊,比如说做回归可以得到它的这个。呃,可以得到它的这个,呃,比如说它的位置,它的偏移量,它这个尺寸大小等等一系列的信息,然后提取出它的这样一个logo。呃,下面具体说一下人体属性这一块,其实呃人体属性还是在整个这个应用中比较重要,比较重要的一个部分,我们在之前的系统里其实出现了很多误纱,就比方说这个左边的这个左上图一个女子,她穿着一件肉色的衣服,但是我们的模型他可能觉得这个女子这个肉色的衣服相当于没有穿,所以模型把它误杀了,以及像这个手部误纱的这张照片,可能也是因为裸露的这个皮肤面积过大,然后被误杀掉,那其实这样的case的话,属于一些比较难的case,在呃具体模型训练过程中可以采用,就例如像triple loss去解决这样的一个问题,那triple loss的话,其实是在训练过程中我可以去挖掘,就是呃比较难的这些case,让我们的这些副样本和他的这个正样本之间的这个距离越来越远,相当于我的这个是和positive本来是一个类别,我的这个negative应该是和他们两个是,呃,不属于。
233:47
同一个类别,但现在hard case的话,可能negative离非常近,反而这个离这个positive的这个样本点它比较远,我们通过加入这些hard case,然后以这种loss的形式来训练,可以调优一下我们的模型,减少这方面呃误杀的情况。
234:03
呃,另外一个点就是我们解耦了人体与部件的检测,呃就在呃下面这些图为例的话,比如说有些呃臀部的突出啊,背部的裸露都是我们这块的一些呃部件的标签,还有像三角区的这个突出啊,呃腿部是不是性感,脚是不是性感的等等,就其实听到有人笑了啊,就是我们在具体做这个时候,嗯,对,其实我们在处理这些数据也是,嗯感觉到比较的痛苦,呃在这些,呃在这个算法当中的话,其实我们也是呃有些小小的优化。在图像特征提取的时候,我们还是呃用到基础的backbone,然后用这个feature para network,也就是特征金字塔模型,我们是提取不同图片这个尺度上的一些信息,那低层的可能是一些低维的信息,高层的话一些抽象的图片的高级的语义的信息,然后分别给到人体的这个检测网络以及部件的检测网络,嗯,那呃,部件检测网络和人体检测网络中间呢,它其实又有这个填审的机制去沟通,相当于告诉他们,就是说两个网络中间我需要互相关注到哪些信息,然后最终两个网络分别给到这个输出的决策。
235:18
嗯,在爆恐这个场景呢,之前我们其实没有做这些事情的,然后现在我们是进一步的扩充了徽标,嗯,服饰,场景等一系列的原子呃,呃能力,比如说对徽标来说,我们比如说添加了像恐怖组织的一些徽标,还有一些正常机构的徽标,嗯服饰的话,那针对暴恐这类场景,很多恐怖分子,他其实服饰是很有特征的,我们呃增加来比如说像头套啊,黑纱呀,面筋啊啊这样的一系列的嗯这个标签,然后去判决,还有场景这块的话,就可能有一些照片,他本身很正常,但是他可能身上出现了很多血痕,很多一些伤口,那这种情况下有些呃,业务方可能觉得这个。
236:00
图像它是偏血腥的,可能是偏自残自爆的这种倾向的,那可能我们也需要对呃这方面做一些呃适配,就这然后包括暴恐,其实也是经常会出现什么血腥的场景,我们也是增加了这一块的这个呃识别检测的能力。我们刚刚说到其实都是图像本身的一些呃算法,那我们是不是也可以想想结合一些更多的模态,尤其是现在倡导多模态的这样一个算法环境呢?嗯,我们图像和包括有些上面有些文字,其实是呃OCR来做这个文字的提取,其实我们可以结合提取出来的文字做一些多模态的事情,可以去帮助我们理解这些隐晦的以及对抗的这样一些样本的case,呃比方说我们这个左上图,就本身这个小女孩非常的可爱,就如果只是这个图片的话,没有任何问题,但是呃,可能就是有些成年人她恶搞她就是想加上这些无良的话,然后让这个图片变了味,那碰到这样的case的话呢,我们主要就是让图片会经过CN的这个,呃,图像的这个特征,提取网络去提取它的这个图像的特征,然后以及OCR会转入出它的这个文本,然后分别给到这个两个模态的这个transform的模型,最后有一个跨模态的transform模型来聚合两个呃不同的这样一个信息。
237:18
后得到一个最终的结果,那其实transformer,呃,大家应该也会,呃,偶尔一些了解吧,就是当年图像是什么,CNN席卷了,呃,LP和语音的领域,那现在反过来,其实LP大热的transformer也在席卷着CV这样一个领域,就很多地方其实都会发现有成膜的声音,包括我们采用多模态助力来理解内容的倾向性,比如说我们这个人民币和一个焚烧人民币,那显然是两个截然不同的一个倾向,呃,我们采用这个image captioning,也就是图像描述生成来呃理解这个图像它的含义,这样的话可以帮助我们理解整个这个内容它的倾向是怎样的。
238:02
呃,这里再介绍一个我们具体的落地的案例,就是我们未成年的一个保护方案,一个青苗计划,那首先我们是拦截以未成年人为主体,还有不良信息的内容,呃,比方说前段时间这个很呃很火的,可能大家都知道这个直播smart的就小女孩可能本身是有一些价值观不太对了,他输出了这样的价值观,那这样的这个不良价值观放到网上,那肯定是要对其进行一些呃审核,以及这个屏蔽掉的。另外一个是我们对未成年人有不良诱导的内容,这些也是要屏蔽掉的,要保护未成年人的身心健康嘛,像这些引导未成年人有自残、自杀、自暴的一些倾向,还有一些ACG,他们喜欢看的一些漫画,会有一些诱导他们往色情方向发展的,这些内容都是我们需要去审核掉的。那整个来说的话,我们对未成年人的保护方案的话,主要就是构建这个未成年人色情啊,未成年人隐私,未成年人暴力欺凌,还有以及诱导未成年人不良行为,以及不良ACG内容审核的这样一个能力,然后配呃这个我们基础就是我们刚刚所讲到的一些图像的原子能力来做这样一个事情。
239:14
呃,说完图像的话,大家可能也比较感兴趣,说音频这块是怎么做的,那其实和图像呃差不了太多,我们这个审核能力差不了太多啊,就是在通用的这块,其实大家也都要对涉黄爆恐啊,违禁广告等做这样一个通用的识别,那此外呢,对音频单独来说,它还有些其他额外的功能,像娇喘呃,色情娇喘的识别,刚才说到的语种的识别,未成年人其实也可以用音频来做,还有这个违禁歌曲的识别。嗯,倒推我们的音频技术的话,底层也就是呃,我们sad啊,语音端点检测,AR语音,呃,语音识别。还有音频事件检测,我们这里面用到主要是音频分类啊,声文还有患者分离,然后配以这个文本审核,文本审核主要是接在SR的后端。
240:03
那asr这方面的话,其实目前眼镜到现在主要是两套吧,就是一个是混合系统,可能了解语音的人都知道,前几年就是语系混合系统,然后后来呃呃从1718年开始也是端到端,然后变得特别的火热,到目前来说的话,端到端在很多场景上的效果其实已经开始慢慢的超过了这个混合系统这一套,然后像呃以这个attention based,就是呃就自注意力机制的一些encoder decoder的这样一些网络结构,还有像最近非常火的像VNE,基于这个优去做的像统一这个流式与非流式的这样一套模型的方案来做这个事情。嗯,我们其实整体的这个变迁思路和这个也是差不多,在数据增强方面的话,语音它通用的手段也是会用到,呃,变速变调啊,混响,还有些混造混音乐这样的一些事情,去做一些数据的增强,因为我们在实际的用途当中,比如说像一些直播的场景,它。
241:03
的背景其实会有大量的呃杂音,有背景的人声,有背景的音乐声啊,还有背景的环境噪音,所以为了增强我们在这一块的这块效果的话,希望这个整个系统有一定的鲁棒性,所以说也是做了一些增强的工作。然后音频事件检测的话,其实我们是主要拿来做色情娇喘这块的分类,嗯,它本身的话可以分两种,按标签来分的话,是分弱标性和强标签,那片段对应的这个声音事件,只要分类出它的这个呃类别,那就是弱标签所完成的任务,呃对强标签来说,我除了获取它所对应的这个声音事件之外,我还需要获取到它这个事件开始和结束的这个时间信息,那目前我们还是以落标签的形式来做这个色形声影的检测,那这块模型的话,其实用呃一些图像基础的模型,比如说像red ne34层这样的一些网络结构也可以做这个事情,呃,取得一个还比较不错的效果,如果想进一步的提升的话,可以加入一些是attention的这样一些机制来做这个事情,那色情交喘这块的话,我们,呃,其实他有些若干子标签,我们会拆戏的,呃,来看这个事情,呃,比如说还有一些什么色情骚麦,像一些主播主持人他会有一些。
242:19
些呃,不良的这个声音发出,我们称之为些色情骚麦,还有像这个SMR,在国外是一个非常震惊的事物,但是在国内有点被玩坏的这种东西,对,然后还有这个技术,其实也可以用来做成年人和未成年人的这样一个分类,比如说我可以检测在某一个音频段中,呃,发现了哪些婴幼儿的哭声啊,孩童的声音等等。那这个方面的话,其实还是有一定的难度,呃呃,比如说这个数据标注其实是比较困难的,尤其是这个娇喘,就是怎么去区分这个娇喘,这个喘息是色情的娇喘呢,还是说普通的喘息,可能他有些人运动量大了以后,他运动完以后哈气,他这种喘息他也录到这个音频里面,那我们这个标志文听来就非常的难分辨,所以说我们还是推荐尽量我们保持一个音频的上下文的信息,这样的话有利于呃更多的信息去帮助我们去分,分别到底是呃真正的色情还是普通的这种喘息好。另外就是实际在应用过程中,我们发现女性的声音相比男性来说,在未成年人的识别上,它的效果会差一点,我不知道是不是,因为就是男性可能有这个喉结,就是生理生理上的一些呃变化在成长过程中,所以说女性这块呃,还是需要再做一些具体的额外的工作。
243:43
另外的话是在呃,我们实际的推理当中,如果输入的音频时间过短,那模型其实没有get到上下文足够的信息,也会影响到我们的效果,那其实具体在使用的过程中,我们也会推荐说,呃,你要大于几秒这样的一个阈值尽量给到我们,这样的话我们模型会有个比较好的能力。
244:04
呃,在声纹这块的话,呃,其实声纹是一个非常基础的这个一个基建的一个能力了,因为它不单是可以做安防是吧,就是呃我鉴别是不是这个人啊,还可以用于其他的一些任务,比如说像这个speak,像患者分离啊,还有像我们构建这个违禁人物的这个声文库,比方说有一些呃主播我知道是这个人,他总是发一些不良的信息,那下次我再遇到这个人,然后我识别出诶又是这个人,那我是不是可以直接把他账号给封掉,可以做些这样的应用,所以说声文这块也是很有用的,那声文这块的方案呢,其实早些年也是呃像GM这样的一些呃机器学习的一些方案,但随着深度学习的发展嘛,像2018年这一篇,呃,X是非常的有名来做升文的一个模型方案,那这种模型呢,它主要的特点就是在我们这个,呃。
245:01
这个模型的中间有一个统计呃统计磁化层,它这个层呢,可以相当于说把我输入长短不一样的音频的特征,然后提取出来之后,然后把这个呃不同不同长度的这个呃,这个这个呃特征,然后放到一个固定,就把它变成一个segmental level,一个level的一个这样一个功能,相当于把一些变长的时间信息,时间帧的信息,语音帧的信息,把它变成一个定长的一个向量来操作,然后最后我们输出层的前面这样一个embding a和B其实都可以拿去作为一个speaker in bedding,然后给到后端的这个任务去用那一个取得一个不错的效果。那随着近几年,其实呃在生委这块也是有一些新的突破,比如说加入attention的机制,能够进一步的取得更好的效果,大家也可以尝试一下。呃,这个画者分离我不知道大家了不了解,其实它这个名称非常多,它可以叫画者分离,也可以叫话,呃,说话人分割聚类,也可以叫说话人日志,它的英文名叫speaker,嗯,它的作用就是说我让系统知道。
246:07
呃,呃,这个呃什么人在什么时间说了这个话,呃这个东西呢,可以在呃需要区分说话人啊,以及需要区分说话人角色的场景中被用到这个技术,比如说我可能需要对客服质检,那我需要区分这是客服是啊,谁说的哪些这个这个人是客服啊,那个人是客户,我需要知道他哪些哪些人的,呃不需要知道哪些音频段是这个客服说的,对他的这个说话内容做一个质检,判断他是不是对客户有一些什么谩骂的行为啊,过激的行为啊等等,然后这块的话,呃其实呃我们前端是肯定会过一个sad,也就是呃音频的这个端点检测提取出有效的音频段信息出来之后呢,我们其实可以直接用深度学习模型来建模这个说话人转换的这样一个事情,然后这样我们就可以抽取到他每一个说话人他对应的片段。但此时我们还不知道这两个说。
247:07
人到底是一个还是两个人,还是不同的人,那我们可以在呃,抽取这个speaker in bedding,就是我们刚刚说的那个声文的信息,然后再抽取出来之后,嗯,两个同等维度的向量,我们再给到最后的一个聚类去分割出来,他们俩到底是一个人还是不同的人,可以做这样的一个事情。呃,另外我们也是经过长期的积累,就我们在这个行业内的沉淀,我们不断的发现和积累了一大批的违禁歌曲,构建了我们的违禁歌曲库,然后我们也是配备了相应的也是配备了一些歌曲库的检索功能,去完成这样一个事情,完成这样一个审核的功能。然后在语种识别这一块的话,其实方案很多,我可以接在AR的后面来做,然后我也可以在AR过程中,比如说他这个呃,如果是呃那个混合系统的话,它中间肯定是有因素的,这个呃输概率输出,我可以通过因素的来做这个事情,但我们的这个问题是在于我想做成AR前端的一个东西,这样的话我后面可以接不同语种的这个AR,我了解它这个不同的语种上的这个内容是不是呃安全的,是不是OK的,所以说这块的话,我们直接是用音频来做的。然后这个方案其实有很多,像以前的话也经常会用呃声文的一些技术来做,比如说像ICT,像这个X来做,那也有用像图像分类的一些基础模型这样的结构来做,然后然后现在也有用加入像C呃CN,然后里面加attention的机制来做,嗯,反正大家这个方案也都差不了太多啊,目前我们的系统是支持中文英文,然后粤语日语和韩语的这样一个能力。
248:48
好,说完了这个音频,最后来说到我们的文本,因为这个文本大家也可以看到,之前在图像里面也加了文本的审核,在音频里也加了文本的审核,那这个文本的审核到底是怎么弄的,它有什么问题呢?其实文本的审核它的一个最大的难点是在于他的这个,呃,样本实在是挺多变异,嗯,比如说有一些拆字的变异。
249:11
对吧,这个偏旁和部首拆开可能还丢掉了一些个别的什么,呃,人字旁,但是不影响你理解它的语意。比如说这个图谱的这个规则,用一些的这样一个表示,我不知道大家get到了这个这个这个三个字了没有。知道这个中间的这个小动物是什么吗?对,是蛇就不要说出来,真的很很黄,不好听,对,就一开始我还不知道是什么东西,我以为是只鸭子,结果是蛇,对,就这块的话,其实给我们带来了很大的麻烦,还比如说像一些嗯,就是奇奇怪怪的表述,加一些符号,加一些拼音的转换,然后用一些形近字,然后构成一条复杂的这样一些信息。
250:00
对,像这样的一些东西,其实给文本还是带来了挺大的挑战的,还有一个很重要的点,就是因为文本它其实承接着AR的结果,承接着OOCR的结果,那这两个系统势必是有错误的。我们举一个例子。就比如说这是一条SR转录的文本。它的这个正确的,呃,表达是黄色的那个字,然后现在是错了,就是红色那一块字的部分,你看的好像读音很贴近,但是就是很不通顺,这个给NLP也是带来很大的麻烦。那在这块呢,我们具体是这么做的,像嗯,关键词的服务,还有一些规则的服务,呃,规则主要是用来做,比如说一些黄,呃,就是色情网站的这些匹配啊,啊,比如说什么赌博网站的这样一些匹配啊,这样一些事情啊,我们的文本分类模型我们也是拆开来做的,就是爆恐,就是单独的一个模型,然后它底下会有很多的标签,呃,另外我们在辅助以上序列标注模型,用于提取我们的实体信息,还有这个情感分析模型来判断,嗯,这个人他到底是啊愤怒的还是中性的这样一个情感,然后最后把这个结果作为一个聚合,然后我们也是根据业务的配置可以去挑选,最终形成我们的这个审核结果来输出。
251:16
啊,我们的这个敏感违禁词库呢,也是经过多年的积累,行业的这个沉淀也积累了非常宝贵的这样一个黑黑黑的这个知识库,也是规模已经达到了数十万的一个规模也挺大的,那关键词这块的话,它一个好处就是很快。嗯,我们可以用来直接构建这个数据库中的一个数据库的筛选,但还有一个问题就是它很容易导致误杀。嗯,打个比方,我一段话可能嗯,没有分词的话,那很容易就匹配错了。就举个例子,比如说呃,大家可能都知道周杰伦的那一首歌听妈妈的话好,没有分词,直接嗯匹配之后就变成了听妈星号星号话。
252:00
嗯,就这样,所以说很多人在使用这个,呃,就是网上冲浪的时候,感觉就怎么我发的话老是被屏蔽啊,那其实还是人家这个风控做的不是很智能,不够好。然后另外的话,在规则这一块,我们其实提供了这样一个机制,也是希望能够呃解决掉我们之前所说的这个呃挑战中间的某一点,就是能够对用户的需求能够快速的响应,能够适配他们所需要的一个效果。然后呃刚说到其实关键词它比较的呃简单粗暴嘛,那我们肯定是要用深度学习的模型,因为模型在这一块的话,它对于呃关键词,对于规则来说,它的这个效果会更加鲁莽一点,它会对这种文本编译的问题会有更大的一个提升的空间。然后在上游的这个系统,刚刚我们说到的像ocsr的错误,我们其实相较于前两个的话来说,也是有更强的一个鲁班性。呃,另外我们的N模型其实也是抽取文本中的实体,主要是用于呃有一些这个不正当称谓,它总是呃有些变种出现的这样一个情况。另外在情感分析的话,其实我们也可以融合音频这样一个模态的信息,这样能够呃更好的帮助我们去判决这样一个内容,它到底是什么样的一个情感倾向。
253:17
嗯,其实文本和序列标志这块,呃,在LP这块,其实butt已经被就是用到了很多了,嗯,然后基本上也是大家都会用这套去做,嗯,Boot的话主要好处是我可以用大规模的这个,我们去做一个很好的预序练的一个模型,然后给到下游不同任务的时候,可以稍微做一些调整,就一个得到一个比较好的效果,然后也是广泛的采用了自注意力的这样一个机制。嗯,此外在情感的这一块的话,除了文本可以做这个事情,或者音频单单他自己也可以做这样一个事情,那我是不是结合音频和文本两者的信息,可以得到一个更好的效果呢?其实是可以的,像文本的话,它可以呃抽取它的这个呃,这个文本的这个一个表述的信息,然后音频的话也可以加入一些像XRA,像一些说话人的信息,然后通过中间的一些呃实化层,像这种统计信息的实化层,以及这个attention的机制,然后融合所有的一些信息,最后得到一个判决,然后告诉我这个呃,这个表述或可能是愤怒的,就这个东西其实可以用到某一种场景呢,是怎么样呢?嗯,就是说在一些游戏场景中,其实很多人他很容易暴躁,然后他有时候说脏话是他的一种口头禅,他可能平平淡淡的说脏话,和他愤怒的说脏话,嗯,他都有,所以说我们可能呃,给他一定的这个容错率,在平平淡淡说脏话的时候呢,我们不认为他触及到这个。
254:43
谩骂的一个审核标准,而是在暴躁的情况下,愤怒的情况下,他说这个脏话,我们才认为他这个是,呃,的确是谩骂了。对,然后最后我们呃总结和展望一下,其实整个这个技术演进中,我们还是会发展整个这个审核,我们算法各个模块构建出来,它还是一个pipeline,嗯,为什么做pipeline呢?一个是如果你做一个端到端的模型,你很难说我去呃控制它,优化它,因为这东西是一个黑盒,然后如果你拆解成不同的这个模块来做,你很好方便去调优它,而且可控,还可以做一些灵活的适配。所以说嗯,有个问题了,就是在这个拍peline的过程中,我各个模块之间怎么去更好的适配,怎么去更好的衔接,然后会让我的整体的效果更好,这个是需要我们去思考的。那比方说我在AR的后面,我是不是可以加一个纠错的模块,那我的这个LP的文本审核模块能够更容易的处理这样一些棘手的问题。
255:43
嗯,第二个点就是一些疑难问题的工建,我觉得这个可能是在算法场景上就一直需要被解决的问题,比如说对音频来说,一些强噪啊,背景音啊,原厂啊,这个A啊,准确率不高的这样一些问题,比如说前端,我们是不是可以加一些信号处理的手段来做一些增强。
256:01
第三点就是嗯,其实刚刚也有谈及到有些呃音频和呃文字,还有像那个图片和文字的一些模态的探索,那其实在不同的这个子任务中,我们其实也可以更多的去尝试用多模态的这个技术,然后嗯把这个事情这个整体的这个效果能够作为进一步的提升。还有另外一个事情很重要,也就是说我们其实面临着以AI对抗AI的这样一个呃这个现阶段的一个挑战,就很多人他做AI攻防的,他可以去想方设法绕过我们的这样一个机神的这个呃这样一个情况,那我们其实也需要运用到说这个技术去嗯对抗他们对我们的这样一个挑战。我主要分享主要就是这些,谢谢。那个感谢周维聪老师的精彩分享,那我们最后还有一个提问的机会,好多好多人呢,喂,老师你好,那个我想问一下,就是文本对抗那一边,就是您这边做的是用那个呃,关键敏感词的一个数据库去动态的匹配,但是我想说就是你这个数据库肯定是通过数据训练或你们公司用数据去总结出来的,你怎么去维持这个数据库的一个动态,防止漏报,而且现在就是。
257:25
对,他汪经它会用bird这种生成式模型,然后去生成一些同义词或者是呃近义词这种的词,然后和原来的敏感词可能相差比较大,如何去快速的识别这种词,然后去把它识别为一种敏感的,然后去分类之类的,嗯,其实词库维护的话也是需要人力去投入的,这个是实情,嗯,然后会有一些新词发现的策略,就是我们其实在呃线上是实时在滚动这样一个词库的维护,比如说有些呃新词我们发现了,我们就需要及时的加到这个里面,然后有些词可能长期不用了,也会把它踢掉,这样的一种情况。
258:05
然后刚刚您说是呃,But上做一些近义词替换是吗?对对,就近义词可能跟敏感词相差比较大,如何去解决这一类的问题?嗯,其实这块我们可以在呃模型训练之前呢,加一些呃文本的生成,呃就刚你说可以生成一些近义词,然后加到模型的训练中,作为一种数据增强的手段。好,谢谢老师,嗯。嗯,感谢周维聪老师的这个精彩解答,那经过了一天的这个内容分享和交流,相信大家对音视频技术也已经有了深入的这个理解,那至此腾讯云Taco HUB技术巡回北京站的活动就到此结束了,那再次感谢大家的支持,那最后呢,就是大家在离场的时候可以凭借扫描这个屏幕二维码的调查问卷,然后获取这个唯一的这个号码,然后到我们的这个门口的议程板上去领取精美礼品,那为了方便大家来去做这个礼品兑换,那麻烦大家可以进行这个排队,先去核验,然后再领取礼品,最后再次感谢大家的支持,那腾讯云Taco have技术巡回的精彩活动还在继续,也请大家今以今后多多关注,谢谢。
我来说两句