数据要素市场建设需要构建可信、高效的数据基础设施体系。近日,腾讯研究院邀请了腾讯隐私计算团队、腾讯区块链团队、腾讯云大数据基础产品中心、腾讯云安全产品部的四位研究鹅,共同探讨数据要素开发利用中的技术方案,分析隐私计算、区块链等数字技术在数据流通基础设施和安全基础设施建设中的具体作用。腾讯研究院数字经济研究中心主任王星博士主持研讨。
饶华铭 腾讯技术工程事业群隐私计算平台专家
从产业侧观察来看,目前数据要素应用领域存在不敢流通、不会流通问题,主要原因包括担心合法性以及技术支撑不足等问题。因此,要实现流通需要注意两方面:在应用层面,要确保系统安全高效。在技术层面,开发过程需覆盖数据的采集、生产、存储、传输、使用、流通、删除的全生命周期。这里包括两类技术:
第一类是数据合规的审控技术。例如数据合规技术、数据分类分级、数据匿名化、可信数据空间、安全传输方案等。这些技术的目的在于能够遵循和执行相关的法规,确保对数据资产、数据安全进行有效管理,并且对数据资产的访问和传输进行适当控制。
第二类是隐私增强技术。包括但不限于联邦学习、差分隐私、同态加密、安全多方计算、数据安全沙箱、可信执行环境、区块链智能合约等技术,旨在保障数据隐私的前提下支持数据的安全流通,确保在数据不出域的情况下实现数据的可用不可见,助力实现联合建模、联合分析和联合推理等应用场景。目前,该类技术在公司内部支撑了包括广告、金融、政务等业务场景。以广告场景为例,我们在广告主部署一个平台,就可以联合腾讯广告,对平台内部的数据、广告主的广告转化数据去做一个打通,来做一个联合建模,从而有效提升整个广告模型的转化效果。
隐私计算技术尚有提升空间,安全性能和计算效率一定程度上制约了数据要素流通的一些业务场景落地。例如,多方安全计算具有很高的安全性,但是通信和计算的开销是很大的,导致整个计算效率会比较差。又如联邦学习,它能够保障各方数据不出域,只会交换中间的加密参数来实现联合建模,相比于多方安全计算,它的性能较高,但是联邦学习对中间参数的保护能力还有待提升。又比如采用可信执行环境,结合密码学技术与可信硬件,能够在不过度损失性能的前提下来保护数据的安全,但是攻击者还是有可能通过一些侧信道攻击的方式来破坏可信硬件的安全性。
王旻 腾讯云区块链产品中心负责人
区块链、数字身份是整个数据要素基础设施的重要组成部分, 腾讯作为长安链•Chainmaker开源底层框架的核心建设方,坚持在自主可控核心技术上参与贡献。长安链是由科技部、工信部以及国资委等各个委办局,以及北京市政府指导下发布的一个区块链底层基础设施项目。目前整个长安链满足高性能商用要求,包含200多个重大的应用技术支撑,生态联盟目前为止大概有50家央国企在共建长安链的底层生态。
腾讯云区块链产品,支撑数据要素流通领域5大核心能力,主要体现在数据的授权确权、数据再加工、数据价值评估、数据要素资源化、数据交易流通。
典型案例包括:某地大数据局公共数据平台,支撑首批数据资源入表。某头部金融机构构建金融行业数据护照。招商局建设区块链目录链,构建航运贸易公共服务基础设施。长城汽车构建汽车产业生态数据协同平台。深圳海关电子口岸数据共享平台。
胡仲义 腾讯云大数据基础产品中心专家
数据要素价值释放有两个关键点:一个是数据流通,一个是数据增值,也就是基于多维度数据实现数据价值增值。在这个过程中,一个关键组件是数据处理平台,它是一个比较典型的数据要素应用流程。从数据源开始(包括移动终端或者不同业务的数据源),经过网关接口的接入,进入数据的基础设施平台系统。在基础设施的上层会有一个中间服务层,把这些数据再进一步做管理,最后再支撑一些业务的应用。这个流程构建了可复用的数据分析能力,可以减少数据本身及相关技术架构的冗余,打通不同系统数据之间的壁垒,实现数据的流通。大数据引擎成为数据资源和业务价值间的骨干网络核心部件,是企业数智化转型和数据要素价值发现的核心引擎。
我们主要提供数据基础设施里面PaaS的大数据处理能力。在这个基础上,我们也构建了一站式的大数据开发治理平台,融合了一些数据集成开发任务的全动力开发能力,提供大数据的开发治理能力。在上层提供腾讯的BI、移动推送等应用产品和服务,在这些服务之上,我们就可以构建各个行业的解决方案。
当前主要的数据资源集成模式是数据库、数据仓库和数据湖。其中,湖仓一体则是通过数据仓库和数据湖的打通与融合,让数据流通起来产生更大的价值。构建湖仓一体有三个关键点:一是湖和仓这两块数据如何无缝打通,且不需要人工干预。二是提供给用户整体的应用,接口必须是统一的,存储在不同系统的数据,可以通过一个统一的开发/管理平台操作。三是数据何时进库、进仓应该是由系统根据自动规则来决定。
为解决以上问题,我们构建了一系列大数据产品,如TCHouse、DLC等。腾讯大数据主要是基于技术平台的海量计算、云端计算、资源能力和开放系统去提供数据基础设施、中台服务以及可视化的应用,加强数据的流通和增值,充分实现行业数据的价值释放。
邓杰汉 腾讯云安全产品二部专家
数据安全的概念比较大,数据安全是一个最终的结果,不是单独某一项技术。数据安全是围绕着承载用户整个数据的基础设施和业务流程来构建的。数据在对外共享、提供服务、流转过程中涉及到一系列的安全问题。因为对数据安全的担忧,使数据持有者对开放共享数据存在顾虑。目前,国内关于数据安全的建设,整体还处于偏合规驱动的阶段,主要关注存储数据的基础设施安全。真正围绕数据全生命周期安全建设的单位主要集中在头部银行、运营商、政府、大型央国企及互联网企业,目前这些领域和行业做的比较好。很多数据要素流转的承载方,其基础设施的安全还没有做到合规保障。
腾讯的数据要素安全成熟案例主要以头部金融机构、政府单位为主。在实际应用中,仍然存在两方面问题:一方面,计算服务的多源数据诉求难以得到完全满足。以金融机构服务为例,腾讯帮助金融机构做风控,覆盖贷前、贷中和贷后全流程风险控制,目前金融机构已经接入征信机构的数据,但仍然希望能够和更多数据持有公司通过隐私计算来获得数据价值。另一方面,缺少统一标准和规范影响了隐私计算技术的推广应用。比如说,在原始数据不出域的情况下,腾讯和金融机构会采用腾讯的联邦学习平台进行联合建模和运算,而金融机构在与其他数据持有方进行联邦学习时会购买其他品牌的隐私计算平台。因为不同企业的隐私计算产品之间技术不统一,难以打通,且不同数据持有方对其他公司的技术可信度持保守态度,这对于用户管理来说较为复杂,购置成本也比较高。如果可以形成统一标准,则有利于推动隐私计算技术在中小企业的普遍应用。