首页
学习
活动
专区
圈层
工具
发布

中国人民大学索传军教授:可信数据空间建设理论与方法

近些年,随着大数据和人工智能的快速发展,数据已成为推动社会经济发展的创新动力、产业创新发展的关键驱动,更成为组织发展的战略资源和资产。虽然我国是互联网和数据大国,但是高质量数据集还较少,数据流通和共享程度较低,数据资源开发利用面临诸多问题,如企业或行业内数据孤岛现象较为普遍,数据开发利用率低、数据侵权问题突出等。这些问题导致数据持有者“不愿共享、不敢共享”,严重制约了我国数据要素市场和数字经济的发展。

2023 年,我国数据生产总量约为32.85泽字节(ZB),但仅有2.9%的数据被保存,企业超过一年未使用的数据占比近四成,大量数据处于“沉睡”状态,数据要素价值尚未充分释放。究其原因,客观上数据要素“供给—流通—应用”的市场化循环体系不畅通是关键症结。

▲  国际数据空间数据资源的概念表示

数据主权是国际数据空间的核心价值取向之一,其定义为自然人或公司实体对自身数据拥有完全自决的能力。具体而言,数据主权是指国家在其主权管辖范围内,对个人、企业和政府在数据生产、流通、利用、管理等各环节享有至高无上的排他性权力。数据空间的核心功能可以概括为数据发现和数据共享两个方面。数据共享一直以来都是人们的美好愿望,也是数据的本质属性之一。数据共享是指让不同地方,使用不同计算机、不同软件的用户能够读取他人数据并进行各种操作、运算和分析。显然,数据主权和数据共享是一对矛盾体。然而,当今社会数据已经成为生产要素、资产,以及企业创新发展的关键动力。而且,数据只有通过使用才能实现其价值。因此,如何在确保数据持有者的权益得到合理保护的条件下,促进数据的高度共享,实现数据价值的最大化,是数字经济时代的重要论题。

在此背景下,2024 年11 月21 日,国家数据局印发《可信数据空间发展行动计划(2024—2028 年)》(国数资源〔2024〕119 号),多地陆续也印发相关工作计划。一时间,“可信数据空间”成为热词。那么,什么是可信数据空间?为何要建设可信数据空间?可信数据空间与我国数字经济建设、数据要素市场建设有何关系?如何建设可信数据空间?“可信”具体又指什么?一系列问题亟待解答。

我是幸运的。2006~2011年期间,我在国家图书馆研究院任职,作为数据资源建设领域的首席专家,亲身参与了中国数字图书馆的建设,并组织开展了“国家图书馆发展战略研究”。中国数字图书馆本质上就是一个基于互联网的“文献信息资源共享利用空间”,其目标是为全球用户提供优质的中文知识资源,同时也为我国读者提供丰富的外文资源。在我看来,这便是数据空间的雏形。

作为一名学者,当看到国家出台一系列发展数字经济、建设数据要素市场的政策时,内心难掩激动。2024年春天,我便萌生了撰写一本关于数据资源开发利用学术著作的想法。尤其是2024年11月21日,国家数据局印发《可信数据空间发展行动计划(2024—2028 年)》,我如获至宝,反复研读。数据空间建设涉及信息资源管理学科的理论与方法,如数据集成、数据语义互操作、元数据代理、数据联合目录等,我从中看到了学科发展的新机遇,也更加坚定了撰写本书的信念,遂将书名定为《可信数据空间建设理论与方法》。

索传军  

2025年春于中国人民大学

可信数据空间建设理论与方法

索传军著

北京 : 科学出版社, 2025.6

ISBN 978-7-03-082107-2

▋第Ⅰ部分是可信数据空间概论,包括可信数据空间概述(第1 章)、可信数据空间的架构(第2 章)、数据空间关键技术和组件(第3 章)。从整体上对数据空间是什么,具有什么特征和功能,其体系架构(业务架构、功能架构和系统架构)如何,以及数据空间涉及哪些关键技术和核心组件等进行论述。目的是让读者对数据空间有一个整体认识。

▲ 数据空间的功能构件

▋第Ⅱ部分是数据空间信任体系构建,包括可信数据空间信任体系建设(第4章)、可信数字身份与参与者信任网络构建(第5 章)、数据空间认证机制与认证框架(第6 章)。主要对信任体系是什么,以及如何构建数据空间信任体系等进行论述。信任是数据空间数据流通和交易的前提和基础。在国际数据空间内,信任包括静态信任和动态信任。对数据空间参与者(包括数据提供者和消费者等)、核心组件和应用程序运行环境等的认证属于静态信任。本书将密码学的信任网络理论应用于数据空间,建立参与者信任网络,属于动态信任。同时,本书提出三层架构的“信任体系”。一是不同区域、不同国别数据空间,在文化制度、价值观等方面能够相互包容和理解;二是数据空间参与者之间的信任;三是数据空间提供的数据集和数据服务,以及交易活动是真实的、可信的、高质量的。

▋第Ⅲ部分是数据互操作与共享生态建设,包括数据连接器(第7 章)、数据空间信息模型与词汇表(第8 章)、数据集成与语义互操作(第9 章)。互操作是数据共享的基础。该部分主要论述如何解决数据空间内数据的互操作问题。《欧洲互操作法案》定义了一种适用于所有数字公共服务的互操作性模型,包括法律、组织、语义和技术四个层面。在数据空间内通常涉及技术互操作和语义互操作两个方面。第7 章主要论述数据空间的关键组件——数据连接器和基于协议的技术互操作,第8 章和第9 章主要论述数据语义互操作的相关问题。

▲ 数据集成实例:汽车导航数据集成架构

当前,国际数据空间采用务实的、以工作流为导向的数据集成方法,这种方法已在数据仓库等场景和其他集成方案中得到成功应用。在国际数据空间中,数据集成通过连接器利用语法分析框架作为路由机制,实现工作流数据的集成。图中展示了一个汽车导航的数据集成架构。

▋第Ⅳ部分是数据生态体系建设,包括数据空间参与者角色及主要业务活动(第10 章)、数据空间内数据资产管理(第11 章)、数据空间治理(第12 章)。数据空间的核心功能是通过营造“安全、可信、可控”的数据流通和交易环境,使所有参与者实现价值共创。或者说,数据空间的最终目标就是构建支撑数据要素市场健康发展的数据生态。参与者是数据活动的主体,第10 章论述数据空间参与者的类型及其主要承担的角色,以及数据空间开展的主要业务活动。数据空间内的数据资产是数据交易的客体,数据消费者如何发现和找到自己所需的数据是关键问题,第11 章主要论述元数据代理和统一数据目录体系建设等问题。第12 章在国际数据空间治理框架的基础上,论述数据空间治理的主要内容和方法。

▲ 数据空间参考架构模型的三个维度

数据空间建设涉及计算机科学、数据科学、信息资源管理和市场学等学科的理论和方法,是一个典型的多学科研究领域。因此,可以从不同角度去思考、理解和定义它。但无论如何理解和定义,其目标是一致的,都是为了促进数据的安全可信、高效流通、交易和共享,进而实现数据的价值,实现多元主体价值共创。需要明确的是,数据空间是一个功能性框架,任何数据空间都需要依据特定目标和需求进行规划、设计和开发。另外,数据空间建设不仅仅是技术问题,还涉及法律、经济、管理和治理等多方面的问题。

在本书的编写和相关问题的研究过程中,得到了郑州大学“双一流”建设新兴交叉学科培育项目“数据要素治理”,以及郑州航空工业管理学院信息管理学院的支持。多位老师参与了数据要素市场治理与数据空间内数据资产管理等方面问题的讨论和研究,其中,郑州大学的杨瑞仙和金燕教授编写了第11 章,郑州航空工业管理学院的李伟超教授编写了第12 章。

本文摘编自《可信数据空间建设理论与方法》(索传军著. 北京 : 科学出版社, 2025.6)一书“前言”“后记”,有删减修改,标题为编者所加。

ISBN 978-7-03-082107-2

责任编辑:孙力维  赵艳春

(本文编辑:刘四旦)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OBYs2EvYOmXHe_mnu57hXMwQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。
领券