文/胡本立(协同数据联合创始人,国际数据管理协会中国区创始和现任主席。曾任世界银行首席信息技术官,负责世界银行信息技术总体架构的设计、开发和运行。后任中国香港证券及期货事务监察委员会首席信息官、顾问,中国证监会战略及规划委员会委员,中国社保基金理事会高级技术顾问,惠普中国咨询总顾问等。)
目前,关于数据管理的讨论缺乏以人为本的视角。下一代的数据管理需要从人认知的角度重新反思数据究竟是什么,以及人与数据是如何互动的,才能更好地管理好它们。
数据管理有两个核心概念:一个是“数据”,一个是对它的“管理”。两者都不是新的概念,已经使用了数百年。从中文的“数”和“据”来讲,可能更早,有上千年的历史。除自然界产生的数据外,人一直是所有数据的产生者和使用者。要理解数据是什么,就应该从人的认知过程进行理解。
正确认识数据
我们能听到的和看到的(输入)、说出的和写出的(输出)都是数据。可以毫不夸张地说,我们每个人,无论是大人还是小孩,是专家还是普通员工,每时每刻都在接收、处理和产生数据,有意无意都在“管理”数据,只是各人所处的场景不同、所用的数据管理工具不同而已。
在数字时代,理解“数据”是什么,是理解许多其他概念的基础。我认为,数据对人来讲就是能感知的信号(输入的是对人的生理刺激,输出的是人对脑中的概念和思考的各种表示,包括人的行为)。数据的存在形式是物理信号。人沉浸在各种物理信号之中,这些物理信号有的能被人直接感知,有的不能被直接感知。自然界或人处理数据的过程是一个不断循环的过程。
数据的本质是表示(或表征)。人们最感兴趣的是希望发现数据表示后面的内涵或规律。自然界数据表示的是自然规律,人产生的数据是人对脑中相关概念和思维的表示。尽管它们都是物理的,但后者是通过人的感知、概念/ 思维、语言映射的结果。数据后面的人的认知过程应是理解数据管理的重要部分。
数据的产生是一次性的,可以设想每个数据有它产生的时间戳。它被改动就是一个新的数据,不应被认为是老数据生命周期的继续。数据具有循环性,产生的数据不断被循环使用。每个实体(包括自然界、人、机器)既是数据的产生者又是使用者。我们提到“数据源”或“数据驱动”,指的是在某一循环中的某一阶段的数据,驱动这一循环的是人,而不是数据本身。人的学习过程就是人与数据从不终止互动的循环过程。为模拟人的学习,美国卡内基• 梅隆大学著名机器学习专家汤姆• 米切尔(Tom Mitchell)曾提出了机器从不终止学习的算法,称为NEL(Never Ending Learning)。
人工智能希望模拟人对数据的处理,但与人处理数据的机制和过程不同,它取得的进步是不断受到脑科学和认知科学启发的结果。人工智能与传统数据管理处理数据的过程也不同,人工智能直接从数据作为信号开始,而传统数据管理从人已形成的概念的表示开始。我们希望在认知科学的基础上,通过跨学科和跨行业的交流、研讨和理解,把以上不同的数据处理方法融合起来,有助于各学科和各行业的协同、全面发展。
数据世界
数据管理行业的现状及挑战
随着数据的重要性被广泛理解和接受,各企业和行业对数据管理也越来越重视。数据管理不再被业务和管理层认为仅仅是信息技术部门的事,但在如何打通技术、业务和管理层对数据的不同理解和处理上还有许多工作要做。在横向上,如何打通不同业务部门间、不同行业间数据的交叉共享仍面临许多挑战。
企业高管层对“数据管理”应由哪个部门负责并没有明确的认识,组织结构也不清楚。最近一次对全球企业高管的调查发现,75% 高管认为,尽管信息技术部门需要介入,但数据质量问题最终应由业务部门负责,业务部门如果不能直接控制数据,将影响企业实现其战略目标。在业务交叉环境下的数据管理,跨部门、跨行业的数据该如何定义、分类是目前数据管理的主要挑战。数据管理与从人认知的高度和深度来理解数据孤岛的形成原因,以及提出切实可行的解决方案还有很大的差距。
在数字经济时代,要想为未来做好准备并获得真正的商业价值,企业需要重新构建数据管理策略和技术,并在多个位置进行管理,采用先进的数据管理理念、工具和技术来将这一切转化为竞争优势。
人工智能给传统数据管理带来的启发和冲击
从数据无终止地不断被产生和使用循环来看,传统数据管理关注的是如何按各种需求把存在于人脑外的数据储存在机器中、取出、挖掘和分析,而人工智能是希望能模拟数据如何在人脑内被人感知、概念化、语言化的过程。
按照目前数据量和种类增长的态势,传统的以人工为主的数据管理和处理很难继续或跟上,但这些工作有多少能由人工智能替代目前尚不清楚,二者对数据处理的方法、过程和技术区别很大。目前,人工智能只能通过各种统计算法在模式层次上来分类、识别数据,达不到传统数据管理为业务需要提供概念层的定义、分类、结构等。给机器输入大量的数据和复杂算法,结果有时会“不可解释”,这在传统数据管理中是无法理解的。但是,如果我们能把基于概念的传统数据管理与基于统计算法处理数据的人工智能对接并融合起来,这将可给包括数据管理行业在内的所有行业和产业,提供与数字时代所需要和匹配的新的数据管理平台。
从数据管理行业的角度来看,我们希望通过结合传统数据管理和人工智能处理数据的各自优势对目前数据管理中的难题,如数据孤岛、跨界的数据如何定义、分类和共享等,有所突破。然而,这一突破面临的仍是一个需要理解对跨界数据如何被交叉认知的挑战,最终还是需要以人为本,依靠人对数据的思考和启发来发现和实现。
国际数据管理协会的
“数据管理知识体系”
国际数据管理协会简称DAMA国际,其中DA 代表数据,MA 代表管理。DAMA 国际是一个全球性技术和业务数据管理专业志愿人士组成的非营利协会,致力于数据管理的研究和实践。国际数据管理协会在全球有40 多个分会,由7000 ~8000名数据管理专业人员组成,协会理事会由志愿者每2年1 次选举产生,负责协会的日常管理。
DAMA 国际自1988 年成立以来,在数据管理领域累积了丰富经验。它的“数据管理字典”和“数据管理的知识体系和指南”(Data Management Body of Language,DMBOK)集业界数百位专家的经验于一体,是数据管理业界最佳实践的结晶,已成为数据管理工作的经典参考和指南,在全球范围内广受好评。
DAMA 中国是DAMA 国际的中国分会,是国际、国内数据专业人员在数据管理领域进行知识交流、经验共享、共同发展的一流平台。其目的是帮助推广数据管理的最新理论、最佳实践,提高各行业数据管理的水平,促进数据管理与业务管理的有机结合。
以上二图简要地描述了DAMA中国在企业内和市场中的定位,从中可以看到它尤其希望帮助交流和讨论数据在跨层次(技术、业务、管理)和跨部门、跨行业中遇到的一系列数据交叉定义、分类和共享的挑战,以及国内外相关的最新进展和最佳实践。我们认为,这些是目前整个数据行业面临最具挑战和最有创新可能的方面。
1
我觉得,目前对数据和所谓智能的讨论过于集中在机器方面,对数据后面人的认知过程的重视、讨论和理解还远远不够。我们希望通过举办“数据后面的科学”跨界研讨,建立基于人认知的下一代的数据管理知识体系,帮助和推动各学科、各行业、各产业更高效地协同发展。
领取专属 10元无门槛券
私享最新 技术干货