松果财经获悉,近日,2023年度全国前沿交叉研究院院长联席会文理交叉论坛在中国人民大学举办。中国人民大学教授杨翰方发布重要研究成果,首次提出数据即可计算的记录的全新定义。
近年来数据要素被高度重视,围绕数据的新制度、新机构与新实践不断涌现,与此同时,人们对“数据”定义的认识尚不够充分,间接造成了理念的争执与实践的挑战。通过对比国内外各个领域的官方数据定义,杨翰方教授生动阐释了多种“数据”定义的现有问题及形成背景,并呼吁加强对数据基础概念和理论的重视与研究。
理想的数据定义应做到五项原则:1、能够契合历史上各个阶段的主流数据生产方式,包括结绳记事、问卷调查、实验测量及信息系统等;2、能够充分体现“数”与“据”在中文语境下的基本含义;3、能够衔接前沿技术,尤其是大型语言模型对数据概念的要求;4、定义项与被定义项是对等,即逻辑上可交换顺序;5、简洁、明确,便于各界理解,形成共识。
最后,杨翰方教授提出满足上述五项原则的数据新定义:可计算的记录。该定义用“可计算”对应“数”,用“记录”对应“据”,以求名正言顺。同时,该定义将数据定义在常用语言上,“计算”与“记录”是自古至今一贯的数据实质。数字化文本、图像及音频均具备可计算属性和记录属性,能够被纳入数据范畴,符合当代数据科学发展趋势。
随着《关于构建数据基础制度更好发挥数据要素作用的意见》和《企业数据资源相关会计处理暂行规定》等文件密集发布,关于数据基础理论的若干问题应尽早厘清,规范相关概念的内涵和边界,加快数据学科的学理化形成,推动数据学科的自主知识体系建设。
领取专属 10元无门槛券
私享最新 技术干货