在中文中, “数据”一词从字面上简单看似乎比英文data有直白的内涵:数字+论据;然而data作为datum的复数形式,起源于拉丁文,在历史上也是具有同样丰富的内涵。在当前炙手可热的数据科学潮流下,重温data一词的起源,不忘初心。
根据google的解释,英文的”数据“datum的起源是这样的
datum
ˈdeɪtəm/
noun
noun:datum; plural noun:data
Origin
mid 18th century: from Latin, literally ‘something given’, neuter past participle ofdare‘give’.
据此来看,datum既有数据的输入功能(something given),也有包含有推理假设 (inference, hypothesis )的含义。data的历史使用频率自20世纪初稳步上升,到21世纪初基本已经到达高峰频率。
在学习了数据这个词的起源之后,你是不是对data这个词已经不仅仅停留在一堆010101010数字的理解层面了?
而在21世纪以来,大数据、数据科学、数据学习等围绕数据的各类新型理论和技术发展一浪高过一浪,大有“万物皆数”的趋势。但是,“数”、“数学”、“数据”,或者说 "number", "math", "data",是三种不同的概念。在这三种这种,“数据”是带有强烈的 推断、推理、论证色彩的。
因此,跟“数据”一词最能对应的,个人认为应该是“应用和计算数学”----前者输入的是数字世界,输出的是人类解决问题需要的推断、论点或者决策,后者输入的是自然科学的基本原理,输出的是数学形式和数值算法表达的答案。
当然,以上这种划分是一家之言,简单粗暴不精细的(比如,二者偶有交叉部分、输入输出常有相互的迭代等等),二者实现的技术手段也不竟完全相同。但是,其核心都需要吸取“数学”这个基础学科皇后母亲的乳汁,都面临如何具体准确又广泛稳定适用的建模挑战,历史上,问题的离散-连续性,曾是二者的分水岭,除了统计学科在其中充当着中间人的角色。可是,今天随着图像科学、机器学习、深度学习等领域的突起,离散正在连续化、连续正在离散化,应用呼唤沉睡的理论,理论需要应用的指挥,各个领域的研究正在走向深度融合,这一点其实在自然学科早已经反映在如 “物理化学”、“化学物理”、“生物医学”、“生物化学”等等这些貌似稀奇古怪的学科名词上。
领取专属 10元无门槛券
私享最新 技术干货