大数据给科学和教育事业的发展提供了前所未有的机会,同时也提出了前所未有的挑战。它将对现有的科研和教学体制带来大幅度的变革,对科学与产业之间的关系、科学与社会之间的关系带来大幅度的变革。总结一下,大数据的影响将主要来自以下几个方面。
首先,数据科学将成为科研体系中的重要部分,并逐渐达到与包括物理、化学、生命科学等学科在内的自然科学分庭抗礼的地位。未来的科研和教育体制应该由两条主线组成:一条是以基本原理为主线。现在的物理学、化学、机械工程等学科,以及生命科学、材料科学、天体物理、地球科学等学科的大部分都是沿着这样一条主线展开的。另一条是以数据为主线。它包括统计学、数据挖掘和机器学习、生物信息学、天体信息学、以及许多社会科学的学科。它还包括一些新兴的学科,如计算广告学。数据科学的兴起,将极大地推动许多社会科学学科朝着量化的方向发展,使他们逐步脱离经验性的模式。
其次,科学研究和市场、和产业的联系将变得更加密切,从发现基本原理到产业化的周期将会被大大地缩短。这可以从谷歌的例子看出来。谷歌的发展,从搜索引擎的一个概念和算法上的突破到进入市场、变成产业,只经过了短短几年的时间。这样的例子在数据科学和信息产业并不陌生。但在传统的自然科学领域,从基本原理的突破,到技术、到产业,往往要经过一个漫长的过程。
再次,数据的主要来源之一是社会,如互联网、社交网络、公共交通、智慧城市等等。所以数据科学的研究与我们的日常生活、与社会有着密切的联系。比方说,谷歌和百度的网络搜索算法就对我们的日常生活产生了很大的影响。所以人们日常生活中的需要以及社会的需要将成为数据科学的主要问题来源之一。
科学研究最重要的一环是提出前瞻性的问题。提不出问题,就只能跟在别人后面,走一条从文献到文献的路子。对我国的科技界来讲,在很多学科,由于来自实际应用领域的限制,提出前瞻性问题的确是件很困难的事情。但数据科学则不然。由于我国人口众多这一特殊情况,和我们特殊的文化、文字、历史背景和社会发展的需要,我们在数据科学领域的很多问题自然就是最富有挑战性的,最具有前瞻性的。关键是我们能否用前瞻性的方法去面对这些问题。如果做好了这一点,我们在数据科学领域就自然而然地走到了世界的前沿。
领取专属 10元无门槛券
私享最新 技术干货