ICT技术、尤其是大数据的发展推动了新一代人工智能的兴起。那么,大数据思维与新一代人工智能有什么关系呢?
大数据思维有几个最典型的说法:是相关性而不是因果性、是全体样本而不是采样、简单算法胜过复杂算法。在我看来,这三个说法是有逻辑关系的。大数据的本质优势存在于:“是全体样本而不是采样”。这个特征意味着:发生问题时,我们总能在历史数据中找到相似的案例。在此基础上,根据案例去模仿、去判断。例如:要知道从宝钢到浦东机场的最快速度,找到最快的案例跟着走就可以了。当然,这个逻辑成立的前提是计算能力是足够强大。在此基础上,找案例往往是简单的算法:如果有难点的话,就是如何衡量相似度。而此这一点,常常可以根据人的经验去制定规则。于是,根据案例去模仿、去判断,也就不需要理解什么因果了:反正这样做是成功的、正常的,不必要知道为什么了。这种做法简单粗暴,但却有效。
通过这件事,我们可以反思一下关于大数据的定义。很多人用数据规模的定义“大数据”,主要着眼于数据的处理能力,是从乙方的角度看问题。对用户来说,这并不是一个很好的角度。如果从甲方的角度看问题、从满足业务需求、解决问题的角度看问题,用“是全体样本而不是采样”来定义大数据则更加有用。
从某种意义上说,新一代人工智能是应用大数据的一种方式。机器学习等方法把简单粗暴的处理办法提炼成了模型,但思想层面却还保存着“简单粗暴”的“基因”:新一代人工智能体现感性认识、形象思维,而不是逻辑思维、理性认识。例如,新一代人工智能的典型进进展图像识别、语音识别、围棋等,关键是模仿人的感知能力(围棋中,可以模仿人们对“势”的感觉)。我们知道,人的感性认识和形象思维很难通过人类和计算机语言告诉计算机的。这一点制约了相关技术的发展:比如,制约了自动驾驶、机器无法替代品酒师。机器学习则是让机器自己去掌握这些知识,而不必去编码。这就是周院长说的,从“授之以鱼”发展到“授之以渔”。
所以,与理性思维、逻辑思维相比,感性认识、形象思维并不是“低档次”的思维方式,而是基础的思维方式、是理性和逻辑思维无法替代的思维方式。这是新一代人工智能的价值所在。
从另外一个角度看,解决“感性认识”、“难以编码”的问题,采取的是神经系统的“结构模拟”、而不是“功能模拟”。这种方法的前身是人工神经元网络。人工神经元方法曾经没落过,因为它难以解决“不可泛化”的问题。可泛化的问题是通过“深度学习”来解决的——但是,只有在大数据和计算能力增强的条件下,深度学习才能解决可泛化问题,从而可以让计算机可以有效模拟难以编码的感性认识。或者说,如果数据量不够大、数据分布的完整性不够好,深度学习未必有用。
我一直觉得,大数据思维“是相关不是因果”的提法不好,容易导致思想上的混乱。特别地,工业大数据还是强调因果的。根据上面的分析,我觉得更确切的说法或许是:大数据的优势在于可以促进感性认识、形象思维的模仿,但并不排斥理性认识、逻辑思维。我甚至认为,深度学习促进了感性认识和理性认识的结合、形象思维和逻辑思维的结合。这种结合,就像从一维空间走到了二维空间,把一个大的技术蓝海展现在人们的面前。
领取专属 10元无门槛券
私享最新 技术干货