AI 领域面临者一个巨大的问题,如何做到无监督学习?因为有监督学习从数据清洗、特征工程、算法设计、模型训练与优化,到之后的实施、部署阶段,人力和时间成本很高,给 AI 的普及带来了不小麻烦。所以想问下目前AI领域无监督学习有哪些难点?
AI领域目前主流的学习方式是无监督学习,无监督学习主要是通过大量已经人为标注好的数据进行训练。这需要耗费大量的人力物力。而且很难在实际运行中边工作边学习。比如说图像分类,我们利用大量标注好的数据对模型进行训练,训练好以后将模型应用到实际应用的场合。但是模型的参数在实际应用中将不再发生变化,除非再使用标注好的数据对模型二次训练。也就是说模型本身难以对自己识别的结果进行判断,只能在人为的帮助下才能得出什么是对的什么是错的。
而无监督学习则是对一大堆混乱的原始数据进行处理。并将其组织分类并找出例外。目前的无监督学习方法主要有主成分分析法,K均值聚类法、随机森林法等等。在说无监督学习之前先提一下当前最为成功的无监督学习成果:Google Brain。该模型由Google团队开发,模型本身可以自主学习自己的特征,该模型已经利用YouTube视频原始数据中自主学习识别出一只猫。
目前无监督学习还相当不成熟,很难在实际中有所应用。比如,计算机“思维”的方式与人类有很大的区别,它很难像人类一样“举一反三”。而目前的AI学习事物之间的关系主要依靠人为的编程和数据填喂来实现某一功能,这缺乏核心的“思考”过程。所以说在无监督的场合,计算机很难自己去发掘数据之间的联系。但是让计算机有自主的思维,这对于目前来说几乎是不可能的事情。此外,在机器学习领域,输入数据一般是现实生活中的数据。这些数据存在着动力学特征、逻辑联系等等,对于人类来说,这很容易找到其中的关系、但是对只有逻辑计算能力和数学计算能力的计算机来说,这很难去理解。如果脱离了现实基础,仅仅给你一堆数学数据,你肯定更加一脸懵逼。因为数学数据太过于抽象了。
首先我觉得无监督学习迷雾重重,目前无监督学习领域并没有一个好的正确的方向。但是,本身无监督学习相比于有监督学习要难许多。而且我认为无监督学习应该归属到强人工智能领域。而有监督学习应该归属到弱人工智能领域。所以我认为无监督学习的设计模式、设计方法应该跟有监督学习完全不同。但是,目前的无监督学习好像完全是在有监督学习的基础之上发展的,甚至还有提出处于有监督学习与无监督学习之间折中的方案:半监督学习。我认为这是不对的,我们如果研究无监督学习,就应该完全抛弃有监督学习,不能被有监督学习中的理论、方法所影响到。尽管有监督学习目前已经取得了不错的成果。但是这很容易影响我们的思维,让我们的思维束缚在有监督学习的框架中。
无监督学习难题很多,目前仍然没有一个重大的突破性进展出现。需要我们的思维有重大的跳跃才能找到一个好的解决方案。
对于无监督学习领域。我只能回答这个领域才刚刚起步。而当下无监督领域流行的算法相比有监督学习来说差别很大。机器学习目前还在有监督学习阶段发展,不过目前有慢慢向无监督学习发展的趋势,从而出现了半监督学习。比如康奈尔大学研究出的半监督学习的方法:主要是结合贝叶斯和对抗生成网络提出来的。
我认为无监督学习缺乏一个明确的理论。目前提出的无监督学习的理论都与期望差别过大,效果也非常差。其次,与有监督学习相比,无监督学习难以对模型进行训练。大量的原始数据需要有监督学习模型自己去进行分类与学习,然后通过这些数据对模型进行训练。最后,无监督学习缺乏反馈。我的专业是自动化,所以对于自控控制中的反馈模型非常熟悉。反馈模型在有监督训练中也有着广泛的应用。这对于机器学习非常有用,机器学习可以通过反馈对模型进行调整。