什么是机器学习
随着计算机的发展,现在已经有存储和处理海量数据的能力。
比如一家连锁超市,拥有上百家分店,并且有数百万的顾客以及数千种商品。结账时终端记录了所有交易的详细资料。
只有分析这些数据,并且将其转为可以利用的信息时,这些存储的数据才变得有意义。例如预测购买商品就是一种应用。
确信存在某种过程,可以解释所观测的数据,尽管不清楚数据产生过程的细节,但是知道数据产生不是完全随机的。
如人们买啤酒时也会买薯片,夏天买冰淇淋,数据中存在确定的模式。
要相信能够构造一个好的并且有用的近似。尽管这样的近似不能解决一切。但其仍然可以解释数据的部分功能。
尽管识别全部过程也许不现实,但是仍然能够发现某些模式和规律。而且这些模式能够帮助我们理解该过程,或者可以使用这些模式进行预测。这正是机器学习的定位。
机器学习的方法应用在大型数据库中被称为数据挖掘。
然而机器学习不仅仅是数据库方面的问题,它也是人工智能的组成部分。为了智能化,处于变化环境中的系统必须具备学习的能力。
机器学习还可以帮助我们解决视觉、语音识别以及机器人方面的问题,以人脸识别为例子,计算机通过分析一个人脸部图像的多个样本,捕捉到特有的模式,然后在所给的图像中检测这种模式,从而进行辨认。这就是模式识别的一个应用。
机器学习使用实例数据或过去的经验训练计算机,以优化某种性能标准。我们有依赖于某些参数的模型,而学习就是利用训练数据或以往经验来优化该模型的参数。
模型可以是预测性的,也可以是描述性的。
机器学习在构建数学模型时用到了统计学的理论,因为其核心任务就是从样本中推理。
机器学习的应用
学习关联性
机器学习的一个应用就是发现关联规则,实际上可以理解为网店里的自动推荐。任务是发现顾客与所购商品之间的关联性。
为发现关联规则,我们对形如P(Y|X)的条件概率感兴趣,其中的X是我们知道的顾客已购买的商品或商品集,Y表示在条件X下可能购买的商品。
假如计算得到P(chips|beer)=0.7,可以定义购买beer的顾客中有70%的人也买了薯片。
如果为了区分不同顾客,可以使用P(Y|X,D),D是顾客的一组属性,如性别、年龄等。
分类
要理解分类,可以看这个例子。比如银行为了区分低风险客户和高风险客户,客户信息作为分类器的输入,分类器的任务是将输入指派到其中的一个类。
通过实际学习,得到区分高风险用户和低风险用户的规则,那么就可以预测新的申请是低风险还是高风险。
这是同样可以用P(Y|X)来计算的,X是顾客属性,Y是0或1,分别表示低风险和高风险。P(Y=1|X=x)=0.8,表示该客户为高风险的可能性有80%.
机器在模式识别方面有很多应用。如光学字符识别OCR,人脸识别,医学诊断,语音识别。还有知识抽取,压缩,离群点检测。
回归
假设根据有影响到车价格的属性计算出车的价格。这种输出就是回归问题。
机器学习用一个函数来拟合这些数据,y=wx+w0。
回归和分类均为监督学习问题。其中输入x和输出y给定,机器学习的方法是先假定一个模型: 。任务就是估计极可能地接近训练集中给定的正确值。
非监督学习
非监督学习没有指导者,只有输入数据,目标是发现输入数据中的规律。我们希望知道哪些经常发生,哪些不经常发生,这在统计学中称为密度估计。
密度估计的一个方法是聚类。目标是发现输入数据的簇或分组。聚类的一个应用是图像压缩。机器学习方法还应用于生物信息学。
增强学习
在某些应用中,系统的输出是动作的序列,在这种情况下,单个的动作不重要,重要的是策略。
机器学习能够评估策略的好坏,并从以往的好的动作序列中学习,以便能够产生策略。
游戏和机器人都是应用的例子。
注释
统计学中,从特殊的观测到一般性的描述称为推断,学习称为估计,分类在统计学中称为问题。
几乎所有的科学都在用模型拟合数据,该过程称为归纳。
领取专属 10元无门槛券
私享最新 技术干货