首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习笔记(一)

笔者作为一个菜鸟,在这里为大家分享一些有关机器学习的浅显见解。在生活当中,我们不仅可以将机器学习运用于纯互联网上,也可以将机器学习用于我们的硬件产品上,从而实现我们的万物智联。也就是从物联网到智联网的转变。同时,将机器学习的算法植入到我们的机器人当中,机器人就会自己进行像人类一样地学习。这里面又有很多分支,比如说自然语言识别方向,这是让计算机能够听得懂人们在说什么的方向,这里面就比较适合做纯数学(代数方向)的人来研究了。计算机视觉(这是一个十分适合学物理的人研究的方向,俗话说“要做物理先画图。”而在计算机视觉领域,除了单纯的代数以外,更多的是空间解析几何的应用)

机器学习当中的算法和我们平时所遇到的普通《算法导论》上的算法十分不同,里面的算法都是以我们的数学为基础的,而不是单纯地依靠逻辑推理以及演绎。如果您大学不是数学专业的,那么至少要熟悉同济版小绿皮《高等数学》,小紫皮《线性代数》以及浙大版《概率论与数理统计》。这些数学对于机器学习来说其实还是远远不够的,比如我们的高数当中的泰勒展开,仅仅学习了一维展开和高数下册打星号的简单二维展开。在真实的机器学习当中我们经常用到的是n维展开。积分至少也得三重。笔者由于仗着自己高一学过高数,大一上期完全没有认真看高数,因此很多高数知识都忘记了,并且造成了诸多恶果。因此我们应该从现在开始认真复习高数。

做机器学习的推荐书目:

《机器学习》 周志华 清华大学出版社

2.《统计学习方法》李航 清华大学出版社

3.《机器学习实战》 清华大学出版社,作者是谁我记不清了。

学完这三本书,再加上你强大的Python/C++编程能力,对各种现有的机器学习框架了然于心间的话,你在北京找到月薪35k以上的工作实在是太轻松了。如果您对机器学习还有更深层次的兴趣,不想仅仅找到一个工作,而是想利用机器学习改变我们现有的物质世界,创造属于机器人的精神世界的话。您可以进一步研究《图论》,《信息论》,《优化设计》等书目。当你把所有数学理论学习好后,就可以创造出属于自己的门派,创造出属于自己的公式了。当然这对个人资质要求较高,是可遇而不可求的。李飞飞就是其中的典型代表,她作为一个女性科学家,在谷歌供职,担任首席工程师,目前的年薪是两千万美金!!国内旷世科技的创始人也是很强的。

现在开始分享机器学习的模型评估与选择的方法。

在机器学习当中有经验误差和过拟合。我们把分类错误的样本数占样本总数的比例叫做“错误率”。假设有m个样本,有a个样本分类错误。则错误率为E=a/m;同样的,我们把1-a/m称为“精度”。

然而,当我们把计算机的大脑训练得“太好了”的时候,就会出现“过拟合”,很可能把训练样本自身的一些特点当做了所有潜在样本都会具有的一些性质,这样就会导致泛化性下降(就是普遍性下降)。与“过拟合”相对应的是“欠拟合”。欠拟合比较容易被克服,我们可以在决策树当中扩展分支,在神经网络下增加训练的轮回数目等。但是各类算法最难克服的则是“过拟合”了。目前还没有很好的方法来解决它,这就期待着我读者的创造来解决这一物理上的难题了。

我们在机器学习当中常常会用到机器学习性能的度量,来反映可靠可行的实验评估方法。在预测任务当中,给定样集如图所示(笔者手写):

其中的要评估学习器f的性能,就要把学习器的预测结果和f(x)与真实值y进行比较。在理论统计物理学与热学当中,最常见的性能度量就是“均方误差了”,其计算公式如下:

更一般的话,我们引入概率密度p(.)来进行计算:

于是我们可以利用这种数学方法来描述错误率的大小:

精度(acc)则被定义为:

下一期我将会为大家分享查准率,查全率与F1的计算方法。不要看笔者的字写得很丑,我是故意的。对于学习理科的人来说,字写得越丑越好,重要的是你的逻辑,你的思想,你的公式,只要看得懂就行了,写得过于好看的人往往不适合学习理科。因为这种人一般比较外向,追求表面上的美。是不值得提倡的。在今后机器学习发展的年代,所有外向的人都会被淘汰掉。这也是我们生活当中右撇子较少的缘故。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180324G1F61B00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券