为了感谢我仅有的2个粉丝,并且希望能多那么几个粉丝的情况下,今天我再次来一点干货,助大家在和别人讨论机器学习的不至于一无所知,或者能够让人刮目相看。
机器学习在当今商业领域越来越多的行业占据着创新的前沿。但是,如果将机器学习视为一种单一的商业解决方案是一个错误的观念——机器学习有很多种形式,每种形式都有能力解决不同的问题。当今商业中最常用的机器学习(ML)形式有监督,无监督,半监督和强化学习。本文通过我的学习和经验,揭示了ML的四种常用方法,介绍了每种技术的实际应用,以便大家能够简单的了解。
机器学习一瞥
机器学习是人工智能的一种方法,它借鉴了计算机科学和统计学的原理来模拟数据中的关系,与其他将人类知识提炼为明确规则的AI系统(例如专家系统)不同,ML指示算法通过分析数据为自己学习。处理的数据越多,算法就越聪明。
机器学习不是一个新概念。其理论基础奠定于20世纪50年代,当时阿兰·图灵将“ 学习机 ” (learning machine)概念化,不久之后,弗兰克罗森布拉特发明了“ 感知器 ”(perceptron)来大致模拟大脑的学习过程。接下来还有更多算法,但机器学习直到最近才在很大程度受到学术界的重视。随着数据可用性和计算能力的爆炸式增长,企业最终有可能大规模部署机器学习。以下是机器学习的几大算法:
监督学习
如果你知道你想要预测哪个指标并且使用该指标标记了示例,则监督式学习是最佳方法。监督算法显示了一组样本数据的“正确答案”,并找到了近似输入和输出之间关系的函数。这个函数映射采用一般形式y = f(x)——指定你的目标输出y,提供你的输入x,ML算法将通过查找数据中的模式来学习最优f()。
监督学习输出通常有两种形式之一。回归输出是存在于连续空间中的实数值。例如,许多电子商务客户希望预测每个客户可能花费多少钱,以便高价值客户可以以个性化促销优惠为目标。一个简单的线性回归通过熟悉的公式y = mx + b来解决这个问题,其中y是预测支出,x是每个客户的一些属性——比如说网站访问次数。事实上,回归模型可能会输入数百个客户属性,每个客户属性都有自己的参数,但算法的行动机制仍然相同。
另一方面,分类输出则属于离散类别。例如,订阅客户通常希望确定最佳的沟通渠道来覆盖和保留每个用户,比如说电子邮件或推送通知。线性分类算法通过绘制每个用户的属性并找出将数据根据其标签分成两组的数据线来区分两者。已知对电子邮件有响应的用户会落在该线的一侧,而那些对推送做出响应的用户则会落在另一侧。
流行的监督学习算法:
无监督学习
当训练数据没有用于算法预测的特定标签时,使用无监督学习。如果没有“正确答案”进行训练,无监督算法的工作就会聚集数据,以揭示新的规则和模式。通过查找数据中的固有结构,可以获得重要而实用的见解,从检测出标记目标数据的异常,到揭示您的最佳客户的共同点。
流行的无监督学习算法:
半监督学习
大规模收集标签数据对许多商业组织来说都是一个挑战,但未标记的数据相对丰富。半监督学习利用这些丰富的未标记数据来更好地理解人口结构和分布。例如,提供住房贷款的银行可能希望识别哪些客户拥有房屋,但可能获得这些信息的机会有限。在半监督方法下,算法首先使用从标记数据中获得的信息来预测未标记数据的房屋所有权。接下来,标记数据和预测数据都通过监督框架来学习房主识别模型。尽管之前从未被评估过,
流行的半监督学习算法:
强化学习
强化学习用于计算机是代理与其环境进行交互以追求目标的情况。在这里,反馈是关键因素。该算法不是被证明是一个“正确答案”,而是提供了一个奖励信号,用于评估和调整其方法。凭借经验,该算法可以了解哪个操作序列为其提供最大化奖励和实现其目标的最佳机会。
强化学习通常需要大量的数据,但不会强迫您的企业对其目标高度具体化。比如说一些自动驾驶车辆学习驾驶,指示这些汽车只在两个广泛的条件下从A点到B点:遵守道路规则,不要撞车。剩下的是通过反复试验学到的。谷歌有名的AlphaGo程序也学会了使用增强技术来玩围棋。只有游戏的规则和赢得胜利的目标,AlphaGo了解到哪些举措倾向于最大化其成功机会。在第一步行动仅两年之后,AlphaGo就在这几年闻名于世界。
流行的强化学习算法:
领取专属 10元无门槛券
私享最新 技术干货