首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

在 Azure 机器学习中使用线性回归

Kate Baroni和Ben Boatman是 Microsoft 数据科学卓越中心中的企业解决方案架构师。 在本文中,他们将描述使用 Azure 机器学习将现有的回归分析套件迁移到基于云的解决方案的经验。

一、目标

我们的项目开始时有两个目标:

使用预测分析来提高我们组织每月收入预测的准确性

使用 Azure 机器学习确认、优化、加快我们的成果速度和规模。

与许多企业一样,我们的组织每月也会经历收入预测过程。 我们的业务分析师小组的任务就是:使用 Azure 机器学习来支持过程并改进预测的准确性。 小组花费了几个月的时间从多个源中收集数据,并通过标识与服务销售预测相关的重要属性的统计分析来运行数据属性。 后续步骤是要开始在 Excel 中为数据建立统计回归模型的原型。 在几个星期内,我们便有了 Excel 回归模型,其效果优于当前字段和财务预测过程。 这也成为预测结果的基线。

然后,我们采取了下一步,将我们的预测分析转移到 Azure 机器学习,以了解机器学习如何改进预测性能。

二、实现预测性能奇偶校验

我们最优先的任务是实现机器学习和 Excel 回归模型之间的奇偶校验。 对我们想要在 Excel 和机器学习之间实现预测性能奇偶校验的训练和测试数据,指定相同的数据,以及相同的拆分。 最初我们失败了。 Excel 模型的性能优于机器学习模型。 失败的原因是由于对机器学习中基本工具设置缺乏理解。在与机器学习产品小组同步讨论后,我们得以更好地理解了数据集所需的基本设置,并实现了两个模型之间的奇偶校验。

在 Excel 中创建回归模型

我们的 Excel 回归使用 Excel 分析工具库中找到的标准线性回归模型。

我们计算出平均绝对百分比误差,并将其用作模型的性能度量。 花费了 3 个月的时间来实现使用 Excel 的工作模型。 我们将许多学习经验带到机器学习工作室实验中,最终有益于了解相关要求。

在 Azure 机器学习中创建可比较的实验

我们遵循以下步骤在机器学习工作室中创建实验:

将数据集以 csv 文件上传到机器学习工作室(非常小的文件)

创建新实验,并使用数据集中的选择列模块,选择在 Excel 中使用的相同数据功能

使用拆分数据模块(在相对表达式模式下),将数据分成相同的训练数据集(正如在 Excel 中所执行的操作)

使用线性回归模块实验(仅默认选项)、记录,并将结果与我们的 Excel 回归模型进行比较

查看初始结果

起初,Excel 模型的性能明显优于机器学习工作室模型:

当我们向机器学习团队的开发人员和数据科学家运行我们的过程和结果时,他们快速提供了一些有用的提示。

在机器学习工作室中使用线性回归模块时,有两种方法可供选择:

在线梯度下降:可能更适合于大规模的问题

普通最小二乘法:这是大多数人在听到线性回归时会想到的方法。对于小型数据集,普通最小二乘法是较好的选择。

考虑调整 L2 正则化权重参数,以提高性能。默认情况下,其设置为 0.001,而对于我们的小型数据集,将其设置为 0.005 以提高性能。

谜题解决了!

在我们应用建议时,我们在机器学习工作室中实现了与 Excel 的相同基线性能:

此外,Excel 系数相较于 Azure 训练模型中的功能权重不相上下:

三、后续步骤

我们想要在 Excel 内使用机器学习 Web 服务。 我们的业务分析人员依靠 Excel,而我们需要一种方法来调用机器学习 Web 服务和 Excel 数据,并使其将预测的值返回到 Excel。

我们还想使用机器学习工作室中可用的选项和算法来优化模型。

与 Excel 集成

我们的解决方案是:通过从训练模型中创建 Web 服务,使我们的机器学习回归模型实现可操作化。在数分钟内,Web 服务即已创建,我们可以直接从 Excel 进行调用,以返回预测的收入值。

Web 服务仪表板部分包括可下载的 Excel 工作簿。该工作簿已使用 Web 服务 API 进行预格式化,并嵌入了架构信息。单击“下载 Excel 工作簿”时,工作簿会打开,用户可以将其保存到本地计算机。

在工作簿打开时,请将预定义的参数复制到蓝色的 Parameter 部分,如下所示。一旦输入这些参数,Excel 即会调用机器学习 Web 服务,而且会在绿色预测值部分显示预测的评分标签。该工作簿会根据在 Parameters 下输入的所有行项,继续根据训练模型创建预测。有关如何使用此功能的详细信息,请参阅从 Excel 使用 Azure 机器学习 Web 服务。

优化和进一步实验

至此,我们已经有了一个使用 Excel 模型的基线,接下来我们对机器学习线性回归模型进行了优化。我们使用了模块基于筛选器的功能选择来改善所选的初始数据元素,并且它帮助我们实现了平均绝对误差 4.6% 的性能提升。对于将来的项目,我们将使用此功能,它可以在通过数据属性进行迭代以找出用于建模的正确功能集方面,为我们节省数周的时间。

接下来,我们计划在实验中包含其他算法,如贝叶斯或提升决策树,用于性能比较。

如果要实验回归,能源效率回归示例数据集即是可用于尝试的好的数据集,其中包含很多数值属性。数据集作为机器学习工作室中的示例数据集的一部分提供。可以使用各种学习模块来预测加热负载或冷却负载。下表是针对目标变量冷却负载预测的能源效率数据集的不同回归学习的性能比较:

四、要点

通过从并行运行 Excel 回归和 Azure 机器学习实验,我们学到了很多。 在 Excel 中创建基线模型,并将它与使用机器学习线性回归的模型进行比较,帮助我们了解 Azure 机器学习,并且我们发现了改进数据选择和模型性能的机会。

我们还发现,最好使用基于筛选器的功能选择以加快将来预测项目。通过对数据应用功能选择,可以在机器学习中创建改进的模型,以获得更好的总体性能。

将预测分析预测从机器学习系统地传输到 Excel 的能力,使得成功地为广泛业务用户受众提供结果的能力显著增加。

五、资源

下面是一些可帮助用户处理回归的资源:

Excel 中的回归。如果从未尝试在 Excel 中使用回归,可参阅本教程轻松完成操作:http://www.excel-easy.com/examples/regression.html

回归与预测。Tyler Chessman 撰写的博客文章,介绍了如何在 Excel 中进行时间序列预测,其中包括适合初学者的线性回归描述。http://sqlmag.com/sql-server-analysis-services/understanding-time-series-forecasting-concepts

普通最小二乘法线性回归:缺陷、问题和陷阱。有关回归的简介和讨论:http://www.clockbackward.com/2009/06/18/ordinary-least-squares-linear-regression-flaws-problems-and-pitfalls/

官网阅读地址:

https://io15302000.jz.fkw.com/col.jsp?id=105

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180707B0WMGQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券