商业案例:预测现场的燃料消耗。
比方说燃料消耗C,取决于各种因素x1,x2,...xn。所以从数学上讲,C= F{x1,x2,...xn}。我没有任何方程式来表达这个问题。
我确实有历史数据集,从中我可以获得C与x1、x2的相关性。等C,x1,x2,..都是定量的。对于像我这样统计知识有限的人来说,对于n变量方程来说,找出相关性似乎很困难。
因此,我正在考虑采用一些有监督的机器学习技术来实现同样的目的。我将使用历史数据训练分类器,以获得下一次消费的预测。
问:我的思考方式正确吗?问:如果这是正确的,我的系统应该是一个不断发展的系统。因此,我将向系统提供的真实数据越多,就会改进我的模型,以便在下一次做出更好的预测。这是一个正确的理解吗?
如果以上陈述属实,AdaptiveLogisticRegression算法,如Mahout中所示,对我有帮助吗?
向这里的专家寻求建议!
提前谢谢。
发布于 2013-01-30 19:13:48
好吧,相关性不是一个预测模型。相关性只是基于协方差的数据集之间的某种关系。
为了开发预测模型,您需要执行的是回归。
回归的最简单形式是线性单变量,其中C=F (x1)。这可以在Excel中轻松完成。然而,您声明C是多个变量的函数。为此,您可以使用线性多变量回归。有一些标准包可以执行此操作(例如,在Excel中),或者您可以使用Matlab等。
现在,我们假设C和X的分量(输入向量)之间存在“线性”关系。如果关系不是线性的,那么您将需要更复杂的方法(非线性回归),这可能很好地采用机器学习方法。
最后,一些序列表现出自相关性。如果是这种情况,那么您可以忽略C= F(x1,x2,x3...xn)关系,而直接使用时间序列技术(例如x1和更复杂的变体)对C函数本身建模。
我希望这能有所帮助,斯里坎特·克里希纳
https://stackoverflow.com/questions/14522726
复制相似问题