首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >使用apache mahout进行增量监督学习的用例

使用apache mahout进行增量监督学习的用例
EN

Stack Overflow用户
提问于 2013-01-25 13:26:52
回答 1查看 386关注 0票数 0

商业案例:预测现场的燃料消耗。

比方说燃料消耗C,取决于各种因素x1,x2,...xn。所以从数学上讲,C= F{x1,x2,...xn}。我没有任何方程式来表达这个问题。

我确实有历史数据集,从中我可以获得C与x1、x2的相关性。等C,x1,x2,..都是定量的。对于像我这样统计知识有限的人来说,对于n变量方程来说,找出相关性似乎很困难。

因此,我正在考虑采用一些有监督的机器学习技术来实现同样的目的。我将使用历史数据训练分类器,以获得下一次消费的预测。

问:我的思考方式正确吗?问:如果这是正确的,我的系统应该是一个不断发展的系统。因此,我将向系统提供的真实数据越多,就会改进我的模型,以便在下一次做出更好的预测。这是一个正确的理解吗?

如果以上陈述属实,AdaptiveLogisticRegression算法,如Mahout中所示,对我有帮助吗?

向这里的专家寻求建议!

提前谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-01-30 19:13:48

好吧,相关性不是一个预测模型。相关性只是基于协方差的数据集之间的某种关系。

为了开发预测模型,您需要执行的是回归。

回归的最简单形式是线性单变量,其中C=F (x1)。这可以在Excel中轻松完成。然而,您声明C是多个变量的函数。为此,您可以使用线性多变量回归。有一些标准包可以执行此操作(例如,在Excel中),或者您可以使用Matlab等。

现在,我们假设C和X的分量(输入向量)之间存在“线性”关系。如果关系不是线性的,那么您将需要更复杂的方法(非线性回归),这可能很好地采用机器学习方法。

最后,一些序列表现出自相关性。如果是这种情况,那么您可以忽略C= F(x1,x2,x3...xn)关系,而直接使用时间序列技术(例如x1和更复杂的变体)对C函数本身建模。

我希望这能有所帮助,斯里坎特·克里希纳

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14522726

复制
相关文章
Apache Mahout的KMeans算法测试
Mahout是Hadoop中实现数据挖掘的包,虽然现在一般用spark mlib,但是为了做比较,想着将mahout的算法进行验证测试一下。。
sparkexpert
2022/05/07
6200
Apache Mahout的KMeans算法测试
如何使用Mahout在hadoop进行集群分析
Mahout是Apache下的开源机器学习软件包,目前实现的机器学习算法主要包含有协同过滤/推荐引擎,聚类和分类三个部分。Mahout从设计开始就旨在建立可扩展的机器学习软件包,用于处理大数据机器学习的问题,当你正在研究的数据量大到不能在一台机器上运行时,就 可以选择使用Mahout,让你的数据在Hadoop集群的进行分析。 Mahout某些部分的实现直接创建在Hadoop之上,这就使得其具有进行大数据 处理的能力,也是Mahout最大的优势所在。相比较于Weka,RapidMiner等 图形化的机器学习软
企鹅号小编
2018/02/11
1.6K0
如何使用Mahout在hadoop进行集群分析
机器学习入门——使用python进行监督学习
什么是监督学习? 在监督学习中,我们首先要导入包含训练特征和目标特征的数据集。监督式学习算法会学习训练样本与其相关的目标变量之间的关系,并应用学到的关系对全新输入(无目标特征)进行分类。 为了说明如何
AiTechYun
2018/03/02
1.5K0
机器学习入门——使用python进行监督学习
无监督学习的12个最重要的算法介绍及其用例总结
无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。
deephub
2022/11/11
1.3K0
无监督学习的12个最重要的算法介绍及其用例总结
Apache mahout中HMM(隐马尔可夫)算法的测试
  隐马尔可夫模型(Hidden Markov Model,HMM)是概率学上的一种统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。
sparkexpert
2022/05/07
2870
Apache mahout中HMM(隐马尔可夫)算法的测试
[Nature Communications | 论文简读] 使用弱监督深度学习进行准确的体细胞变异检测
Accurate somatic variant detection using weakly supervised deep
智能生信
2022/12/29
2610
[Nature Communications | 论文简读] 使用弱监督深度学习进行准确的体细胞变异检测
mahout学习之推荐算法
推荐的定义 推荐算法可以分为三大类,基于用户的,基于物品的和基于内容的,前两者均属于协同过滤的范畴,仅仅通过用户与物品之间的关系进行推荐,无需了解物品自身的属性。而几乎内容的推荐技术很有用,但是必须与特定领域相结合,比如推荐一本书就必须了解书的属性,作者,颜色,内容等等。但是这些知识无法转移到其他领域,比如基于内容的图书推荐就对推荐哪道菜比较好吃毫无用处。 所有mahout对基于内容的推荐涉及很少。 基于用户的推荐 算法 基于用户的推荐算法来源与对相似用户爱好的总结,一般过程如下: for (用户u尚未
用户1665735
2018/06/20
1.6K0
RUP:用例驱动、以架构为中心的迭代增量开发模式
在软件开发中,我们常常寻找能够提高效率、减少错误、并满足业务需求的有效方法。Rational Unified Process(RUP),即Rational统一过程,是一种为了满足这些需求而生的开发模式。RUP是一个用例驱动、以架构为中心的迭代增量开发模式,可以帮助我们更好地进行软件开发。
运维开发王义杰
2023/08/10
2.2K0
RUP:用例驱动、以架构为中心的迭代增量开发模式
Apache Spark:来自Facebook的60 TB +生产用例
浪尖整理翻译https://databricks.com/blog/2016/08/31/apache-spark-scale-a-60-tb-production-use-case.html。
Spark学习技巧
2018/09/25
1.3K0
Apache Spark:来自Facebook的60 TB +生产用例
如何利用nologin的账号进行登录——以Apache为例
linux上的账号分为两种,一种就是普通的登录用户,比如上面的 root,xiaoming。 这些用户可以用ssh与服务器进行连接
宸寰客
2020/07/16
1.5K0
论文推荐:使用带掩码的孪生网络进行自监督学习
最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作,我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向,本篇文章将介绍Masked Siamese Networks (MSN),这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图像视图的表示与原始未遮蔽的图像的表示进行匹配。
deephub
2022/11/11
5390
论文推荐:使用带掩码的孪生网络进行自监督学习
Maven进行增量构建
如果要开始任何新的基于Java的项目,则gradle应该是第一选择,但是某些场景或者某些方面,Maven依然有着不错的优势。在编译构建项目时,就会需要一些插件来提供不同的功能支持。
FunTester
2020/04/03
2.8K0
使用Apache的ab进行压力测试
概述 ab是apache自带的压力测试工具,当安装完apache的时候,就可以在bin下面找到ab然后进行apache 负载压力测试。 后台测试开发中,常用的压力测试服务,php一般选择xampp,下
xiangzhihong
2018/02/05
1.7K0
使用Apache的ab进行压力测试
论文推荐:使用带掩码的孪生网络进行自监督学习
来源:Deephub Imba 本文约1100字,建议阅读9分钟 本文介绍了使用带掩码的网络如何进行自监督学习。 最近自我监督学习被重视起来。昨天我通过LinkedIn发现了这项工作,我觉得它很有趣。kaiming大神的MAE为ViT和自监督的预训练创造了一个新的方向,本篇文章将介绍Masked Siamese Networks (MSN),这是另一种用于学习图像表示的自监督学习框架。MSN 将包含随机掩码的图像视图的表示与原始未遮蔽的图像的表示进行匹配。 考虑一个大的未标记图像集D = (x_i)和一个
数据派THU
2022/09/19
6550
论文推荐:使用带掩码的孪生网络进行自监督学习
无监督学习的12个最重要的算法介绍及其用例总结(附链接)
来源:DeepHub IMBA本文约1500字,建议阅读5分钟本文为你介绍无监督学习的12个最重要的算法介绍及用例。 无监督学习(Unsupervised Learning)是和监督学习相对的另一种主流机器学习的方法,无监督学习是没有任何的数据标注只有数据本身。 无监督学习算法有几种类型,以下是其中最重要的12种: 1、聚类算法根据相似性将数据点分组成簇 k-means聚类是一种流行的聚类算法,它将数据划分为k组。 2、降维算法降低了数据的维数,使其更容易可视化和处理 主成分分析(PCA)是一种降维算法,
数据派THU
2022/08/29
2K0
无监督学习的12个最重要的算法介绍及其用例总结(附链接)
增量学习,,,
增量学习作为机器学习的一种方法,现阶段得到广泛的关注。在其中,输入数据不断被用于扩展现有模型的知识,即进一步训练模型,它代表了一种动态的学习的技术。对于满足以下条件的学习方法可以定义为增量学习方法:
狼啸风云
2022/06/08
6700
使用孤立森林进行无监督的离群检测
孤立森林是一种简单但非常有效的算法,能够非常快速地发现数据集中的异常值。理解这个算法对于处理表格数据的数据科学家来说是必须的,所以在本文中将简要介绍算法背后的理论及其实现。
deephub
2022/04/14
5140
使用孤立森林进行无监督的离群检测
Hudi:Apache Hadoop上的增量处理框架
随着ApacheParquet和Apache ORC等存储格式以及Presto和Apache Impala等查询引擎的发展,Hadoop生态系统有潜力作为面向分钟级延时场景的通用统一服务层。然而,为了实现这一点,这需要在HDFS中实现高效且低延迟的数据摄取及数据准备。
从大数据到人工智能
2022/01/19
1.3K0
Hudi:Apache Hadoop上的增量处理框架
UML学习---用例图
1、什么是用例图  用例图源于Jacobson的OOSE方法,用例图是需求分析的产物,描述了系统的参与者与系统进行交互的功能,是参与者所能观察和使用到的系统功能的模型图。它的主要目的就是帮助开发团队以一种可视化的方式理解系统的功能需求,包括基于基本流程的“角色”关系以及系统各个功能之间的关系。它通过用例(Use Case)来捕获系统的需求,再结合参与者(Actor)进行系统功能需求的分析和设计。 2、用例图的组成  用例图有四部分组成:用例(Use Case)、参与者(Actor)、系统边界、关联 2.
小小明童鞋
2018/06/13
1.4K0
Self-Training:用半监督的方式对任何有监督分类算法进行训练
本文将对Self-Training的流程做一个详细的介绍并使用Python 和Sklearn 实现一个完整的Self-Training示例。
deephub
2021/12/09
2.5K0
Self-Training:用半监督的方式对任何有监督分类算法进行训练

相似问题

使用Apache Mahout机器学习库

23

Apache Mahout -学习先决条件

20

使用apache mahout进行情感分析

14

Apache Mahout的.net模拟的机器学习库

52

使用Apache Mahout对数据进行分类

20
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
社区富文本编辑器全新改版!诚邀体验~
全新交互,全新视觉,新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能,全面提升创作效率和体验
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文