首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

当尝试使用H2o包时,Caret train方法会抱怨:“有些地方不对劲;所有的精度度量值都丢失了”

这个问题可能是由于数据集中存在缺失值或者数据类型不匹配导致的。为了解决这个问题,可以采取以下步骤:

  1. 检查数据集:首先,检查数据集是否存在缺失值。可以使用H2o的is.na()函数来检查数据集中是否有缺失值。如果存在缺失值,可以使用H2o的h2o.na.omit()函数来删除包含缺失值的行。
  2. 数据类型转换:Caret train方法可能会抱怨数据类型不匹配。确保数据集中的特征和目标变量的数据类型正确。可以使用H2o的h2o.asfactor()函数将特征和目标变量转换为因子类型。
  3. 数据预处理:在使用Caret train方法之前,可以对数据集进行一些预处理操作,例如特征缩放、特征选择、数据平衡等。可以使用H2o的各种函数来实现这些预处理操作,例如h2o.scale()h2o.feature.selection()h2o.balance()等。
  4. 模型训练:确保使用正确的算法和参数进行模型训练。可以参考H2o的文档和示例来选择适合的算法和参数。可以使用H2o的h2o.train()函数来训练模型。

总结起来,当尝试使用H2o包时,Caret train方法抱怨“有些地方不对劲;所有的精度度量值都丢失了”,可能是由于数据集中存在缺失值或者数据类型不匹配导致的。解决这个问题的步骤包括检查数据集、数据类型转换、数据预处理和模型训练。具体的操作可以参考H2o的文档和示例。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

手把手教你学习R语言

你可以尝试自己写代码,或者从别的地方复制相关的代码来提高工作效率。 如果有什么问题,你可以在文章的最后的地方留言。 1 下载安装并开始使用R 如果你的系统还没有R平台,那就现在安装一个吧。...1.4安装R 安装我们今天要使用的R。这些是第三附加组件或者可以在R使用的库。...", "Suggests")) 现在,我们加载一下caret,然后开始在我们的教程里使用这个。...如果你想要了解更多关于caret这个R的内容,查阅一下caret package homepage这篇文章。 2载入数据 我们将要使用iris这个数据集。...我们在运行之前重新设定随机数,并保证每个算法的评估都是在使用相同的数据拆分的条件下运行的。这可以保证所有的结果具有可比性。

2.3K80

孤立森林:大数据背景下的最佳异常检测算法之一

我们看到,iForest在大多数数据集中均处于领先地位,如我计算的均值,中位数和标准差行的颜色所示。iForest的相同优异结果也适用于N次精度: ? 可扩展性。iForest是性能最快的算法。...这样的数据如果使用sk-learn的KNN()速度上简直无法忍受。 ? 算法要点总结 一下可以认为是10页原始论文的总结,如果不想深入研究,看一下要点就可以。...举例:尝试对大数据使用sklearn.neighbor.KNeighborsClassifier吗? 另外,iForest具有低开销的特点。细节:外部节点的数量为n,因为每个观测值n都是独立的。...小的次抽样(样本的样本)解决沼泽化和掩蔽问题。对于异常检测而言,输入数据太大而造成了沼泽化和掩蔽。沼泽化是指将“正常”观测结果误认为“异常”观测结果,因为它被异常包围,而掩蔽则相反。...换句话说,为一棵树提供包含大部分异常的样本,一个正常的数据点可能看起来异常。作者用x光检查的数据提供这种现象的例子。

2.1K10
  • 机器学习Caret--R处理不平衡数据

    image.png 如果训练集的90%的样本是属于同一个类别,而我们的模型将所有的样本分类为该类,在这种情况下,该分类器是无效的,尽管最后的分类准确为90%。...所以在数据不均衡,准确(Accuracy)这个评价指标参考意义就不大。实际上,如果不均衡比例超过4:1,分类器模型就会偏向于占比大的类别。...换句话说,两个分类器都能预测结局,如果使用同一个阈值来分类,他们正确地识别出了75%实际上属于少数群体的情况。...更多详细细节,请见 caret documentation 精度/特异性:有多少个选定的相关实例。 调用/灵敏:选择多少个相关实例。 F1得分:精度和召回的谐波平均值。...然而,这种改进通常会影响早期的检索性能,从而使模型的整体精度得到更大的提高。在尝试加权或抽样的同时,我们也建议在评估一个有不平衡类的分类器的性能,不要只依赖AUC,因为它可能是一个误导性的指标。

    82220

    手把手|用Python端对端数据分析识别机器人“僵尸粉”

    花了5美元,等待24小之后,我有5500个新粉丝。因为我知道在机器人关注之前,我的粉丝都有哪些,所以我可以有效地识别哪些是人类,哪些是一夜激增的机器人粉丝。...获取用户信息的终端会返回JSON文本,这些文本中包含了你希望得到的用户账号信息。例如:用户是否使用了默认的模板配置,关注者/被关注者的数量,发布推文的数量。...有些人的人气很高,有一些却没那么高,大多数人是介于两者之间。相反,这些机器人的人气非常低,平均只有28个粉丝。...那里也没有scikit-learn,只有caret(Classification and Regression Training,是为了解决分类和回归问题的数据训练而创建的一个综合工具——译者注)。...在R语言中的caret提供丰富的应用用于快速、迭代模型的开发,同时caret是scikit-learn今后发展道路上的一个伟大榜样。

    1.2K60

    LASSO回归姊妹篇:R语言实现岭回归分析

    此图显示lambda下降,压缩参数减小,但绝对系数增加(图37)。要查看特定值处lambda的系数,请使用predict()函数。现在,让我们看看λ为0.05,系数是多少。...alpha为0,表示进行了岭回归;alpha为1,表示LASSO回归。...λ为特定值,我们还可以使用predict()函数查看系数值。...如果我们想知道λ为0.1系数的值,我们可以指定参数s=0.1,指定type=“coefficients”,使用glmnet()来拟合模型,我们应该使用特定的glmnet值,而不是使用来自λ两边的值...下图显示岭回归中预测值和实际值之间的关系(图46)。同样,在较大的PSA测量值中有两个有趣的异常值。

    6.2K43

    数据预处理技术研究 | 冰水数据智能专题 | 1st

    (3)不完整性 由于实际系统设计时存在的缺陷以及一些使用过程中人为因素造成的影响,数据记录中可能会出现数据属性的值丢失或不确定的情况,还可能缺少必须的数据而造成数据不完整。...,这些编程语言还提供许多额外的数据科学软件。...例如,许多数据科学家利用R 中 非常强大的caret 来简化数据准备和减少代码量。该软件简化了复杂回归和分类问题的模型准备与训练过程。...它为数百个现有的R模型实现(在底层使用了各种各样的API)提供一个通用接口。...以下代码段使用caret的通用API对Titanic数据集进行预处理: ### 使用R caret进行数据预处理: # 利用caret的preProcess函数对数据做归一化 preproc.data.combined

    2.6K30

    R︱mlr挑选最适机器学习模型+变量评估与选择(案例详解)

    进行模型训练使用"doParallel"将在可用的处理器内核间自动采用并行计算模式。你可以使用threads" 选项来指定要用于计算的特定内核数量"。...我们将使用和之前获得的数据一样的数据,但将其转换到使用的“DecisionTable”类中。...既然我们有的是连续的数值数据,我们将使用一个中提供的特殊的离散化函数,来将其转换为标定数据。...进行模型训练使用"doParallel"将在可用的处理器内核间自动采用并行计算模式。你可以使用threads" 选项来指定要用于计算的特定内核数量"。...我们将使用和之前获得的数据一样的数据,但将其转换到使用的“DecisionTable”类中。

    2.4K20

    R语言randomForest的随机森林分类模型以及对重要变量的选择

    注:randomForest根据经典决策树生成随机森林;如果期望根据条件推断树生成随机森林,可使用party预测变量间高度相关,基于条件推断树的随机森林可能效果更好。...生成树没有用到的样本点对应的类别可由生成的树估计,与其真实类别比较即可得到袋外预测(out-of-bag,OOB)误差,即OOB estimate of error rate,可用于反映分类器的错误率...otu_train$groups) compare_train sum(diag(compare_train)/sum(compare_train)) 拟合的分类模型返回来重新识别训练集数据,甚至纠正在拟合时的错误划分...就本文的示例而言,有些OTUs对于分类的贡献并不高,有些可能在组间区别不大甚至会增加错误率。 因此,对于一开始构建的随机森林分类器,很多变量其实是可以剔除的。...不妨就以上述选择的前30个最重要的OTUs代替原数据集中所有的OTUs进行建模,一面助于简化分类器模型,另一面还可提升分类精度

    26.1K41

    【机器学习】五、贝叶斯分类

    M1判别某个商户为恶性商户,这个商户的确是恶性商户的概率由P(E|P)表示: P(E|P) =P(P|E)*P(E) / (P(E)*P(P|E)+P(~E)*P(P|~E)) 上面就是全概率公式...但实际情况下你应该这么思考:被M1模型判别为恶性商户,说明这家商户做出恶性行为的概率是一般商户的11倍,那么,就非常有必要用进一步的手段进行检查。 恶性商户判别模型真正的使用逻辑应该是如下图所示。...R语言中的klaR就提供朴素贝叶斯算法实现的函数NaiveBayes,我们来看一下该函数的用法及参数含义: NaiveBayes(formula, data, ..., subset, na.action...; usekernel指定密度估计的方法(在无法判断数据的分布,采用密度密度估计方法),默认情况下使用正态分布密度估计,设为TRUE,则使用核密度估计方法; fL指定是否进行拉普拉斯修正,默认情况下不对数据进行修正...由于影响蘑菇是否有毒的变量有21个,可以先试着做一下特征选择,这里我们就采用随机森林方法(借助caret实现特征选择的工作)进行重要变量的选择: #构建rfe函数的控制参数(使用随机森林函数和10重交叉验证抽样方法

    27020

    【白话机器学习】算法理论+实战之LightGBM算法

    由于这个算法我也是刚接触,可能有些地方会理解不当或者有些细节描述不到,欢迎留言指出,这篇文章只是抛砖引玉,明白基本原理之后建议去读原文。 大纲如下: LightGBM?...直方图作差加速 节点分裂成两个,右边的子节点的直方图其实等于其父节点的直方图减去左边子节点的直方图: ? 这是为啥啊?看完之后,又一脸懵逼呢? 其实在说这么个意思, 举个例子就明白, ?...这样在构建直方图的时候时间复杂从变成, 这里的指的特征融合后特征的个数,且。这样又可以使得速度加快了,哈哈。...上面这个过程的时间复杂其实是的,因为要遍历特征,每个特征还要遍历所有的簇, 在特征不多的情况下还行,但是如果特征维度很大,就不好使。...而 LightGBM 使用直方图算法对 Cache 天生友好: 首先,所有的特征采用相同的方式获得梯度(区别于XGBoost的不同特征通过不同的索引获得梯度),只需要对梯度进行排序并可实现连续访问,

    6.1K20

    身高2m,体重2kg,这样的数据“看上去很好”?

    数据的值乃至整个数据对象都可能会丢失。在有些情况下,可能有不真实或重复的对象,即对应于单个“实际”对象出现多个数据对象。 例如,对于一个最近住过两个不同地方的人,可能有两个不同的记录。...数据错误可能是更确定性现象的结果,如一组照片在同一地方出现条纹。数据的这种确定性失真常称作伪像(artifact)。 3....用标准差度量,精度是0.013。 通常使用更一般的术语准确率表示数据测量误差的程度。 准确率(accuracy):被测量的测量值与实际值之间的接近。...还有些情况下,某些属性并不能用于所有对象,例如表格常常有条件选择部分,仅填表人以特定的方式回答前面的问题,条件选择部分才需要填写,但为简单起见存储表格的所有字段。...有些不一致类型容易检测,例如人的身高不应当是负的。另一些情况下,可能需要查阅外部信息源,例如保险公司处理赔偿要求,它将对照顾客数据库核对赔偿单上的姓名与地址。

    52720

    机器学习| 第二周:监督学习(1)『附学习资源』

    首先,基础知识非常重要,比如Python、常用使用(Pandas, Numpy, matplotlib)的使用。...这一部分知识可以获取的路径有:廖雪峰Python教程,常用的学习使用可以使用以下数据,里面介绍Pandas, Numpy, matplotlib 几个常用库的使用,手头上有一本,以备查阅。 ?...模型复杂与训练精度和测试精度之间的权衡 来源:《Python机器学习基础教程》 以下介绍几个监督学习的算法 K近邻 基本思想 k-NN 算法可以说是最简单的机器学习算法。..., 25% 的数据作为测试集 6X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) 7# K近邻使用...alpha 值越大,正则化作用越大, 所以 alpha=1 ,模型大部分参数接近于 0。 在实践中,在两个模型中一般首选岭回归。

    46220

    利用 Scikit Learn的Python数据预处理实战指南

    应当牢记,使用基于距离的算法,我们必须尝试将数据缩放,这样较不重要的特征不会因为自身较大的范围而主导目标函数。...这意味着,使用l1或l2正则化估计时,标准化数据帮助我们提高预测模型的精度。...备注:在缩放和标准化中二选一是个令人困惑的选择,你必须对数据和要使用的学习模型有更深入的理解,才能做出决定。对于初学者,你可以两种方法尝试下并通过交叉验证精度来做出选择。...它可以用下面的方法来决定: • 所有导致同样的决定(所有的值<K或反之亦然) • 3:2的层级分配(f(w)>2W的决策区间) • 2:2的层级分配(f(...w)>W的决策区间) 这里我们可以看到丢失许多不同的可能决策,比如:“0”和“2W”应该给予相同的标签,“3W”和“W”是额外的。

    2.6K60

    数据科学31 |机器学习-模型评价

    ・AUC=1,预测算法表示为图中左上角顶点,在这个阈值下,可以得到100%的灵敏和特异性,是个完美的分类器。 ・通常AUC>0.8可以认为是良好的预测算法。 ?...交叉验证将已有的样本训练集再分为训练集和测试集两部分,根据新的训练集建立模型,使用另一部分测试集进行验证,重复过程可以计算平均估计误差。...caret 内置函数: ・预处理:preProcess()函数 ・数据分割:createDataPartition()函数、createTimeSlices()函数、createResample()...caret提供一个统一的框架,允许只使用一种函数且不需指定选项来进行预测。...进行25次有放回重抽样,并校正自举抽样可能带来的潜在偏差。

    1.1K10

    口罩、安全帽识别比赛踩坑记(二) 比赛流程及 SSD YOLO V3 两版本实现

    而是增加了算法工业化落地必需的加速和优化性能的环节,以及封装成一个产品的环节。...F-Measure 是 Precision 和 Recall 加权调和平均: 参数α=1,就是最常见的F1,也即 可知F1综合P和R的结果,F1较高则能说明试验方法比较有效。...结合评分标准可以看到,这次比赛主要考虑精度因素,次要考虑速度问题,所以在我熟悉的几个模型中可以尝试使用 Faster R-CNN+FPN 的 spp 版可能效果更好,但因笔者前一个比赛使用的是...果然一检测完,一魔改完,准确达到 0.5 多快 0.6 ,召回率在 0.2左右… 当然, SSD 再低我感觉也不至于这么低的召回率,应该还是哪里有问题,但因为无法查看数据集,思考半天也没找出问题源头...ev_sdk |-- 3rd # 第三源码或库目录,发布请删除 | |-- wkt_parser # 针对使用WKT格式编写的字符串的解析器 | |

    72120

    详解R语言中的遗传算法

    所以在使用遗传算法的同时,也可以尝试其他算法,互相补充,甚至根本不用遗传算法。...它使用的变量值表示基因序列,而不是字节码,因此不需要编解码的处理。mcga实现遗传算法的交配和突变的操作,并且可以进行大范围和高精度的搜索空间的计算,算法的主要缺点是使用了256位的一元字母表。...如果使用穷举法,时间复杂为O(n^5),估计没有5分钟肯定算不出来。 当然,算法执行时间和精度,都是通过参数进行配置的。...3.2 genalg 我们使用genalg的rbga()函数,也可以实现多变量的遗传算法。 genalg不仅实现遗传算法,还提供遗传算法的数据可视化,给用户更直观的角度理解算法。...x1在1.65区域,被选择超过80次;x2在1.146区域,被选择超过了80次。通过直方图,我们可以理解为更优秀的基因被留给后代。 > plot(m2,type='hist') ?

    2.7K100

    TensorFlow和深度学习入门教程

    对于偏差,使用RELU,最佳做法是将其初始化为小的正值,以使神经元最初在RELU的非零范围内运行。...这个断开连接通常被标记为“过度拟合”,您看到它,您可以尝试应用称为“丢失信息”的正则化技术。 ? 在丢失数据期间,在每次训练迭代中,您从网络中丢弃随机神经元。...您测试网络的性能,您将所有神经元放回(pkeep=1)。 TensorFlow提供一个用于神经元层输出的压差函数。它随机排除一些输出,并将其余的输出提高1 / pkeep。...有正规化技术,如丢失数据(dropout),可以强制它以更好的方式学习,但过拟合也有更深的根源。 神经网络对于手头的问题具有太多的自由,会发生基本的过拟合。...最后,如果你做的一切都很好,尝试不同大小的网络,以确保其自由受到限制,应用丢失数据(dropout),并训练大量的数据,你可能仍然被困在一个性能水平,似乎没有什么可以提高。

    1.4K60

    R语言实现逻辑回归模型

    首先,本章节使用到的数据集是ISLR中的Default数据集,数据包含客户信息的模拟数据集。...,逻辑回归模型中,使用default特征作为因变量,数据集中所有的其他特征作为自变量。...除其他外,重要的是要看看我们的模型估计哪些系数值。 逻辑回归进行预测 但是,在更仔细地研究更适合于逻辑回归的模型诊断之前,首先应该了解如何使用带有glm()的predict()函数。...我们可以使用caret中的confusionMatrix()函数轻松获得灵敏,特异性等值。...还记得我们选择0.5作为分类门槛的地方吗?我们怎么知道0.5值是准确的“最佳”值。实际上,其他门槛值可能更好(如果所有模型假设都为真并且样本量相当大,则0.5将倾向于最佳值)。

    4.6K20
    领券