开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

当尝试使用H2o包时，Caret train方法会抱怨：“有些地方不对劲；所有的精度度量值都丢失了”

。

这个问题可能是由于数据集中存在缺失值或者数据类型不匹配导致的。为了解决这个问题，可以采取以下步骤：

检查数据集：首先，检查数据集是否存在缺失值。可以使用H2o的is.na()函数来检查数据集中是否有缺失值。如果存在缺失值，可以使用H2o的h2o.na.omit()函数来删除包含缺失值的行。
数据类型转换：Caret train方法可能会抱怨数据类型不匹配。确保数据集中的特征和目标变量的数据类型正确。可以使用H2o的h2o.asfactor()函数将特征和目标变量转换为因子类型。
数据预处理：在使用Caret train方法之前，可以对数据集进行一些预处理操作，例如特征缩放、特征选择、数据平衡等。可以使用H2o的各种函数来实现这些预处理操作，例如h2o.scale()、h2o.feature.selection()、h2o.balance()等。
模型训练：确保使用正确的算法和参数进行模型训练。可以参考H2o的文档和示例来选择适合的算法和参数。可以使用H2o的h2o.train()函数来训练模型。

总结起来，当尝试使用H2o包时，Caret train方法抱怨“有些地方不对劲；所有的精度度量值都丢失了”，可能是由于数据集中存在缺失值或者数据类型不匹配导致的。解决这个问题的步骤包括检查数据集、数据类型转换、数据预处理和模型训练。具体的操作可以参考H2o的文档和示例。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

手把手教你学习R语言

你可以尝试自己写代码，或者从别的地方复制相关的代码来提高工作效率。如果有什么问题，你可以在文章的最后的地方留言。 1 下载安装并开始使用R 如果你的系统还没有R平台，那就现在安装一个吧。...1.4安装R包安装我们今天要使用的R包。这些包是第三方附加组件或者可以在R使用的库。...", "Suggests")) 现在，我们加载一下caret包，然后开始在我们的教程里使用这个包。...如果你想要了解更多关于caret这个R包的内容，查阅一下caret package homepage这篇文章。 2载入数据我们将要使用iris这个数据集。...我们在运行之前重新设定随机数，并保证每个算法的评估都是在使用相同的数据拆分的条件下运行的。这可以保证所有的结果都具有可比性。

2.3K8 0

孤立森林:大数据背景下的最佳异常检测算法之一

我们看到，iForest在大多数数据集中均处于领先地位，如我所计算的均值，中位数和标准差行的颜色所示。iForest的相同优异结果也适用于N次精度： ? 可扩展性。iForest是性能最快的算法。...这样的数据如果使用sk-learn的KNN（）速度上简直无法忍受。 ? 算法要点总结一下可以认为是10页原始论文的总结，如果不想深入研究，看一下要点就可以了。...举例：尝试对大数据使用sklearn.neighbor.KNeighborsClassifier吗？另外，iForest具有低开销的特点。细节：外部节点的数量为n，因为每个观测值n都是独立的。...小的次抽样(样本的样本)解决了沼泽化和掩蔽问题。对于异常检测而言，输入数据太大而造成了沼泽化和掩蔽。沼泽化是指将“正常”观测结果误认为“异常”观测结果，因为它被异常所包围，而掩蔽则相反。...换句话说，当为一棵树提供包含大部分异常的样本时，一个正常的数据点可能看起来异常。作者用x光检查的数据提供了这种现象的例子。

2.2K1 0

机器学习Caret--R处理不平衡数据

image.png 如果训练集的90%的样本是属于同一个类别，而我们的模型将所有的样本都分类为该类，在这种情况下，该分类器是无效的，尽管最后的分类准确度为90%。...所以在数据不均衡时，准确度（Accuracy）这个评价指标参考意义就不大了。实际上，如果不均衡比例超过4:1，分类器模型就会偏向于占比大的类别。...换句话说，当两个分类器都能预测结局，如果使用同一个阈值来分类，他们都正确地识别出了75%实际上属于少数群体的情况。...更多详细细节，请见 caret documentation 精度/特异性：有多少个选定的相关实例。调用/灵敏度：选择了多少个相关实例。 F1得分：精度和召回的谐波平均值。...然而，这种改进通常会影响早期的检索性能，从而使模型的整体精度得到更大的提高。在尝试加权或抽样的同时，我们也建议在评估一个有不平衡类的分类器的性能时，不要只依赖AUC，因为它可能是一个误导性的指标。

8902 0

手把手|用Python端对端数据分析识别机器人“僵尸粉”

花了5美元，等待24小时之后，我有了5500个新粉丝。因为我知道在机器人关注之前，我的粉丝都有哪些，所以我可以有效地识别哪些是人类，哪些是一夜激增的机器人粉丝。...获取用户信息的终端会返回JSON文本，这些文本中包含了你所希望得到的用户账号信息。例如：用户是否使用了默认的模板配置，关注者/被关注者的数量，发布推文的数量。...有些人的人气很高，有一些却没那么高，大多数人是介于两者之间。相反，这些机器人的人气非常低，平均只有28个粉丝。...那里也没有scikit-learn，只有caret（Classification and Regression Training，是为了解决分类和回归问题的数据训练而创建的一个综合工具包——译者注）。...在R语言中的caret包提供了丰富的应用用于快速、迭代模型的开发，同时caret是scikit-learn今后发展道路上的一个伟大榜样。

1.2K6 0

R︱mlr包挑选最适机器学习模型+变量评估与选择（案例详解）

当进行模型训练时，使用"doParallel"包将在可用的处理器内核间自动采用并行计算模式。你可以使用threads" 选项来指定要用于计算的特定内核数量"。...我们将使用和之前获得的数据一样的数据，但将其转换到包所使用的“DecisionTable”类中。...既然我们有的是连续的数值数据，我们将使用一个包中提供的特殊的离散化函数，来将其转换为标定数据。...当进行模型训练时，使用"doParallel"包将在可用的处理器内核间自动采用并行计算模式。你可以使用threads" 选项来指定要用于计算的特定内核数量"。...我们将使用和之前获得的数据一样的数据，但将其转换到包所使用的“DecisionTable”类中。

2.6K2 0

数据预处理技术研究 | 冰水数据智能专题 | 1st

（3）不完整性由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成的影响，数据记录中可能会出现数据属性的值丢失或不确定的情况，还可能缺少必须的数据而造成数据不完整。...，这些编程语言还提供了许多额外的数据科学软件包。...例如，许多数据科学家利用R 中非常强大的caret 包来简化数据准备和减少代码量。该软件包简化了复杂回归和分类问题的模型准备与训练过程。...它为数百个现有的R模型实现（在底层使用了各种各样的API）提供了一个通用接口。...以下代码段使用了caret的通用API对Titanic数据集进行预处理： ### 使用R caret包进行数据预处理： # 利用caret的preProcess函数对数据做归一化 preproc.data.combined

2.7K3 0

LASSO回归姊妹篇：R语言实现岭回归分析

此图显示当lambda下降时，压缩参数减小，但绝对系数增加（图37）。要查看特定值处lambda的系数，请使用predict（）函数。现在，让我们看看当λ为0.05时，系数是多少。...当alpha为0时，表示进行了岭回归；当alpha为1时，表示LASSO回归。...当λ为特定值时，我们还可以使用predict()函数查看系数值。...如果我们想知道λ为0.1时系数的值，我们可以指定参数s=0.1，指定type=“coefficients”，当使用glmnet()来拟合模型时，我们应该使用特定的glmnet值，而不是使用来自λ两边的值...下图显示了岭回归中预测值和实际值之间的关系(图46)。同样，在较大的PSA测量值中有两个有趣的异常值。

6.4K4 3

R语言randomForest包的随机森林分类模型以及对重要变量的选择

注：randomForest包根据经典决策树生成随机森林；如果期望根据条件推断树生成随机森林，可使用party包。当预测变量间高度相关时，基于条件推断树的随机森林可能效果更好。...生成树时没有用到的样本点所对应的类别可由生成的树估计，与其真实类别比较即可得到袋外预测（out-of-bag，OOB）误差，即OOB estimate of error rate，可用于反映分类器的错误率...otu_train$groups) compare_train sum(diag(compare_train)/sum(compare_train)) 拟合的分类模型返回来重新识别训练集数据时，甚至纠正了在拟合时的错误划分...就本文的示例而言，有些OTUs对于分类的贡献度并不高，有些可能在组间区别不大甚至会增加错误率。因此，对于一开始构建的随机森林分类器，很多变量其实是可以剔除的。...不妨就以上述选择的前30个最重要的OTUs代替原数据集中所有的OTUs进行建模，一方面助于简化分类器模型，另一方面还可提升分类精度。

29.2K4 1

【机器学习】五、贝叶斯分类

当M1判别某个商户为恶性商户时，这个商户的确是恶性商户的概率由P(E|P)表示： P(E|P) =P(P|E)*P(E) / (P(E)*P(P|E)+P(~E)*P(P|~E)) 上面就是全概率公式...但实际情况下你应该这么思考：被M1模型判别为恶性商户，说明这家商户做出恶性行为的概率是一般商户的11倍，那么，就非常有必要用进一步的手段进行检查了。恶性商户判别模型真正的使用逻辑应该是如下图所示。...R语言中的klaR包就提供了朴素贝叶斯算法实现的函数NaiveBayes，我们来看一下该函数的用法及参数含义： NaiveBayes(formula, data, ..., subset, na.action...； usekernel指定密度估计的方法（在无法判断数据的分布时，采用密度密度估计方法），默认情况下使用正态分布密度估计，设为TRUE时，则使用核密度估计方法； fL指定是否进行拉普拉斯修正，默认情况下不对数据进行修正...由于影响蘑菇是否有毒的变量有21个，可以先试着做一下特征选择，这里我们就采用随机森林方法（借助caret包实现特征选择的工作）进行重要变量的选择： #构建rfe函数的控制参数(使用随机森林函数和10重交叉验证抽样方法

2952 0

【白话机器学习】算法理论+实战之LightGBM算法

由于这个算法我也是刚接触，可能有些地方会理解不当或者有些细节描述不到，欢迎留言指出，这篇文章只是抛砖引玉，明白基本原理之后建议去读原文。大纲如下： LightGBM？...直方图作差加速当节点分裂成两个时，右边的子节点的直方图其实等于其父节点的直方图减去左边子节点的直方图： ? 这是为啥啊？看完之后，又一脸懵逼呢？其实在说这么个意思，举个例子就明白了， ?...这样在构建直方图的时候时间复杂度从变成, 这里的指的特征融合后特征包的个数，且。这样又可以使得速度加快了，哈哈。...上面这个过程的时间复杂度其实是的，因为要遍历特征，每个特征还要遍历所有的簇，在特征不多的情况下还行，但是如果特征维度很大，就不好使了。...而 LightGBM 所使用直方图算法对 Cache 天生友好：首先，所有的特征都采用相同的方式获得梯度（区别于XGBoost的不同特征通过不同的索引获得梯度），只需要对梯度进行排序并可实现连续访问，

6.9K3 2

身高2m，体重2kg，这样的数据“看上去很好”？

数据的值乃至整个数据对象都可能会丢失。在有些情况下，可能有不真实或重复的对象，即对应于单个“实际”对象出现了多个数据对象。例如，对于一个最近住过两个不同地方的人，可能有两个不同的记录。...数据错误可能是更确定性现象的结果，如一组照片在同一地方出现条纹。数据的这种确定性失真常称作伪像（artifact）。 3....用标准差度量，精度是0.013。通常使用更一般的术语准确率表示数据测量误差的程度。准确率（accuracy）：被测量的测量值与实际值之间的接近度。...还有些情况下，某些属性并不能用于所有对象，例如表格常常有条件选择部分，仅当填表人以特定的方式回答前面的问题时，条件选择部分才需要填写，但为简单起见存储了表格的所有字段。...有些不一致类型容易检测，例如人的身高不应当是负的。另一些情况下，可能需要查阅外部信息源，例如当保险公司处理赔偿要求时，它将对照顾客数据库核对赔偿单上的姓名与地址。

5342 0

IntelliJ插件开发-京东工程师教你改造你的IDE

插件依赖对IntelliJ之外的jar包依赖，可以通过Gradle添加jar包依赖。对其他插件的依赖，包括IDE捆绑插件，第三方或你自己的插件。...使用DevKit 进行创建集成度高，使用简单，只能启动单个IDE进行调试。...IntelliJ平台提供了AnAction类，每当点击菜单项或者工具栏按钮时，就调用其actionPerformed方法。...在这个类中覆盖actionPerformed方法，当点击菜单项或工具栏按钮时这个方法会被调用。...中使用右键菜单中的Go To | Declaration找到自己所继承的基类源码。

3.2K2 0

数据科学31 |机器学习-模型评价

・AUC=1，预测算法表示为图中左上角顶点，在这个阈值下，可以得到100%的灵敏度和特异性，是个完美的分类器。・通常AUC>0.8时可以认为是良好的预测算法。 ?...交叉验证将已有的样本训练集再分为训练集和测试集两部分，根据新的训练集建立模型，使用另一部分测试集进行验证，重复过程可以计算平均估计误差。...caret 包内置函数：・预处理：preProcess()函数・数据分割：createDataPartition()函数、createTimeSlices()函数、createResample()...caret包提供了一个统一的框架，允许只使用一种函数且不需指定选项来进行预测。...进行25次有放回重抽样，并校正了自举抽样可能带来的潜在偏差。

1.2K1 0

机器学习| 第二周：监督学习（1）『附学习资源』

首先，基础知识非常重要，比如Python、常用包的使用（Pandas, Numpy, matplotlib）的使用。...这一部分知识可以获取的路径有：廖雪峰Python教程，常用包的学习使用可以使用以下数据，里面介绍了Pandas, Numpy, matplotlib 几个常用库的使用，手头上有一本，以备查阅。 ?...模型复杂度与训练精度和测试精度之间的权衡来源：《Python机器学习基础教程》以下介绍几个监督学习的算法 K近邻基本思想 k-NN 算法可以说是最简单的机器学习算法。...， 25% 的数据作为测试集 6X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0) 7# K近邻所使用的包...alpha 值越大，正则化作用越大, 所以当 alpha=1 时，模型大部分参数都接近于 0。在实践中，在两个模型中一般首选岭回归。

4822 0

Kaggle 实战：Quora Question Pairs

这次特征计算使用了 R 包 tm。包 tm 即 text mining，是用来做文本挖掘的一个 R 包，是一个进行自然语言处理的基础包。...R 包 syuzhet 提供了四个情绪相关的字典。...我们所使用的函数 get_nrc_sentiment 调用的是 Saif Mohammad's NRC Emotion lexicon。...require(caret) confusionMatrix(train$same_what, train$is_duplicate, positive = "1") ## 结果...更多特征前面所有的特征都是基于将问题本身作为字符串来看待，特征只都是来衡量两个字符串之间的相似度。而预测目标其实是语义上的相似，所以上述的特征只能近似的来衡量两个问题的相似度。

2K1 0

利用 Scikit Learn的Python数据预处理实战指南

应当牢记，当使用基于距离的算法时，我们必须尝试将数据缩放，这样较不重要的特征不会因为自身较大的范围而主导目标函数。...这意味着，当使用l1或l2正则化估计时，标准化数据帮助我们提高预测模型的精度。...备注：在缩放和标准化中二选一是个令人困惑的选择，你必须对数据和要使用的学习模型有更深入的理解，才能做出决定。对于初学者，你可以两种方法都尝试下并通过交叉验证精度来做出选择。...它可以用下面的方法来决定： • 所有导致同样的决定（所有的值<K或反之亦然） • 3：2的层级分配（当f(w)>2W时的决策区间） • 2：2的层级分配（当f(...w)>W时的决策区间）这里我们可以看到丢失了许多不同的可能决策，比如：“0”和“2W”应该给予相同的标签，“3W”和“W”是额外的。

2.6K6 0

详解R语言中的遗传算法

所以在使用遗传算法的同时，也可以尝试其他算法，互相补充，甚至根本不用遗传算法。...它使用的变量值表示基因序列，而不是字节码，因此不需要编解码的处理。mcga实现了遗传算法的交配和突变的操作，并且可以进行大范围和高精度的搜索空间的计算，算法的主要缺点是使用了256位的一元字母表。...如果使用穷举法，时间复杂度为O(n^5)，估计没有5分钟肯定算不出来。当然，算法执行时间和精度，都是通过参数进行配置的。...3.2 genalg包我们使用genalg包的rbga()函数，也可以实现多变量的遗传算法。 genalg包不仅实现了遗传算法，还提供了遗传算法的数据可视化，给用户更直观的角度理解算法。...当x1在1.65区域时，被选择超过80次；当x2在1.146区域时，被选择超过了80次。通过直方图，我们可以理解为更优秀的基因被留给了后代。 > plot(m2，type='hist') ?

2.8K10 0

R语言实现逻辑回归模型

首先，本章节使用到的数据集是ISLR包中的Default数据集，数据包含客户信息的模拟数据集。...，逻辑回归模型中，使用default特征作为因变量，数据集中所有的其他特征作为自变量。...除其他外，重要的是要看看我们的模型估计了哪些系数值。逻辑回归进行预测但是，在更仔细地研究更适合于逻辑回归的模型诊断之前，首先应该了解如何使用带有glm（）的predict（）函数。...我们可以使用caret包中的confusionMatrix（）函数轻松获得灵敏度，特异性等值。...还记得我们选择0.5作为分类门槛的地方吗？我们怎么知道0.5值是准确度的“最佳”值。实际上，其他门槛值可能更好（如果所有模型假设都为真并且样本量相当大，则0.5将倾向于最佳值）。

4.7K2 0

口罩、安全帽识别比赛踩坑记（二）比赛流程及 SSD YOLO V3 两版本实现

而是增加了算法工业化落地时所必需的加速和优化性能的环节，以及封装成一个产品的环节。...F-Measure 是 Precision 和 Recall 加权调和平均：当参数α=1时，就是最常见的F1，也即可知F1综合了P和R的结果，当F1较高时则能说明试验方法比较有效。...结合评分标准可以看到，这次比赛主要考虑精度因素，次要考虑速度问题，所以在我熟悉的几个模型中可以尝试使用 Faster R-CNN+FPN 的 spp 版可能效果更好，但因笔者前一个比赛使用的是...果然一检测完，一魔改完，准确度都达到 0.5 多快 0.6 了，召回率在 0.2左右… 当然， SSD 再低我感觉也不至于这么低的召回率，应该还是哪里有问题，但因为无法查看数据集，思考了半天也没找出问题源头...ev_sdk |-- 3rd # 第三方源码或库目录，发布时请删除 | |-- wkt_parser # 针对使用WKT格式编写的字符串的解析器 | |

7502 0

TensorFlow和深度学习入门教程

对于偏差，当使用RELU时，最佳做法是将其初始化为小的正值，以使神经元最初在RELU的非零范围内运行。...这个断开连接通常被标记为“过度拟合”，当您看到它时，您可以尝试应用称为“丢失信息”的正则化技术。 ? 在丢失数据期间，在每次训练迭代中，您从网络中丢弃随机神经元。...当您测试网络的性能时，您将所有神经元都放回（pkeep=1）。 TensorFlow提供了一个用于神经元层输出的压差函数。它随机排除一些输出，并将其余的输出提高1 / pkeep。...有正规化技术，如丢失数据（dropout），可以强制它以更好的方式学习，但过拟合也有更深的根源。当神经网络对于手头的问题具有太多的自由度时，会发生基本的过拟合。...最后，如果你做的一切都很好，尝试不同大小的网络，以确保其自由度受到限制，应用丢失数据（dropout），并训练大量的数据，你可能仍然被困在一个性能水平，似乎没有什么可以提高。

1.4K6 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭