腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6445)
视频
沙龙
1
回答
随机
森林
:
每类
样本
数量
的
影响
、
、
、
我正在训练多个批次上
的
多个树,并使用以下命令合并它们: rf1 = rfList[0] rf1.n_estimators = len(rf1.estimators_) 我注意到,如果我在A类和B类中给出相同
数量
的
样本
,最终树
的
分类往往是40-60%
的
A类,40-60%
的
B类,
浏览 25
提问于2018-02-02
得票数 3
5
回答
在二进制分类中,是否应该平衡测试数据集?
、
、
我有一个数据集,有4519个
样本
标记为"1",18921个
样本
标记为"0“,在二进制分类练习中。我很清楚,在分类算法
的
训练阶段(在这种情况下,是
随机
森林
),应该平衡0/1
样本
的
数量
,以防止算法偏向大多数类。 但是,测试数据集是否也应该是平衡
的
?换句话说,如果用"0“类
的
1000个
随机
样本
和"1”类
的
100
浏览 0
提问于2018-11-29
得票数 8
回答已采纳
1
回答
R中使用H2O
的
平衡
随机
森林
、
、
、
由于我目前正在研究一个高度不平衡
的
多类分类问题,我正在考虑平衡
随机
森林
()。您是否有使用H2O实现平衡
随机
森林
的
经验?若有,可否请你详述以下问题: 是否有可能改变在H2O中创建引导
样本
的
默认过程,以得出平衡子
样本
(对于
随机
森林
中
的
每次迭代,从少数类中提取一个引导
样本
。从大多数类中
随机
抽取相同
数量
的
案例(通过替换
浏览 16
提问于2018-08-23
得票数 0
1
回答
随机
森林
算法中
随机
状态参数
的
重要性是什么?
、
、
随机
森林
有几个参数,其中一个是
随机
状态。我不知道它是做什么
的
,以及它对RF算法有多重要。
浏览 61
提问于2019-06-25
得票数 1
1
回答
随机
森林
中未选数据
的
剩余部分发生了什么?
、
、
、
、
我相信,在
随机
森林
中,我们选择
随机
样本
的
训练数据进行替换。我
的
问题是,我们仍有可能遗漏一些数据。那是怎么回事。它不
影响
随机
森林
训练吗?我们是否会在某个时候使用遗留下来
的
东西。
浏览 0
提问于2019-04-26
得票数 3
2
回答
如何绘制
随机
森林
模型
的
学习曲线?
、
在Andrew
的
机器学习课程之后,我想尝试一下他绘制学习曲线
的
方法(成本与
样本
的
数量
),以评估是否需要更多
的
数据
样本
。然而,对于
随机
森林
,我对如何绘制学习曲线感到困惑。
随机
森林
似乎没有一个基本
的
成本函数,例如,线性回归,所以我不确定在y轴上具体使用什么。
浏览 5
提问于2016-03-24
得票数 1
回答已采纳
3
回答
scikit中
的
子
样本
大小-学习RandomForestClassifier
、
、
、
如何控制用于训练
森林
中每棵树
的
子
样本
的
大小?根据scikit
的
文件-学习: 因此,bootstrap允许
随机
性,但无法找到如何控制子<e
浏览 11
提问于2016-11-28
得票数 3
回答已采纳
1
回答
具有大数据
的
随机
森林
.树数.观测数
、
我经常使用
随机
森林
,正则
随机
森林
,引导
随机
森林
,和类似的树模型。我必须在以下两者之间做出选择:运行数倍于树数,但相应
浏览 0
提问于2015-11-02
得票数 6
回答已采纳
1
回答
Python -
随机
森林
-迭代添加树
、
、
我需要构建RandomForest,然后构建一个图表,它将显示训练和测试
样本
的
质量如何取决于
随机
森林
中
的
树数。每一次都有必要用一定
数量
的
树木建造一个新
的
随机
森林
吗?或者我可以以迭代
的
方式添加树(如果可能的话,你能给出代码
的
例子-怎么做)?
浏览 1
提问于2015-08-04
得票数 9
回答已采纳
1
回答
哪一个更好:袋外(OOB)或交叉验证(CV)错误估计?
、
、
、
我在这个论坛上看到过其他帖子,但没有找到令人信服
的
答案。那么使用OOB而不是简历有什么好处和缺点呢? 用OOB训练更多
的
数据是正确
的
吗?
浏览 0
提问于2017-08-04
得票数 5
回答已采纳
1
回答
随机
森林
中
的
bootstraps数(scikit-learn)
、
、
据我所知,
随机
森林
算法采用
随机
bootstraps
样本
。但是我不确定如何设置和调整引导程序
的
数量
。 n_estimators是否为设置引导条数
的
参数?设置该值
的
好值有什么窍门吗?
浏览 1
提问于2016-03-08
得票数 0
1
回答
重复K次交叉验证对
随机
森林
有意义吗?
、
、
当使用
随机
森林
时,使用常规交叉验证和仅取不同
随机
状态
的
多个模型
的
平均结果会给出与重复
的
K倍交叉验证相同
的
结果吗? 重复
的
K倍交叉验证基本上重复交叉验证与多个不同
的
分裂数据和报告
的
平均结果。
浏览 0
提问于2021-03-23
得票数 0
回答已采纳
1
回答
克服
随机
森林
回归中
的
多重共线性并保留模型中
的
所有变量
、
、
我是
随机
森林
回归
的
新手。我在prep1中有300个连续变量( 299个预测因子和1个目标),其中一些预测因子是高度相关
的
。问题是,我仍然需要获得每个预测器
的
重要性值,因此消除某些值不是一种选择。以下是我
的
问题:( 2)假设是1),这会解决多重共线性问题吗?
浏览 2
提问于2016-09-16
得票数 2
1
回答
随机
森林
的
特定交叉验证
我正在使用
随机
森林
与科学知识。射频覆盖数据,预测结果较差。过度适应发生在许多不同
的
参数(通过grid_search测试它)。补救措施:调整初始数据/下采样,以
影响
拟合结果(人工预处理噪声
样本
)。这个蒙特卡洛斯非常消耗,只是想知道是否有另一种方法来做交叉验证
的
随机
森林
?(非超参数优化) 编辑
浏览 0
提问于2016-07-01
得票数 15
1
回答
不平衡二值分类中多数类
的
平滑抽样与下采样比较
、
、
、
我有一个二元分类任务,两个类之间
的
不平衡。我想比较一下SMOTE .降低多数阶级
的
规模和少数阶级
的
规模。将少数群体的人数增加到多数人的人数。使用
随机
次抽样将多数类缩小为少数类我从三重简历中得到
的
混淆矩阵似乎促进了SMOTE
的
使用(这两个类具有更好
的
分类性能)。我认为这份简历可以用来选择最好
的
方法。 然而
浏览 0
提问于2016-11-11
得票数 2
回答已采纳
1
回答
学习RandomForestClassifier -如何解释树输出?
、
、
、
、
我有下面的代码,但我只是不明白如何解释来自RandomForestClassifier
的
树输出数据,比如如何计算gini,给出示例,以及“value”列表中
的
总数如何能够高于3
的
初始
样本
。任何帮助都是感激
的
,谢谢!' + str(i_tree) + '.pdf' i_tree += 1来自RandomForestClassifier:
的
树
浏览 3
提问于2015-06-03
得票数 0
2
回答
特征选择& kNN中
的
重要特征
、
、
、
我正在kNN
的
帮助下开发一个推荐引擎。然而,数据是稀疏
的
,大约有1500个
样本
和大约200个特征。我有一个值为1或0
的
序数目标。另外,对于包含我
的
样本
数量
如此之少
的
特征
数量
,是否有任何限制?
浏览 19
提问于2017-02-03
得票数 2
1
回答
随机
森林
:平衡测试集?
、
、
我试图在一个不平衡
的
数据集中运行一个
随机
森林
分类器(~1:4)。我使用imblearn
的
方法如下:rf.fit(train_features,train_labels) 在培训和测试集中
的</em
浏览 0
提问于2019-02-27
得票数 0
回答已采纳
1
回答
cforest party不平衡类
、
、
我想用party库中
的
cforest函数来衡量特征
的
重要性。有没有办法做到这一点?
随机
森林
是一组决策树。
浏览 2
提问于2014-10-16
得票数 4
5
回答
选择二进制分类算法
、
、
、
、
我有一个二进制分类问题:10个属性,包括二进制、数字和范畴 这类问题
的
最佳选择是哪种算法?默认情况下,我将从SVM (将标称属性值转换为二进制特性)开始,因为它被认为是相对干净且不含噪声
的
数据
的
最佳选择。
浏览 0
提问于2014-06-15
得票数 20
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
随机森林的简单实现
随机森林 充满惊喜的算法
基于随机森林的分类与回归
样本数量对问卷信度效度分析的影响及应对策略
随机森林算法的一些应用情况
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券