腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7802)
视频
沙龙
1
回答
为什么
管道
中
的
过
采样
会
爆炸
模型
系数
的
数量
?
、
、
、
我有一个这样
的
模型
管道
: from sklearn.preprocessing import StandardScaler, OneHotEncoder
浏览 15
提问于2019-02-04
得票数 0
回答已采纳
1
回答
如果我在bootstrap_features优化包装中使用max_features参数,RandomSearch参数有用吗
、
我理解
为什么
我可以同时使用max_samples和bootstrap。例如,我可能有'n‘个样本,是否使用bootstrap将改变单个估计器和整个集成
的
预测。但在功能方面,它应该有一定
的
意义吗?
浏览 0
提问于2019-02-05
得票数 0
1
回答
为什么
上
采样
超过下
采样
?
、
、
我有191个样本
的
数据,并建立了一个logistic回归。我首先使用原始数据运行
模型
,然后进行重
采样
。我不明白
的
是:-
为什么
要在下
采样
前或上下
采样
前进行
过
采样
。如果
过
采样
会
产生过拟合
的
问题,那么就可以通过数据
的
缩放来处理。在上
采样
或任何其他抽样之后,必须检查哪些参数才能继续进行另一次
采样
,例如向下
采样
浏览 2
提问于2020-05-10
得票数 2
1
回答
MongoDB聚合$unwind和1NF
、
、
、
对于使用MongoDB和关
系数
据库管理系统
的
经验丰富的人,我有一个基本
的
修辞/理论问题。令人惊讶
的
是,没有数据咀嚼或数据工程论坛。在Mongo
中
创建聚合
管道
时,我们使用$unwind来
爆炸
嵌套数组值,因此每个数组都有自己
的
文档,这样我们就可以分组或进行其他聚合。 对我来说,这闻起来就像把数据变成第一种正常形式一样。在这个阶段,文档看起来就像1NF
中
的
记录。看来这就是目标。我已经搜索
过
,也没
浏览 0
提问于2018-10-09
得票数 1
回答已采纳
2
回答
重新
采样
查询
、
、
使用不平衡
的
数据集,我试图随机对多数类进行下
采样
。一切都很顺利,但当我意识到我
的
模型
(replace=真)
的
性能确实有了显着提高时。 这里性能提高背后
的
原因是什么?是否用复制
的
样本替换样本?这里有没有过度拟合
的
地方? 不知何故,我对此还是个新手,因此,如果有任何澄清,我将不胜感激。 这是代码
中
执行所有重要更改
的
部分。
浏览 28
提问于2019-12-14
得票数 1
1
回答
特定训练/测试拆分
的
线性回归
系数
“
爆炸
”
、
、
我正在使用"“数据集,比较线性回归、岭和套索
的
系数
。 我首先进行训练/测试拆分,然后标准化数据,然后训练三个
模型
并比较
系数
。对于大多数训练/测试拆分随机种子,三个
模型
的
系数
在相同
的
尺度上,我可以比较它们。但是对于一些随机
的
种子,一些线性回归
的
系数
“
爆炸
”,从大约10^4-10^5
的
值跳到大约10^18。这只发生在线性回归
模型<
浏览 0
提问于2020-09-23
得票数 1
1
回答
数据
采样
与算法流水线python
、
、
如何将数据
采样
和分类器
管道
连接起来? 我想执行所有的分类器
的
所有抽样技术,并选择最好
的
表现。我正在执行随机网格搜索,以选择最佳
的
超级参数。仅对每个未调优分类器(Logistic回归l1、Logistic回归l2、随机林)执行6种
采样
技术,然后只对每种抽样技术性能最好
的
一种分类器进行调优,是否合理?在我以前
的
实现
中
,我发现adasyn在logistic回归中表现最好,所以这是我目前
的
赢家。我用每一种抽样技术实现了随机森
浏览 0
提问于2018-11-05
得票数 1
1
回答
为什么
重
采样
要改变
模型
系数
的
值?
、
、
、
下面是python
中
的
代码,用于创建LinearRegression
模型
。当我用重新
采样
的
数据训练
模型
时,它
的
系数
得到不同
的
值。我不明白
为什么
会
这样。请你帮我一下好吗?更新在提供
的
用例
中
,行数与我检查
的
浏览 0
提问于2018-07-18
得票数 1
回答已采纳
1
回答
PySpark流水线
中
的
交叉验证
过
采样
、
、
、
、
我正在一个PySpark二进制分类
管道
上工作,我想在其中使用过
采样
阶段执行CrossValidation (我
的
数据集不平衡)。问题是
过
采样
阶段也是在测试数据集上执行
的
。
管道
:smote是我希望在转换测试数据集时跳过
的
阶段。我查看了spark文档和源代码,没有办法跳过PipelineModel
中</em
浏览 1
提问于2019-11-16
得票数 1
3
回答
在数据集上应用随机
过
采样
的
时间
、
、
、
、
我翻阅了笔记本
的
乳腺癌- EDA,平衡和ML。在这个笔记本
中
,Random Oversampling已经实现。然而,当该人进行过度抽样时,他会在整个数据集上进行。我知道
过
采样
只能应用于训练数据集。在我
的
例子
中
,在将数据分割成训练和测试集之后,我对训练数据进行了过度
采样
。精确性,以及我所得到
的
回忆都不如Kaggle笔记本好。avg 0.80 0.79 0.78 2045 weighted avg 0.
浏览 0
提问于2022-09-05
得票数 4
1
回答
从mlogit R包中提取对数正态随机
系数
、
我正在使用R
中
的
mlogit包来估计一个带有对数正态参数
的
混合logit
模型
。包运行得很好,但是有没有一种方法来提取随机
系数
,特别是对于非正态分布
的
参数?使用来自"Kenneth Train
的
练习使用R
的
mlogit包“
的
示例,第22页,data("Electricity", package = "mlogit") Electr10.68065958
浏览 2
提问于2012-01-09
得票数 0
回答已采纳
1
回答
用多数类预测少数民族阶级
、
、
、
假设我想训练一个二元
模型
来预测谁会购买个人贷款
的
概率,而在数据集中,只有5%
的
例子是那些标记为购买个人贷款的人。因此,在这种情况下,也许我可以利用下
采样
或
过
采样
来平衡数据集,但如果数据集不够大,可能
会
留下很少
的
示例,或者可能不适合
过
采样
。然后假设我决定使用整个数据集,我将其划分到培训和测试集,以预测谁不会购买个人贷款
的
概率。考虑到这是一个二元
模型
,从1
中
减去这个<
浏览 0
提问于2020-01-09
得票数 2
回答已采纳
1
回答
解释不平衡数据集交叉验证
的
pipe_line方法背后
的
逻辑
、
、
、
、
how-to-do-cross-validation-when-upsampling-data.htmlX_train, X_test, y_train, y_test = train_test_split(X, y, random_state=45)grid_imba.fit(X_train, y_tra
浏览 0
提问于2022-01-01
得票数 0
1
回答
分类不平衡数据.偏倚和类别权重
、
在其他一些技术,如随机森林,我们可以调整切断从50%,说90%,这样,如果边缘节点有90%
的
例子高密度类,那么只有它会预测
的
类别。出于偏倚和权数,哪一个类似于切断可能性?我总是可以运行3种
模型
--1种有偏见,1种有类重,1种都有--并比较结果。但是还有更好
的
参考吗?
浏览 0
提问于2020-01-24
得票数 3
回答已采纳
2
回答
非平衡数据集
的
重
采样
:测试集也应该重放吗?
、
抱歉,这可能是一个基本
的
问题,但我一直未能找到一个明确
的
答案,无论是在文学或互联网上。在处理不平衡数据集时,一种可能
的
策略是对少数类或多数类进行重
采样
,人为地生成一个可用于训练机器学习
模型
的
平衡训练集。有人能澄清一下这种直觉是否正确吗?
浏览 0
提问于2019-08-20
得票数 4
回答已采纳
1
回答
平衡XGboost仍然倾向于多数类
、
、
、
对于多类分类,我有不平衡
的
数据集,我尝试在XGboost中使用类权重选项,而分类器仍然倾向于支持大多数类。我不确定我是否需要调整其他
的
东西,或者我应该如何处理这个问题。如果阿尔戈预测
的
地方到处都是,我仍然能理解,但不确定
为什么
它仍然偏向于多数阶级。有什么指示吗? 更新:我
的
意思是大部分
的
预测仍然是针对主修班
的
,在测试和训练
中
,这个比例大约是30%。
浏览 0
提问于2019-03-11
得票数 2
2
回答
不平衡数据集
的
定义是什么?
、
我有数千个数据源,从类似类型
的
硬件中生成数据。然而,不同
的
来源在数据集中产生了不同
的
动态!不同数据源上
的
类数不同,因此需要建立不同
的
模型
。这意味着,在最后,我有许多不同
的
模型
要评估。类似的输入,但在输出时要预测
的
类数是不同
的</e
浏览 0
提问于2019-12-09
得票数 3
3
回答
过度拟合
的
模型
在测试集上产生类似的AUC,那么我使用哪种
模型
呢?
、
、
、
、
我试着比较了在数据集上运行GridSearchCV
的
效果,该数据集在选择训练褶皱后被
过
采样
和
过
采样
。我使用
的
过度抽样方法是随机
过
抽样。 请理解第一种方法是错误
的
,因为观察到
模型
已经流进了测试集。/测试拆分,并在随机森林
模型
上使用这两种方法执行GridSearchCV。,后
采样
网格CV AUC是非常高
的
,因为过度拟合.然而,在测试集上对两种
模型
进行评估,在
浏览 0
提问于2018-06-27
得票数 3
1
回答
Gibbs
采样
迭代次数如何影响潜在Dirichlet分配?
、
、
MALLET
的
提到了以下内容:
采样
迭代
的
数量
应该在完成
采样
所用
的
时间和主题
模型
的
质量之间进行权衡。testing only, model.setNumIterations(50); 很明显,太少
的
迭代
会
导致糟糕
的
主
浏览 37
提问于2021-06-01
得票数 1
回答已采纳
1
回答
无法将合并
的
SMOTE & RandomUnderSampler
管道
输送到主
管道
、
、
、
、
我目前正在处理一个不平衡
的
数据集,为了处理不平衡问题,我计划将datatset和ADASYN与RandomUnderSampler结合起来,并且还计划将独立
的
欠
采样
、
过
采样
、SMOTE & ADASYN(总共6种
采样
方式,我将作为GridSearchCV
中
的
paramenter传递)。random_state=rnd_state, n_jobs=-1)), ('under', RandomUnderSampler(
浏览 1
提问于2021-01-10
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
分类模型和聚类思想在失效管道识别中的应用
处理不平衡数据的技巧总结
处理不平衡数据的技巧总结!
如何解决机器学习图像识别中的常见问题
机器学习算法之过拟合和欠拟合
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券