腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我
可以
在
整个
数据
集
上
使用
StandardScaler
()
吗
,
或者
我
应该在
列车
和
测试
集
上
分别
计算
吗
?
、
、
、
、
我
正在为大约100个连续的特征
和
一个连续的标签开发一个SVR。,
我
的下一步是拆分成训练
和
测试
,然后开发一个模型(SVR):model = SVR() ...and,然后
我
将模型与
数据
进行拟合。但我注意到,其他人并不适合将
StandardScaler
()应用于
整个
<e
浏览 16
提问于2021-03-05
得票数 0
回答已采纳
1
回答
在
分割fit_transform之前,
可以
将训练
集
和
测试
集
连接到一起
吗
?
目前,
我
正在尝试
使用
fancyimpute对一些
数据
进行单独的训练/
测试
。但是,
我
遇到了这样的问题:无法对
列车
数据
执行fit_transform,然后只对
测试
集
使用
转换,因为看起来: 转换未实现!
可以
先把这两组归责后再分开
吗
?
或者
我
的方法甚至是正确的,只
在
火车上调用fit,然后再用它来
计算
测试
浏览 0
提问于2019-04-11
得票数 0
2
回答
在
PCA过程中,
测试
集
的
数据
会“泄漏”到预测器中
吗
?
、
在
阅读了这篇文章之后,
我
有一个关于PCA的问题。但是,很少有需要理解的重要问题: 1)不应将训练
集
和
测试
集
相结合,同时获得
整个
数据
的PCA分量。因为,这将违反泛化的
整个
假设,因为
测试
数据
会被“泄漏”到培训集中。换句话说,
测试
数据
<e
浏览 0
提问于2017-05-28
得票数 1
1
回答
规范化公式-
使用
整个
/
列车
数据
集
来
计算
公式中的平均值
和
STD?
、
、
将
数据
集
标准化的公式如下:
我
想知道
我
是否
应该在
整个
数据
集
(
列车
和
测试
的连接)或仅在
列车
数据
集
上
找到平均值
和
std。
我
在
某个地方读到了火车
数据
集
的平均值
和</e
浏览 5
提问于2021-11-26
得票数 0
回答已采纳
2
回答
具有缩放
整个
数据
集
,然后分裂它。
、
、
我
想知道为什么我们要
分别
在火车
和
测试
集
上
使用
缩放。
我
理解根据
列车
上的fit_transform()
计算
的对
测试
数据
的转换(μ
和
σ)。但是,为什么我们
可以
从所有给定的
数据
(
在
拆分之前)
计算
μ
和
σ,然后将它们应用于未来的
数据
。 我们这么做是因为我们不知道未来<e
浏览 0
提问于2018-08-08
得票数 1
2
回答
用回归
数据
模型预测价格
、
、
、
、
建立了基于多个自变量预测房价的回归
数据
模型。
我
得到了回归方程
和
系数。
在
拆分
数据
集
之前,
我
使用
了
StandardScaler
()来缩放变量。现在
我
想用
我
的回归模型来预测房价,当给出自变量的新值时,
我
能直接用自变量的值来
计算
价格
吗
?
或者
在
包含自变量的值之前,
我
应该通过
StandardSca
浏览 1
提问于2020-02-24
得票数 0
回答已采纳
2
回答
SVM+HOG目标检测器
、
、
我
在
训练SVM+HOG对象检测器时遇到了一个问题,这就是
我
所做的。,
StandardScaler
()中的这种变换是基于所有训练样本的均值
和
标准差。因此,问题来了,如果
我
只想在一个新出现的样本
上
测试
经过训练的支持向量机,
我
如何应用
StandardScaler
()?因为
我
不能
计算
一个样本的平均值
和
标准差。根据我的理解,如果
我
想在新
数据</em
浏览 4
提问于2021-06-23
得票数 0
回答已采纳
1
回答
像SMOTE/UP/DOWN这样的采样
可以
应用于验证
集
吗
?
、
、
、
、
我
正试图预测分类问题。为此,
我
使用
了游侠、Xgboost
和
朴素的bayes。
我
的反应课不平衡。92:8比率。
我
的积极反应只占全部
数据
的8%。
我
可以
做这样的事情
吗
?:-将
数据<
浏览 0
提问于2020-01-24
得票数 2
3
回答
为什么不在火车
数据
集
上
优化超参数呢?
、
、
在
开发神经网络时,通常会将训练
数据
划分为
列车
、
测试
和
保留
数据
集
(许多人将这些
数据
分别
称为
列车
、验证
和
测试
)。同样的东西,不同的名字)。许多人建议根据
测试
数据
集中的性能选择超参数。
我
的问题是:为什么?为什么不在
列车
数据
集中最大限度地提高超参数的性能,当我们通过
测试
数据<
浏览 1
提问于2016-07-05
得票数 5
回答已采纳
1
回答
我
应该上采样
和
下采样
数据
,还是只
上
采样不平衡的类
、
、
我
有一个高度不平衡的二进制(是/否)分类
数据
集
。
数据
集
当前有appx 0.008% 'yes‘。
我
遇到了两种方法来处理这种不平衡。undersample)]x_scaled_s, y_s = pipeline.fit_resample(X_scaled, y) 这导致
数据
<e
浏览 3
提问于2020-05-14
得票数 0
2
回答
训练
和
测试
集
的
数据
缩放
、
当我们缩放
数据
时,
我
需要一些澄清。因此,为了防止
数据
泄漏,我们将
列车
和
测试
设备分开,然后
分别
对它们进行缩放,对
吗
?因此,在对火车
和
测试
数据
集中的
数据
进行缩放或标记编码时, 由于
列车
上的fit_transform
和
测试
集
的缩放特性不同,如何保证
测试
集
上
的缩放是
浏览 0
提问于2020-08-27
得票数 0
1
回答
Scikit-学习标签编码,然后进行一次热编码,为训练
和
测试
数据
集
产生不同的特征集。如何解决这个问题?
、
、
、
我
正在尝试
使用
一个包含数千个样本
和
大约41个特征的
数据
集
(KDD-cup-99)用于我的一个机器学习项目。这本质
上
是
使用
TCP转储收集的特定网络的
数据
包捕获。
使用
这些
数据
的人
可以
理解这些。这三个是: protocol_type、service
和
flag。
我
从训练样本
和
测试
样本中分离出这三个特征数组,
分别
对训练
浏览 5
提问于2018-07-31
得票数 0
回答已采纳
2
回答
训练
集
归一化后,
测试
组应该做些什么?
、
、
、
13:28.848Z 214530572 6073 1因此,
我
对
数据
进行预处理columns_list]) clf.fit(train_data.iloc[:, :-2],train_data.iloc[:,-1]) 然后,
我
想用模型进行预测,比如clf.predict(),但是原点
测试
集
应该是
浏览 2
提问于2017-08-24
得票数 0
回答已采纳
1
回答
sklearn learning_curve
和
StandardScaler
、
我
想知道sklearn.model_selection learning_curve是否
可以
使用
或确实
使用
sklearn.preprocessing
StandardScaler
。
我
已经看过了实现,但我的技术水平还不够高,不能靠我自己得出结论。所有关于
使用
learning_curve的教程都会让你将
整个
数据
集
传递给learning_curve,learning_curve会将
数据
分成训练
集<
浏览 0
提问于2018-09-13
得票数 2
1
回答
Weka属性选择
、
我
正在尝试
在
Weka中执行属性选择。
我
想
使用
InfoGainAttributeEval作为一个评估器,因为
我
读到它等同于互信息,排名作为一种搜索方法。
我
应该同时对训练
集
和
测试
集
执行属性选择
吗
?
浏览 0
提问于2012-09-16
得票数 5
回答已采纳
1
回答
基于嵌套CV的滑雪板管道目标编码
、
我
正在为
我
的专栏做目标编码,
使用
嵌套交叉验证方法(以避免泄漏),正如前面提到的、
和
。 如果
我
必须包括
我
的目标编码(通过自定义转换器),
在
sklearn管道,
我
需要不同的转换功能与火车
集
和
测试
集
。这是因为,对于
列车
折叠,编码是
使用
列车
数据
的进一步k折叠分割来
计算
的。而对于
测试
褶
浏览 13
提问于2022-08-21
得票数 1
回答已采纳
2
回答
学习: preprocessing.scale()与preprocessing.StandardScalar()
、
、
我
理解,缩放意味着以平均值(mean=0)为中心,并使单位方差(variance=1)。但是,
在
科学学习中,preprocessing.scale(x)
和
preprocessing.StandardScalar()有什么区别?
浏览 7
提问于2017-09-16
得票数 21
回答已采纳
1
回答
Scikit -规模与网格搜索相结合
、
、
、
我
是新的科学工具包,有两个轻微的问题,结合一个
数据
规模
和
网格搜索。有效定标器 考虑到交叉验证,
我
希望每次我们
在
K-1折叠
上
训练模型时,
数据
定标器(例如,
使用
preprocessing.
StandardScaler
() )只适合于K-1折叠,然后应用于其余的折叠
我
的印象是,下面的代码将适合于
整个
数据
集
上
的定标器,因此,
我
想
浏览 1
提问于2015-12-03
得票数 9
回答已采纳
1
回答
列车
试验分裂后不平衡
数据
的欠采样
、
、
我
是机器学习的新手,目前正在从事一个
数据
不平衡的项目。
我
想用随机抽样来平衡
数据
。
我
很困惑是
应该在
测试
列车
分裂后进行欠采样,还是应该先进行欠采样,然后再进行
列车
测试
分割?
我
的方法是: 1.
我
用火车
测试
拆分得到: X_train,y_train用于培训,X_test
和
y_test用于
测试
。2.将X_train
和
y_
浏览 1
提问于2020-05-22
得票数 5
4
回答
不平衡
数据
集
分类的训练、
测试
分割
、
、
我
有一个做二进制分类的模型。
我
的
数据
集
是高度不平衡的,所以我认为
在
训练模型之前,
我
应该用不适当的抽样来平衡它。因此,平衡
数据
集
,然后随机分割它。这条路对
吗
?还是应该平衡
测试
和
训练
数据
集
?
我
只试着平衡
整个
数据
集
,
我
获得了80%的训练精度,但是
在
测试<
浏览 0
提问于2018-06-08
得票数 20
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
让数据“变脸”——3种不同的数据缩放方式
Scikit-learn:机器学习工具包的典范
OpenCV和SVM分类器在自动驾驶中的车辆检测
机器学习算法原理系列详解-机器学习基础与实践(二)-数据转换
10种数据预处理中的数据泄露模式解析:识别与避免策略
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券