腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(4450)
视频
沙龙
1
回答
将
训练
数据
中
的
四分
位数
切割
应用于
测试数据
、
、
、
、
是否有任何现有的python函数可以从
训练
数据
中
获取
四分
位
切割
并
应用于
测试数据
。我在火车和测试中都有大约1000列。我希望根据火车上
的
箱子得到
测试数据
的
四分
位数
(1、2、3或4)。
浏览 10
提问于2018-12-14
得票数 3
1
回答
测试和
训练
良好
的
实践wrt摘要功能
、
当
数据
集
的
一个特征是整个
数据
池
的
汇总统计
数据
时,
将
训练
数据
包括在
测试数据
中
以计算用于验证
的
特征是一种良好
的
实践吗? 例如,假设我有1000个
数据
点,分为800个
训练
条目和200个用于验证
的
条目。我用800个条目创建了一个特征,用于
训练
等级
四分
位数
(也可以是任何东西),它<em
浏览 15
提问于2020-02-13
得票数 0
回答已采纳
1
回答
Weka
中
不兼容
的
训练
和测试集
、
、
我有一套
训练
。我在
训练
集上执行了以下过滤器, 我在
测试数据
上使用了"NumerictoNominal“过滤器。
测试数据
缺少值,而且Class属性也是空
的
。属性
的
数量和顺序在测试和培训<
浏览 2
提问于2013-04-01
得票数 1
2
回答
R截非零值
我有一个
数据
表格式
的
时间序列
数据
(假设它有列" date“和"y"),我想按日期
将
y
的
非零值
切割
成
四分
位数
,这样每个
四分
位数
都得到标签1-4,零值得到标签为0。= 4, labels = (1:4))) 但是我不知道如何得到标签0-4,0分配给y
的
0-值,1-4是非零值
中
的
四分
位数
。编辑:为了澄清,
浏览 0
提问于2018-09-11
得票数 1
回答已采纳
1
回答
何时使用scikit学习
的
train_test_split
、
、
、
、
我有一个包含19个特征
的
数据
集。现在我需要做缺失值补充,然后使用scikit
的
OneHOtEncoder对分类变量进行编码,然后运行机器学习算法。我
的
问题是,我应该在使用split
的
train_test_split方法做上述所有事情之前拆分这个
数据
集,还是应该首先拆分成
训练
和测试,然后对每组
数据
进行缺失值和编码。我担心
的
是,如果我首先拆分,然后对得到
的
两个集合进行缺失值和其他编码,当对测试集中
的
变量
浏览 0
提问于2015-05-05
得票数 6
1
回答
Orange:如何确保相同
的
PCA同时
应用于
训练
数据
集和
测试数据
集?
在Orange
中
,我可以
将
数据
集附加到PCA以进行降维。有没有一种方法可以在
测试数据
的
训练
数据
上运行PCA转换?
浏览 72
提问于2020-02-22
得票数 0
回答已采纳
1
回答
WEKA
训练
用例和测试用例不匹配
、
、
、
我需要通过
训练
样本来学习分类器,并对测试样本进行分类。我
的
例子是很长
的
文本。我想使用一个特征集,其中第i个元素是第i个最频繁
的
单词,例如,第一个特征是最频繁
的
单词。我
的
问题是,如果我使用字符串功能,那么我就不能使用我想要
的
分类器。如果我使用名义特征,我会将第一个特征作为我
的
训练
示例中最常用
的
单词。对于测试示例,第一个特征是我
的
测试示例中出现频率最高
的
单词。所以这些特征是不同
浏览 3
提问于2013-08-12
得票数 0
1
回答
随机森林--“完美”混淆矩阵
、
、
我有一个分类问题,我想找出不应该被邀请到银行开会
的
潜在借款人。在
数据
中
,大约25%
的
借款人不应该被邀请。我有大约4500个观察值和86个特征(许多假人)。清理
数据
后,我执行以下操作:y= ratings_prepared[:,-1]train_index] X_test = X[test_index] y_te
浏览 109
提问于2020-02-18
得票数 1
回答已采纳
1
回答
基本统计-奇数
数据
集
的
四分
位数
、
我有以下
数据
,我想要第一个和第三个
四分
位数
。中
位数
是3000。所以根据我
的
计算,Excel函数
四分
位数
QUARTILE(E22:E26,1)和QUARTILE(E22
浏览 0
提问于2016-02-22
得票数 1
回答已采纳
3
回答
长曲线形the是什么意思?
、
我使用一维CNN输入1*512大小
的
随机分段时间序列
数据
,输出
将
输入分为10类。在接受CNN
训练
后,我
将
the
应用于
我在
测试数据
中
输入
的
预测。通常,tsne结果
的
输出形状是球形
的
(例如,
应用于
MNIST
数据
集)。但现在我在自己
的
数据
集中应用t。无论我如何及早调整困惑,学习速度或最大迭代次数。它会给我长形状输出
的
浏览 0
提问于2018-07-08
得票数 10
1
回答
当列车/测试是真正
的
i.i.d.时,信息泄漏。
、
、
、
、
我非常清楚,为了避免信息泄漏,建议对
训练
数据
集上
的
任何转换(例如标准化或基于中值
的
估算)进行拟合,并将其
应用于
测试数据
集。然而。我不清楚,如果
数据
是iid,而
训练
/测试拆分确实是随机
的
,那么
将
这些转换
应用于
整个
数据
集
的
风险是什么?例如,如果原始
数据
集具有一定
的
统计特性(例如,均值、中值和std),那么我
将</e
浏览 0
提问于2021-02-04
得票数 2
回答已采纳
1
回答
训练
和
测试数据
集是否应该使用相同
的
计算机系数?
、
、
我正在学习如何准备
数据
,构建估计器,并使用
训练
/
测试数据
拆分进行检查。 我
的
问题是如何正确地准备
测试数据
集。 我将我
的
数据
分成测试和
训练
集。,我想在
测试数据
上使用我
训练
过
的
估计器来验证我
的
准确性。但是,如果我通过我定义
的
管道传递我
的
测试特征
数据
,它不是只从
测试数据
集和基于
测试数据
集<
浏览 19
提问于2019-08-21
得票数 0
1
回答
用测试集中
的
中
位数
填充南值
、
、
、
、
我正在进行
数据
准备,以便将我
的
数据
适合于机器学习算法。目前,我正在处理/处理丢失
的
值。在下面显示
的
这段代码
中
,我没有出现错误,而是出现了混淆。在这两个代码块
中
,我
将
应用相同
的
内容,但适用于两个不同
的
数据
集:、train_x_e、=>、test、和test_x =>测试集。在第一个代码块
中
,我
将
填充来自train_x_e
的
na
浏览 4
提问于2019-12-17
得票数 1
回答已采纳
1
回答
R
数据
帧-根据相邻列值分配文本值
、
、
我对R非常陌生,我正在尝试做一些我只能想象
的
非常简单
的
事情,但我似乎无法让它工作。 我正在尝试添加一个新
的
列,它将基于
数据
框
中
已填充
的
四分
位数
值,显示为:“第一个
四分
位数
”、“第二个
四分
位数
”等。我认为这将是一个简单
的
if else语句工作,但是我
的
以下代码只用“第四个
四分
位数
”填充新列,当输出所基于
的
浏览 12
提问于2020-01-27
得票数 0
回答已采纳
1
回答
如何在测试集中应用均值编码?
、
、
、
如果我有一个
数据
集,则通过使用目标变量'B‘计算每个类别的平均值,
将
均值编码
应用于
训练
数据
集
的
分类特征'A’,但是
测试数据
如何?
测试数据
不包含任何目标变量。是否应使用培训
数据
中
的
计算值?
浏览 5
提问于2020-05-12
得票数 0
1
回答
使用插入符号对
训练
和
测试数据
进行预处理
、
日安 我使用插入符号函数
中
的
preProcess()函数来相应地缩放我
的
训练
数据
。我还有一个
测试数据
集,我想用
训练
集中相同
的
均值和标准差进行缩放。通过这种方式,我
将
测试数据
视为全新
的
/看不见
的
数据
,这些
数据
是根据我基于
训练
数据
观察到
的
数据
进行缩放
的
浏览 40
提问于2020-06-24
得票数 1
回答已采纳
1
回答
使用Weka预测
测试数据
集中
的
文本
数据
标签?
、
arff文件
中
的
数据
为@attribute Class {positive, negative, objective现在我有了我
的
测试数据
,我想要预测他们
的
标签,我不知道。同样,它
的
头信息是相同
的
,但对于每个类,它都标有一个问号(?)我再一次对它进行了预处理,字符串到单词向量,类与
训练
数据
处于相同
的
位
浏览 2
提问于2013-03-16
得票数 1
回答已采纳
2
回答
给定
数据
的
箱形图绘制算法
、
、
、
我已经对从一些未知分布中提取
的
实值数组进行了排序,比如X。我想为这个
数据
画一个框图。 在我看来,如何获得Q1 = 1.25和Q3 = 3.5
的
值是有魔力
的
,但我不知道魔力是什么。有谁有这方面的经验吗?
浏览 2
提问于2012-05-17
得票数 1
回答已采纳
1
回答
为什么lstm [Pytorch]返回一个与目标输出相似但规模缩小
的
预测输出?
、
、
、
、
我一直在试图预测谷歌股价在特定日期之间,但当我使用经过
训练
的
网络来预测未来
的
价值时,我得到了一个与目标类似的输出,但规模不同(截图如下)。 我用pytorch编写了一个lstm神经网络。google
的
股价是从yfinance库(python)获得
的
。,我使用MinMaxScaler.fit_transform()来扩展培训和
测试数据
。然后,我使用网络来预测未来
的
值,并使用MinMaxScaler.inverse_transform()将得到
的
输出转换为
浏览 4
提问于2022-10-23
得票数 0
1
回答
按组大小变化
的
组标记分
位数
、
、
在 my组( "name“变量)
中
,我希望
将
值
切割
为
四分
位数
。为变量"value“创建一个
四分
位标签列。由于组大小不同,对于不同组
的
四分
位数
范围也会更改。,但代码下面的,只将
四分
位数
削减总价值,从而使相同
的
四分
位数
range适用于所有组。cut(value,breaks=quantile(value,probs=seq(0,
浏览 1
提问于2016-07-21
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
将数据库性能提升100倍?大数据时代中,一位数据库老兵的创新之路
10种数据预处理中的数据泄露模式解析:识别与避免策略
使用OmicsTools电脑软件零代码绘制各种类型的箱式图
Doping:使用精心设计的合成数据测试和评估异常检测器的技术
数据信息汇总的7种基本技术总结
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券