腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
我
将
数据
分成
测试
和
训练
集
,
错误
是
“
发现
样本
数量
不一致
的
输入
变量
:[
1,000,23486
]”
、
、
、
、
我
的
项目
是
使用nlp
将
评论分类为好
的
或坏
的
。
我
已经导入了
数据
,并使用bag of words模型进行了标记化
和
矢量化。现在
我
必须将
数据
分成
测试
和
训练
集
,
我
得到了一个
错误
消息:“
发现
样本
数量
不一致
的
浏览 10
提问于2019-12-08
得票数 0
回答已采纳
1
回答
分度百分比
、
我
现在正在读
的
一本书"Apache Mahout Cookbook“
是
由Pierro Giacomelli写
的
,他说 为了避免这,您需要将向量文件
分成
两组,称为80-20拆分<...> --良好
的
分割百分比分别为80%
和
20%。是否有严格
的
统计证据证明这是最好
的
百分比,还是它是一个利尿
的
结果?
浏览 0
提问于2015-02-11
得票数 1
回答已采纳
2
回答
K次交叉验证中
的
训练
集
、验证
集
和
测试
集
的
比率
、
、
假设
我
有100个
样本
,那么
我
想使用5倍
的
简历,
是
培训
集
:验证
集
:
测试
集
的
比率
是
84:16:16?验证集中
的
数据
数量
应该总是等于
测试
集
吗?
浏览 0
提问于2020-10-07
得票数 0
回答已采纳
1
回答
或者为什么简历
和
测试
集
之间会出现差异?
、
最近,
我
在做一个项目,
发现
我
的
交叉验证
错误
率很低,但是
测试
集
错误
率很高。这可能表明
我
的
模型太合适了。为什么
我
的
交叉验证不过分,而我
的
测试
集
覆盖?更确切地说,
我
有大约两百万
的
观测
数据
,有100个
变量
(n>>p)。
我
把
数据<
浏览 0
提问于2017-03-01
得票数 9
3
回答
如何知道
训练
数据
是否足以用于机器学习?
、
、
例如:如果
我
想
训练
一个分类器(也许是SVM),
我
需要收集多少
样本
?对此有测量方法吗?
浏览 0
提问于2014-07-15
得票数 7
回答已采纳
1
回答
如何量化给定
训练
数据
样本
的
偏差
和
方差
、
、
我
有一个模型,
我
使用多项式
和
径向基函数进行
训练
,
我
将
数据
分成
训练
集
和
测试
集
,并从
训练
集中提取大量
样本
。现在
我
对下一步感到迷茫,
我
知道偏差就是损失最小
的
样本
。
我
是
在
训练
数据
上还是在
浏览 2
提问于2019-11-14
得票数 1
1
回答
TreeBagger() (MATLAB)
和
不同
数量
的
训练
和
测试
集
上
的
变量
、
、
我
正在使用MATLAB函数TreeBagger()进行随机森林分类,以完成一项任务。当
测试
数据
的
变量
数量
与
训练
数据
的
变量
数量
不同时,它会给出
错误
。
我
被告知,
变量
选择应该只在
训练
数据
上进行,而不是在
测试
数据
上,这样
测试
数据
上就没有偏见。因此,
浏览 0
提问于2015-12-20
得票数 1
1
回答
如何计算蟒蛇随机森林试验
数据
与
训练
数据
的
精度
、
、
我
建立了一个随机森林模型,
我
用它来预测
我
的
训练
和
测试
数据
,这些
数据
来自两个不同
的
数据
框架。
我
想计算模型
的
准确性,但是它没有工作,因为
我
的
训练
数据
有76行,而我
的
测试
数据
只有52行。
我
怎么才能用蟒蛇做呢?到目前为止,<em
浏览 1
提问于2020-09-14
得票数 0
2
回答
在
样本
外
数据
集
上使用词袋分类器
、
、
、
、
我
最近使用词袋分类器制作了一个包含96%术语
的
文档矩阵。然后,
我
使用决策树对
输入
的
词袋进行模型
训练
,以做出句子是否重要
的
预测。该模型在
测试
数据
集
上表现得非常好,但当我使用
样本
外
的
数据
集
时,它无法预测。相反,它会给出
错误
。labeledTerms, spl == FALSE) CART = r
浏览 4
提问于2014-10-09
得票数 4
3
回答
如何
将
数据
集
随机
分成
多个不同
的
集合:(
训练
70%:验证10%(可选):
测试
20%)?
、
、
我
有一个包含4个预测
变量
X_1, X_2, X_3, X_4,
和
一个响应
变量
Y
的
数据
集
。
我
被要求检查这些
变量
之间
的
相关性,看看它们
是
如何关联
的
,然后使用线性模型对它们进行拟合。没有分割
的
训练
集
:
测试
集
是
给定
的
。
我
有一个包含10000个<em
浏览 0
提问于2020-02-21
得票数 1
回答已采纳
1
回答
小
数据
集
,列车
测试
拆分或列车价值
和
测试
?
、
、
、
、
我
为
我
的
论文做了一些预测(股票)。
我
只使用了固定
数量
的
600个
样本
(这是无法改变
的
)。由于
数据
集
较小,
我
只做了
训练
和
测试
拆分(没有验证等)。
我
发现
一些设置在
训练
和
测试
中都获得了非常好
的
结果(MAPE
和
R2)。但我只有列车组
浏览 20
提问于2019-11-12
得票数 0
1
回答
KFold
和
ShuffleSplit CV有什么区别?
、
、
似乎每次迭代对象时,KFold都会生成相同
的
值,而Shuffle Split每次都会生成不同
的
索引。这是正确
的
吗?如果
是
这样,那么一个比另一个有什么用处呢?
浏览 1
提问于2016-01-12
得票数 42
回答已采纳
1
回答
支持向量机:评分
测试
数据
、
、
、
我
正在使用scikit-learn,并希望在
测试
集
上计算SVM
的
predicition。()
我
得到了ValueError: <e
浏览 1
提问于2018-03-27
得票数 0
回答已采纳
2
回答
图像分类中
的
数据
洗牌
、
、
、
、
我
想开发一个CNN模型来识别美国手语中
的
24个手语。
我
创建了一个自定义
的
,其中包含了每个手势
的
3000个图像,即整个
数据
集中
的
72000幅图像。为了
训练
模型,
我
将使用80-20
数据
集
分割(
训练
集中有2400幅图像/手部符号,验证集中有600幅图像/手部符号)。
我
的
问题
是
:在创建
数据
浏览 3
提问于2020-04-14
得票数 1
回答已采纳
2
回答
列车分拆与分组试验分离
、
、
、
, 5],所以我
的
数据
是
这样
的
2 a 70 3
浏览 3
提问于2020-04-21
得票数 9
回答已采纳
1
回答
对特征选择预处理进行交叉验证
的
动机是什么?
、
、
我
看过几篇关于特征选择(包装器
和
嵌入式方法)
的
文章和例子,他们把
样本
数据
分成
训练
集
和
测试
集
。
我
理解为什么我们需要使用交叉验证(
将
数据
分成
训练
集
和
测试
集
)来构建和
测试
模型
的
分数(所提出算法
的</em
浏览 37
提问于2020-04-04
得票数 0
1
回答
如何对文本进行预处理以
输入
支持向量机?
、
我
使用
的
是
IMDB
数据
集
,它包含列文本中
的
电影评论
和
列标签中
的
评级0或1。
我
正在使用Tfidf使用sklearn对文本进行预处理。使用线性核,然后用classifier_linear.fit(X, df_test['label'])
我
收到
错误
了ValueError:找
浏览 0
提问于2021-02-23
得票数 0
回答已采纳
2
回答
学习曲线-为什么
训练
的
准确性开始这么高,然后突然下降?
、
、
、
、
我
实现了一个模型,其中
我
使用Logistic回归作为分类器,
我
想绘制学习曲线为
训练
和
测试
集
,以决定下一步做什么,以改进
我
的
模型。为了给你一些信息,为了绘制学习曲线,
我
定义了一个函数,它采用一个模型,一个预分裂
的
数据
集
(
训练
/
测试
X
和
Y数组,NB:使用train_test_split函数),一个评分函数
浏览 5
提问于2016-05-02
得票数 3
回答已采纳
3
回答
(
训练
测试
分裂科学学习)
、
、
、
、
无论
我
走到哪里,
我
都能看到这个密码。需要帮助理解这一点。
我
应该把它放在fit()中并预测()
浏览 0
提问于2019-08-30
得票数 2
回答已采纳
2
回答
取多个神经网络
的
平均值?
、
、
、
、
我
用一个非常小
的
数据
集
来拟合一个神经网络,所以试着把
数据
分成
训练
和
验证
集
。(有一个单独
的
测试
集
)如果
我
将
训练
/验证随机
分成
几次,为每个
训练
/验证分裂构造一个神经网络,并取
测试
集
上神经网络预测值
的
平均值,它是否可以称为集成
浏览 0
提问于2018-01-29
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
深入浅出机器学习的基本原理与基础概念
算法研习:机器学习中的K-Fold交叉验证
机器学习的心腹大患:数据泄漏
RNN循环神经网络、LSTM长短期记忆网络实现时间序列长期利率预测
机器学习基础Python训练集测试集分割与交叉验证
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券