腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
任何
将
数据
拆
分成
训练
、
测试
、
有效
数据
并
保
存在
文本
jupyter
中
的
方法
我刚刚从我
的
数据
集中加载了大约80500张照片,我如何使用列车
测试
分割
方法
将它们分离出来,然后将它们转储到一个文件
中
。例如(joblib.dump) 我想要60%
的
训练
集,20%
的
验证和20%
的
测试
。我
的
数据
集加载代码有问题吗?因为我不能拆分
数据
folders = glob.glob('C:\\Users\\Pc\\Desktop\\Facial
浏览 29
提问于2021-02-04
得票数 0
1
回答
模型:在培训和部署期间
、
众所周知,在模型
训练
期间,我们坚持
测试
集。然而,我实际上在部署过程中发现,如果在整个
数据
集(train+test)上使用新
的
模型序列,实际上在预测真正
的
“未见”
数据
方面也会产生相当好
的
结果。我正在寻找对这种
方法
的
评论。有什么问题吗? 特别是,在这种
方法
中
,我将对整个
数据
集应用
任何
类型
的
转换,例如标准化/规范化/分类编码。对部署
浏览 0
提问于2022-04-06
得票数 0
回答已采纳
1
回答
在sklearn
方法
中
更改random_state (在调整hyperparams之后)可以提供不同
的
精度
、
、
我尝试使用GridSearchCV
方法
调优超参数。 问题:我得到不同
的
预测精度,这取决于我使用
的
random_state。我尝试过
的
方法
:我尝试
将
random_state参数设置为全局状态(使用np.random.seed( randomState )并在脚本顶部将randomState设置为整数)。从这里,我找到了最好
的
估计器,
并
选择这个作为我
的
模型。然后,我使用我
的
模型进行预测,
并
打印结果<em
浏览 155
提问于2020-10-05
得票数 0
3
回答
数据
科学模型与培训-理解
、
、
、
、
来自编写代码、
测试
、部署、运行
的
编程背景。我试图用
数据
科学
中
的
“
训练
模型”或“受过
训练
的
模型”
的
概念来思考,
并
部署这个经过
训练
的
模型。 我并不真正关心部署环境,自动化等等。我在努力了解部署部队..。我理解
训练
模型和
将
一组
数据
分成
训练
集和
测试
集
的
概念,但是让我
浏览 1
提问于2018-01-10
得票数 0
1
回答
当我
的
数据
很少
的
时候,优化Sklearn分类器
中
的
参数
的
最佳
方法
是什么?
、
、
如果我只有684行和177列
的
数据
集,而我要预测
的
列有3个标签,那么优化Sklearn分类器
中
的
参数
的
最佳
方法
是什么?我知道我应该
将
数据
分成
训练
、验证和
测试
集,然后找到参数来
训练
训练
集,使验证集中
的
度量最大化,并在
测试
集中使用这个优化
的
分类器。但是,当我使用决策树分类器执行此操作时,对验证集最
浏览 0
提问于2019-08-07
得票数 0
回答已采纳
1
回答
如何防止
测试
数据
泄漏到机器学习算法
的
训练
过程
中
?
、
、
、
我在许多不同
的
来源中看到,我需要将我
的
数据
分成
一个
训练
集和一个
测试
集。然后,我必须确保算法只对
训练
数据
进行
训练
,
并
尽量避免
测试
数据
泄漏到
训练
过程
中
。为了避免学习不重要
的
数据
细节(这将提高算法
的
泛化能力),我可以
将
训练
数据
进一步分割成适当<e
浏览 0
提问于2020-01-23
得票数 1
回答已采纳
2
回答
在Weka
中
,从
文本
文件生成arff文件
、
在naive byes分类器
中
,我想从我
的
训练
和
测试
中
找出准确性。但我
的
火车就像对于<
浏览 1
提问于2015-12-25
得票数 0
1
回答
将
数据
随机混洗,然后将其
分成
训练
集和
测试
集
的
有效
方法
?
、
我正在编写一段关于机器学习
的
python代码,其中我必须随机地
将
100000个样本和拆分
的
数据
放入
训练
和
测试
集。我已经
将
数据
存储到两个numpy数组
中
。如果我使用下面的命令,它太耗时了。有没有什么
有效
的
方法
可以随机地对
数据
进行混洗,然后将其
分成
训练
集和
测试
集?谁能推荐一个对我有帮助
的
pytho
浏览 0
提问于2017-04-26
得票数 0
1
回答
拆分
训练
测试
数据
集,保持相似的值在一起
、
、
我有一个带有ID
的
动物类型
数据
集,我想将这些
数据
集
分成
测试
/
训练
数据
集。我还希望
将
各个动物
的
所有ID保
存在
训练
或
测试
数据
集中。下面是随机
训练
/
测试
分割比率为80/20
的
数据
示例。TRAINDOG 3 TRAIN DOG 4 T
浏览 30
提问于2020-10-02
得票数 2
2
回答
用支持向量机预测时间序列
的
未来值
、
、
我在R中使用支持向量回归来预测单变量时间序列
的
未来值。
将
历史
数据
分成
测试
集和
训练
集,使用R
中
的
svm函数对
测试
数据
建立模型,然后对
训练
数据
使用predict()命令来预测
训练
集
的
值。我们有一个模型,通过对
训练
数据
检查该模型,我们发现该模型是
有效
的
。我如何使用这个模型来预测<e
浏览 9
提问于2015-04-14
得票数 2
1
回答
sklearn learning_curve和StandardScaler
、
我已经看过了实现,但我
的
技术水平还不够高,不能靠我自己得出结论。所有关于使用learning_curve
的
教程都会让你
将
整个
数据
集传递给learning_curve,learning_curve会将
数据
分成
训练
集和
测试
集。
任何
估计器
的
所有教程都让您将
数据
拆分为
训练
和
测试
,然后仅缩放
训练
数据
,
并
使用
训练<
浏览 0
提问于2018-09-13
得票数 2
1
回答
标准化/分解培训/
测试
一起还是分开?
、
X
数据
的
两个常见
的
ML预处理步骤是标准化(例如,缩放到单位方差)和分解(
将
特征映射到一个新空间AIUI)。在ML管道
中
实现这些步骤(包括培训/
测试
/验证集)
的
两种可能
方法
是: 1)对整个
训练
/
测试
/验证X
数据
集进行标准化/分解,然后分解成
训练
/
测试
集,
并
使用最小误差模型对验证集进行预测。
浏览 2
提问于2015-05-12
得票数 1
回答已采纳
3
回答
由group+ sklearn cross_val_score拆分为
训练
和
测试
、
y gg 3 z ii 2 z 对于
训练
集和
测试
集在这里,我需要
分成
测试
和
训练
,以便每个group
中
70%
的
数据
应该在
训练
中
,每个组
中
30%
的
数据
作为
测试
数据
。然后预测
并</
浏览 0
提问于2018-11-08
得票数 0
3
回答
我应该只在
训练
集上执行交叉验证吗?
、
我正在使用从Kaggle下载
的
数据
集。
数据
集已经划分为两个列车和
测试
的
CSV。 我用
训练
集建立了一个模型,因为我把列车CSV导入了木星笔记本。我预测使用列车CSV本身。我想进行交叉验证。我是否应该对列车CSV进行交叉验证,并再次将其
分成
两部分:列车和
测试
?或者,我应该导入一个新
的
CSV文件
测试
并将两个CSV合并成一个吗?
浏览 0
提问于2019-08-17
得票数 6
回答已采纳
5
回答
如何
将
数据
分成
3个集合(
训练
、验证、
测试
)?
、
、
、
、
我有一个熊猫
数据
帧,我想把它
分成
3个单独
的
集合。我知道使用sklearn.cross_validation
中
的
,可以
将
数据
分成
两个集合(
训练
和
测试
)。然而,我找不到
任何
关于
将
数据
分成
三个集合
的
解决方案。最好,我想要原始
数据
的
索引。 我知道一个变通办法是使用train_test_split两次,
浏览 109
提问于2016-07-08
得票数 199
回答已采纳
1
回答
使用多个
数据
文件
的
vowpal wabbit (用于时间序列交叉验证)
嗨,我正在尝试运行一个“滚动窗口”风格
的
时间序列交叉验证:即
训练
与8周
的
数据
,
测试
与下周,幻灯片1周。我已经将我
的
数据
文件拆
分成
每周一次
的
块。因此,我希望
将
多个文件传递给--data参数(我尝试重复使用--data)。 这不起作用,但似乎可以使用多个缓存文件。AFAIK,这需要我首先从我
的
文本
文件块
中<
浏览 0
提问于2018-04-23
得票数 2
2
回答
测试
数据
中
没有目标响应变量
、
我有两个
数据
集,它们是
训练
和
测试
集。
训练
数据
有一个目标变量,但是
测试
集没有。我应该做些什么来解决
测试
集
的
问题?
浏览 0
提问于2021-08-10
得票数 0
1
回答
测试
数据
的
大小不适合模型(python)
、
我在
测试
我
的
模型时遇到了问题,当我
训练
我
的
模型时,它工作得很好。然而,当我尝试
将
测试
数据
放入模型
中
时,它给出了大小不匹配
的
错误,这是我所期望
的
。我把我
的
数据
分成
了70%
的
训练
和30%
的
测试
。numpy()[:100] , ypred_test.detach().numpy()[:100] ,
浏览 20
提问于2020-12-10
得票数 0
1
回答
启动情感分析项目的最佳实践?
、
、
在对人工智能和情感分析做了大量
的
研究之后,我发现了两种
文本
分析
的
方法
。在对
文本
进行预处理之后,我们必须创建一个分类,以便得到正反两方面的结果,所以我
的
问题是,最好有这样
的
例子:100条
文本
训练
记录,包括两个字段:
文本
&状态字段,表示其正值1或负0.第二种
方法
:用100条
文本
记录来
训练
和制作单词包
的
一个词汇表,以便在此单词包<
浏览 4
提问于2020-03-19
得票数 0
2
回答
特征选择和交叉验证
、
、
、
、
为了评估我
的
模型
的
性能,我还执行了5折交叉验证,我对以下两种
方法
的
问题是正确
的
,为什么?1-如果我
将
数据
分成
两半,在前半部分进行特征选择,
并
使用这些选择
的
特征在剩余
的
一半上进行5折叠交叉验证( CV ) (在这种情况下,5 CV将使用完全相同
的
选择特征)。2-执行以下步骤: 1-
将
数据
分成
4/5用于
训练</em
浏览 1
提问于2013-10-29
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
线性回归·总结
15个节省时间的Jupyter技巧
利用特权信息、语义信息和多源信息辅助基于网络数据的学习
Microsoft发布Jupyter Notebook对Cosmos DB支持的GA版
Fast.ai推出NLP最新迁移学习方法“微调语言模型”,可将误差减少超过20%!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券