为什么我的数据集在训练时减少了？

数据集在训练时减少可能有以下几个原因：

数据预处理错误：在数据预处理阶段，可能发生了数据丢失、数据清洗错误或者数据采样不准确等问题，导致数据集在训练时减少。解决方法是检查数据预处理的代码逻辑，确保数据的完整性和准确性。
数据集划分错误：在将数据集划分为训练集、验证集和测试集时，可能出现了划分比例不合理或者划分方法有误的情况，导致训练时数据集减少。解决方法是重新检查数据集划分的代码逻辑，确保划分比例和方法正确。
数据丢失或损坏：在数据存储或传输过程中，可能发生了数据丢失或损坏的情况，导致训练时数据集减少。解决方法是检查数据存储和传输的过程，确保数据的完整性和可靠性。
数据采集问题：在数据采集过程中，可能出现了采集设备故障、网络中断或者数据源变化等问题，导致数据集在训练时减少。解决方法是检查数据采集设备和网络连接的稳定性，确保数据源的可靠性和一致性。
数据样本筛选：在训练过程中，可能对数据样本进行了筛选或者过滤操作，导致数据集减少。解决方法是检查训练代码中的样本筛选逻辑，确保筛选条件合理且不会导致数据集减少过多。

腾讯云相关产品推荐：

数据存储：腾讯云对象存储（COS）是一种高扩展性、低成本、安全可靠的云端存储服务，适用于存储和处理大规模非结构化数据。详情请参考：腾讯云对象存储（COS）
数据库：腾讯云云数据库MySQL是一种可扩展、高性能、高可靠的关系型数据库服务，适用于各种规模的应用场景。详情请参考：腾讯云云数据库MySQL
人工智能：腾讯云人工智能平台（AI Lab）提供了丰富的人工智能服务和开发工具，包括图像识别、语音识别、自然语言处理等。详情请参考：腾讯云人工智能平台（AI Lab）
云原生：腾讯云容器服务（TKE）是一种高度可扩展的容器管理服务，支持容器化应用的部署、运行和管理。详情请参考：腾讯云容器服务（TKE）

为什么我的数据集在训练时减少了？

、、、、

在训练过程中，我的数据集正在减少。我不知道是什么引起的。train_test_split(X, y, test_size = 0.2, random_state = 101) X_train.shape (17983, 4500) y_train.shape (17983,) 这是我的当纪元开始运行时，在它是1/17983之前。现在，当我再次运行时，它是1/562。请注意，<em

浏览 72提问于2020-04-01得票数 0

1回答

DLIB :为194个地标提供Shape_predictor培训(helen )

、、、

我正在使用shape_predictor海伦数据集( helen dataset )训练 dlib 的194个人脸地标，该数据集用于通过dlib库的face_landmark_detection_ex.cpp现在，它给了我一个sp.dat二进制文件，大约为45 MB，这比给出的文件()少了68个人脸地标。在训练中平均测

浏览 4提问于2016-04-28得票数 3

回答已采纳

2回答

损失函数-在时代开始时减少了很多。

、、

当我看到详细的输出时，我注意到了一些东西。当我训练我的模型时，在这个时代的早期(前20 %)，损失减少了很多。然后在其余的时期(最后的80%)，损失是非常稳定的，并且在下一个时代之前不会有太大的变化。它也做同样的事。我建立了一个模型，用于训练一种大型数据集(60000条条目

浏览 0提问于2020-05-19得票数 2

回答已采纳

1回答

偏差与数据集大小的关系

、、

我正在读一本书：http://www.feat.engineering/resampling.html，作者在书中提到了以下内容：我无法理解作者在这里想说什么。我的理解是，当我们缩小数据集的大小时，我们会产生偏差，即

浏览 0提问于2022-01-24得票数 0

回答已采纳

2回答

提高卷积神经网络的精度

、、、

我正在尝试训练一个卷积神经网络来对句子进行分类。我取自的代码代码在我的一个数据集中运行得很好。然而，在另一个数据集上，它的性能非常差。两个数据集在数量和句子长度方面具有可比性。对于性能较差的数据集，我注意到步长后损失函数减少了。蓝色表示训练</em

浏览 0提问于2016-04-12得票数 3

1回答

C4.5决策树算法不能提高准确率

、、、

我使用10折交叉验证在Weka中运行了C4.5剪枝算法。我注意到，未修剪的树比修剪的树具有更高的测试精度。我不明白为什么修剪树不能提高测试的准确性？

浏览 18提问于2017-02-05得票数 0

1回答

理解正则化

、

我目前正试图理解逻辑回归的正规化。所以，这就是为什么我们引入正规化。这样，我们减少了

浏览 0提问于2016-02-17得票数 7

3回答

为什么在LSTM模型中使用冻结嵌入层

、、、

我正在研究这个LSTM模式：https://www.kaggle.com/paoloripamonti/twitter-sentiment-analysis嵌入层被冻结，这意味着在</

浏览 0提问于2019-06-02得票数 5

回答已采纳

1回答

为分类数据创建虚拟对象

、

我正在尝试建立一个二进制分类器，我的大多数变量都是分类的。因此，我希望将分类数据处理为虚拟变量。我有以下数据集：ruri_user objectfrom_userX = data[features].drop(dropped_features, axis=1) y = data[targe

浏览 12提问于2018-02-20得票数 1

回答已采纳

1回答

对于10个班，Tensorflow深度学习模型的准确性较低，而作为3个类的一组，效果非常好。

、、、、

我正在从事一个计算机视觉项目，基于嘴唇运动的单词分类。有10个类别(单词)需要分类。数据集中的每个类都有一个图像或帧序列。我选择了一个时间分布模型和LSTM模型作为任务。在错误的情况下，数据集将被转换为一个numpy数组，该数组首先提供给CNN层，以识别每幅图像中的特征。将结果反馈给时间分布层和LSTM，将帧作为时间序列处理。最后，使用一些稠密层进行分类。我面临的问题是，当我将模型

浏览 6提问于2020-08-06得票数 0

回答已采纳

1回答

随机森林:k折交叉验证的OOB？

、、、

我是机器学习的新手，目前我正在尝试使用R中的插入符号和randomForest包实现随机森林分类。我正在使用trainControl函数，并反复进行交叉验证。也许这是一个愚蠢的问题，但据我所知，随机森林通常使用装袋将训练数据分成不同的子集并进行替换，使用1/3作为验证集来计算OOB。但是，如果您指定要使用k折交叉验证，会发生什么情况？从插入符号文档中，我假设它只对重采样使用交叉验证，但是如

浏览 1提问于2021-03-19得票数 0

2回答

神经网络在Python训练后没有给出预期的输出。

、、、、

我的神经网络在Python训练后并没有给出预期的输出。代码中有错误吗？有没有办法降低均方误差(MSE)？https://drive.google.com/open?id=1GLm87-5E_6 6YhUIPZ_CtQLV9F9wcGaTj2 这是我

浏览 0提问于2019-11-22得票数 0

1回答

为什么神经网络的训练时间在增加1-2层隐层时会减少，同时保持学习速率不变？

、、、

当我在神经网络中添加一个额外的隐藏层时，我观察到训练时间减少了。随着可训练参数数的增加，我预计训练时间会增加，以达到一定的验证精度(例如x)，但在比较复杂的模型中，达到相同精度所需的时间较少。设想情况：有人能解释一下

浏览 4提问于2022-05-24得票数 1

1回答

我现在正面临着一个奇怪的问题。最近，我使用以下命令训练了几个不同的yolov4模型：darknet.exe detector train datapath cfgpath yolov4.conv.137 -map。通常情况下，这是很好的，但不知从哪里冒出来，现在它开始停止后，每次地图计算。通常，它只会继续并向我显示计算出来的地图，但是现在我需要再次运行相同的命令(使用最后的权重，而不是yolov4.con.137)来

浏览 3提问于2022-03-15得票数 0

1回答

随机森林排样置换与特征抽样的目的

、、

在随机森林中，我们实际上使用了引导聚合，实际上，我们遵循两个步骤，比如用替换的行采样和创建引导示例的特性采样，实际上我的问题是 1)此行抽样和特征抽样的实际目的是什么？2)在带替换的行抽样中，同一行可以在引导样例中重复(如果我错了，请纠正我)，如果同一行出现了两次，它将如何影响我们的最终预测:是否需要进行替换/是否有必要进行替换？3)假设一个数据

浏览 5提问于2022-03-25得票数 -1

2回答

如何避免过度拟合(Encog3 C#)？

、、

我是神经网络的新手，我正在与Encog3合作。我已经创建了可以训练和测试的前馈神经网络。问题是我不确定如何防止过度拟合。我知道我必须将数据分成训练集、测试集和评估集，但我不确定在哪里以及何时使用评估集。目前，我将所有数据分成训练和测试集(50%，50%)，<

浏览 1提问于2015-06-10得票数 0

1回答

在列车和测试数据上运行get_dummies会返回不同数量的列--在特性工程之后，可以将这两组数据连接起来并分开吗？

、、

我的训练和测试数据集是两个独立的csv文件。|Condition|PoorGood我的问题是，当我试图预测值时会出现不匹配，因为测试集在pd.get_dummies()之

浏览 1提问于2019-11-13得票数 1

回答已采纳

1回答

我是否应该将我的数据分成培训/测试/验证集，并进行k-交叉验证？

、

在评估推荐系统时，可以将其数据分成三部分:培训、验证和测试集。在这种情况下，培训集将用于从数据中学习推荐模型，而验证集将用于选择要使用的最佳模型或参数。然后，使用所选择的模型，用户可以使用测试集来评估其算法的性能。我已经找到了一个scikit学习交叉验证()的文档页面，它说，在使用k-折叠交叉验证时，不需要将数据</em

浏览 5提问于2017-04-05得票数 0

回答已采纳

1回答

LSTM中节点数的影响

、、、、

我是机器学习的新手，我建立了一个2层稠密的神经网络。当我进行实验时，我有以下观察：当我减少每个密集层中的节点数时，我似乎得到了更好的训练和预测精度。这让我感到惊讶，因为我会假设一个密集层中的节点越多，模型就越能理解数据。模型在每个稠密层的节点数不一致的情况下也得到了较好的结

浏览 2提问于2020-01-30得票数 0

回答已采纳

1回答

这个代码有什么问题，为什么这个代码中的损失没有减少？

、、、、

我已经在tensorflow中实现了VGG-16，VGG-16是相当深的网络，所以损失一定要减少。但在我的代码中它并没有减少。但是，当我一次又一次地在同一批上运行模型时，损失就减少了。知道为什么会发生这种事。训练在狗-猫数据集上进行，图像大小为224x224x3.

浏览 2提问于2019-03-05得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么我的数据集在训练时减少了？

相关·内容

为什么我的数据集在训练时减少了？

DLIB :为194个地标提供Shape_predictor培训(helen )

损失函数-在时代开始时减少了很多。

偏差与数据集大小的关系

提高卷积神经网络的精度

C4.5决策树算法不能提高准确率

理解正则化

为什么在LSTM模型中使用冻结嵌入层

为分类数据创建虚拟对象

对于10个班，Tensorflow深度学习模型的准确性较低，而作为3个类的一组，效果非常好。

随机森林:k折交叉验证的OOB？

神经网络在Python训练后没有给出预期的输出。

为什么神经网络的训练时间在增加1-2层隐层时会减少，同时保持学习速率不变？

计算mAP后的暗网停止

随机森林排样置换与特征抽样的目的

如何避免过度拟合(Encog3 C#)？

在列车和测试数据上运行get_dummies会返回不同数量的列--在特性工程之后，可以将这两组数据连接起来并分开吗？

我是否应该将我的数据分成培训/测试/验证集，并进行k-交叉验证？

LSTM中节点数的影响

这个代码有什么问题，为什么这个代码中的损失没有减少？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐