如何使用pandas块处理大数据，将x_train和y_train的数据拆分成机器学习？

pandas、machine-learning

Df_chunk=pd.read_csv(文件名，chunk=1000) X_train、Y_train、X_test、Y_test=train_test.split(df_chunk) 如何使用df_chunk对x和y训练数据进行分割

浏览 11提问于2021-05-03得票数 0

3回答

从CSV文件加载线性支持向量机分类数据集

python、svm、libsvm

, 5, 10, 15, 20.25, 43, 9.55, 10.34, B我试图将此数据集分离并分类为以下内容x(样本数据)，而"M，M，B，B，M”中的那个是y(这是与其数据集匹配的分类)。我正在尝试创建一个已经加载的python代码，它可以打印出被数据分隔的数据以及它的分类。它与线性支持向

浏览 3提问于2019-11-20得票数 1

回答已采纳

1回答

当数据非常庞大时，将数据放入机器学习keras模型中

python-3.x、numpy、machine-learning、keras、numpy-ndarray

在使用keras的机器学习教程中，训练机器学习模型的代码就是这个典型的一行代码。model.fit(X_train, nb_epoch=5, validation_split=0.1) 当训练数据X_train和<

浏览 13提问于2018-08-17得票数 2

回答已采纳

1回答

如何解释虹膜数据集结果？

python、scikit-learn

我正在使用虹膜数据集学习机器学习的基础知识。我想我理解了拆分数据并对新数据进行预测的想法；但是，我在理解以下代码得到的结果时遇到了问题: iris = load_iris()y = iris.target X_train, X_test, y_train, y_test = train_test_split(

浏览 0提问于2020-02-24得票数 0

2回答

对数据拆分进行随机化，以便对此函数进行训练和测试

python、arrays、python-3.x、numpy

我写了一个函数，根据总大小的百分比将numpy ndarray、x_data和y_data拆分成训练和测试数据。percentage_split): p = int(number_of_samples * percentage_split) y_train = y_data[0:p] x_test

浏览 1提问于2018-08-20得票数 2

回答已采纳

2回答

给定一个单独的离散数据集，我应该如何将其划分为训练数据和测试数据？

machine-learning、xgboost、training

我有一个libSVM格式的数据集，由6000个条目组成，每个条目有5个索引，每个索引有一个二进制值1或2。每一个条目的标签为1或0，我正在尝试使用各种机器学习算法来确定给定一组特定5个索引/值的正确标签(0或1)。例如，考虑以下数据集(真正的数据集是6000行)：0 101:0 102:1 103:0 104:1 105:1 0 101:0 102，如xgbo

浏览 0提问于2019-04-10得票数 0

1回答

如何预测需要预加工的单个数据样本

machine-learning、scale

当我阅读scikit学习示例时，典型的机器学习流程是预处理-->学习-->预测。Pipeline(steps) y_pred = pi

浏览 1提问于2018-04-04得票数 0

回答已采纳

5回答

将张量分成训练集和测试集

tensorflow、cross-validation、training-data

假设我使用TextLineReader阅读了一个文本文件。在Tensorflow中，是否有办法将其分为训练集和测试组？

浏览 8提问于2017-01-25得票数 23

回答已采纳

3回答

什么是培训和测试数据集？

machine-learning、dataset、data-science、kaggle

我刚刚参加了各种数据科学和机器学习比赛。有人能解释一下这些数据集是什么以及我们如何在解决问题的同时使用这些数据集吗？

浏览 3提问于2017-09-15得票数 1

4回答

XGBoost大型数据集~1TB

bigdata、data、xgboost

像XGBoost或Lightbgm这样的梯度增强解决方案可以用于大量的数据吗？我有一个820 of的csv文件，包含10亿个观测，每个观察都有650个数据点。对于XGBoost来说，这是太多的数据吗？我已经在互联网上搜索了一个解决方案，当数据无法进入内存内存时，就没有用了。我读过关于xgb的外部内存的文章，但是没有详细的文档。谁能帮我指出正确的方向吗?

浏览 0提问于2019-06-15得票数 8

1回答

基于NumPy的自动Keras训练中的StratifiedKFold数组值错误

pandas、numpy、tensorflow、keras、auto-keras

背景我的情感分析研究涉及到各种各样的数据集。最近，我遇到了一个数据集，不知何故，我无法成功地进行训练。我主要处理的是.CSV文件格式的开放数据，因此Pandas和NumPy被大量使用。在我的研究中，其中一种方法是尝试集成自动机器学习(AutoML)，而我选择使用的库是Auto-Keras，主要是使用<

浏览 5提问于2022-05-06得票数 0

回答已采纳

2回答

scikit学习LinearRegression字符串预测值

python、pandas、scikit-learn

在使用教程完成了一些课程和示例之后，我尝试创建我的第一个机器学习模型。我从这里获得了训练数据：，我正在使用panda加载这个csv数据。主要问题是预测列是字符串，并且所有算法都使用浮点数。当然，我可以手动映射所有带有数字(0,1,2)的字符串，并使用更改后的文件，但我尝试找出一种方法，使用panda或scikit自动替换字符串值-学习并将它们映

浏览 0提问于2017-03-07得票数 0

1回答

为多标签分类准备训练数据集

python、scikit-learn、classification、multilabel-classification

我只是遵循了代码 (对sklearn 0.17做了一些小的修改)。在该示例中，数据只是列表或numpy数组。现在我想在磁盘上准备一个玩具训练数据集，并使用datasets.load_files加载它以进行多标签分类。然而，简单地遵循约定，然后将相同的文件复制到多个文件夹中，并不会生成列表列表(也就是。那么，为多标签分类准备数据集的正确方法是什么？

浏览 0提问于2016-05-02得票数 2

2回答

在Python中执行SVM时的值错误

python、scikit-learn、svm

我试图使用生成的数据集运行支持向量机线性内核。我的数据集有5000行和4列：我将数据分成20%的测试和80%的培训：并得到一个形状为(4000,4)的列车<

浏览 2提问于2019-11-11得票数 0

回答已采纳

3回答

对于使用sklearn和python进行数据分析，我还是比较陌生的，并且尝试在我从.csv文件中加载的数据集上运行一些线性回归。我已经将数据加载到train_test_split中，没有任何问题，但是当我试图匹配我的训练数据时，我会收到一个错误ValueError: Expected 2D array, got 1D arraymodel = lm.fit(X_train, y_train<

浏览 0提问于2018-03-27得票数 0

回答已采纳

1回答

ValueError: X有两个特性，但MinMaxScaler需要一个特性作为输入

python、pandas、dataframe、numpy、scikit-learn

我将numpy数组分成X和y，最初由Pandas DataFrame组成，如下所示：array([[ 2.86556780e-03, 1.87100798e-01],array([19.08666992, 19.09239006, 19.08938026, ..., 45.21157634,我将它们分成训练和测试数据集(X, y, test_si

浏览 20提问于2022-03-07得票数 0

回答已采纳

1回答

Sklearn.linear_model导入LinearRegression不适用于数据系列，但适用于数据帧。为什么？

python、pandas、dataframe、series、sklearn-pandas

我使用了下面的代码块，我得到了一个回溯错误；from sklearn.linear_model import LinearRegressionregressor = LinearRegression(fit_intercept=True)-----------464

浏览 0提问于2020-01-07得票数 2

2回答

如何重塑机器学习数据以匹配输入形状？

python、numpy、machine-learning、model、artificial-intelligence

所以我有一些机器学习数据分成测试和训练数据。数据从csv文件中导入，并使用numpy数组拆分为训练和测试数据。我能够很好地拆分数据，但是当我试图在模型中使用这些数据时，我会得到以下错误： ValueError: Input 0 of layer "mobilenetv2_1.00_3998" is incompatible数据

浏览 13提问于2022-02-17得票数 -1

1回答

执行K-折叠交叉验证:使用相同的培训集和单独的验证集

validation、machine-learning、statistics、scikit-learn、cross-validation

我正在使用Python学习框架来构建一个决策树。目前，我正在将我的培训数据分成两个单独的集合，一个用于培训，另一个用于验证(通过K重交叉验证实现)。要交叉验证我的模型，我应该像上面概述的那样将我的数据分成两组，还是简单地使用完整的培训集？我的主要目标是防止过度适应。我在网上看到了关于这两种方法的使用和<

浏览 4提问于2015-11-23得票数 1

回答已采纳

4回答

ValueError:输入包含无穷大或值对于dtype('float64')太大

python、machine-learning

我需要帮助我正在研究机器学习。我尝试使用以下代码导入数据集： import numpy as np

浏览 0提问于2019-04-04得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

从CSV文件加载线性支持向量机分类数据集

当数据非常庞大时，将数据放入机器学习keras模型中

如何解释虹膜数据集结果？

对数据拆分进行随机化，以便对此函数进行训练和测试

给定一个单独的离散数据集，我应该如何将其划分为训练数据和测试数据？

如何预测需要预加工的单个数据样本

将张量分成训练集和测试集

什么是培训和测试数据集？

XGBoost大型数据集~1TB

基于NumPy的自动Keras训练中的StratifiedKFold数组值错误

scikit学习LinearRegression字符串预测值

为多标签分类准备训练数据集

在Python中执行SVM时的值错误

Python数组错误

ValueError: X有两个特性，但MinMaxScaler需要一个特性作为输入

Sklearn.linear_model导入LinearRegression不适用于数据系列，但适用于数据帧。为什么？

如何重塑机器学习数据以匹配输入形状？

执行K-折叠交叉验证:使用相同的培训集和单独的验证集

ValueError:输入包含无穷大或值对于dtype('float64')太大

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐