我正在学习如何准备数据,构建估计器,并使用训练/测试数据拆分进行检查。 我的问题是如何正确地准备测试数据集。 我将我的数据分成测试和训练集。正如"Hands on with machine learning with Scikit-Learn"教我的那样,我为我的数据准备建立了一个管道: num_pipeline = Pipeline
我正在探索pyspark和整合scikit-learn与pyspark的可能性。我想使用scikit-learn在每个分区上训练一个模型。这意味着,当我的RDD被定义并分布在不同的工作节点上时,我想使用scikit-learn并在每个工作节点上存在的每个分区上训练一个模型(假设是一个简单的k- means )。由于scikit-learn算法需要一个Pandas数据</em