我正在探索pyspark和整合scikit-learn与pyspark的可能性。我想使用scikit-learn在每个分区上训练一个模型。这意味着,当我的RDD被定义并分布在不同的工作节点上时,我想使用scikit-learn并在每个工作节点上存在的每个分区上训练一个模型(假设是一个简单的k- means )。由于scikit-learn算法需要一个Pandas数据帧,所以我最初的想法是为每个分区调用toPandas,然后训练我的模型。
尝试安装scikit-learn using pip时出现以下错误Downloading/unpacking scikit-learn
Could not find any downloads that satisfy the requirement scikit-learnNo distributions at all found for sci
我试图为python安装scikit-learn,但我无法使其正常工作。我有一台mac,我安装了anaconda,并阅读和尝试了许多终端代码行。, in <module>ModuleNotFoundError: No module named 'sklearn'
当我尝试在终端pip3 install scikit-learnsetuptools, tokenize;__file__='/private/var/folders/bn