一、安装 PySpark
1、使用 pip 安装 PySpark
执行 Windows + R , 运行 cmd 命令行提示符 ,
在命令行提示符终端中 , 执行
pip install pyspark...中 , 安装 PySpark ;
尝试导入 pyspack 模块中的类 , 如果报错 , 使用报错修复选项 , PyCharm 会自动安装 PySpark ;
二、PySpark 数据处理步骤
PySpark...编程时 , 先要构建一个 PySpark 执行环境入口对象 , 然后开始执行数据处理操作 ;
数据处理的步骤如下 :
首先 , 要进行数据输入 , 需要读取要处理的原始数据 , 一般通过 SparkContext...执行环境入口对象 执行 数据读取操作 , 读取后得到 RDD 类实例对象 ;
然后 , 进行 数据处理计算 , 对 RDD 类实例对象 成员方法进行各种计算处理 ;
最后 , 输出 处理后的结果 ,...中 , 进行数据处理 ;
数据处理完毕后 , 存储到 内存 / 磁盘 / 数据库 中 ;
三、构建 PySpark 执行环境入口对象
如果想要使用 PySpark 进行数据处理 , 必须构建一个 PySpark