一、安装 PySpark
1、使用 pip 安装 PySpark
执行 Windows + R , 运行 cmd 命令行提示符 ,
在命令行提示符终端中 , 执行
pip install pyspark...编程时 , 先要构建一个 PySpark 执行环境入口对象 , 然后开始执行数据处理操作 ;
数据处理的步骤如下 :
首先 , 要进行数据输入 , 需要读取要处理的原始数据 , 一般通过 SparkContext...执行环境入口对象 执行 数据读取操作 , 读取后得到 RDD 类实例对象 ;
然后 , 进行 数据处理计算 , 对 RDD 类实例对象 成员方法进行各种计算处理 ;
最后 , 输出 处理后的结果 ,...RDD 对象处理完毕后 , 写出文件 , 或者存储到内存中 ;
数据的初始形态 , 一般是 JSON 文件 , 文本文件 , 数据库文件 ;
通过 SparkContext 读取 原始文件 到 RDD...中 , 进行数据处理 ;
数据处理完毕后 , 存储到 内存 / 磁盘 / 数据库 中 ;
三、构建 PySpark 执行环境入口对象
如果想要使用 PySpark 进行数据处理 , 必须构建一个 PySpark