PySpark 是 Apache Spark 的 Python API,它允许用户使用 Python 语言来操作 Spark。Apache Spark 是一个快速、通用的大数据处理引擎,可以用于大规模数据集的处理和分析。PySpark 结合了 Spark 的强大处理能力和 Python 的易用性,使得数据科学家和工程师能够更方便地进行大数据处理。
以下是一个简单的 PySpark 代码示例,展示了如何读取 CSV 文件并进行基本的数据处理:
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder.appName("ExampleApp").getOrCreate()
# 读取 CSV 文件
df = spark.read.csv("path/to/your/file.csv", header=True, inferSchema=True)
# 显示前 10 行数据
df.show(10)
# 进行一些基本的数据处理
df_filtered = df.filter(df["column_name"] > 100)
df_filtered.show(10)
# 停止 SparkSession
spark.stop()
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。