PySpark 是 Apache Spark 的 Python API,它允许开发者使用 Python 语言编写 Spark 应用程序。Spark 是一个分布式计算框架,用于大规模数据处理。MySQL 是一种流行的关系型数据库管理系统。
PySpark 连接 MySQL 主要有两种方式:
from pyspark.sql import SparkSession
# 创建 SparkSession
spark = SparkSession.builder \
.appName("PySpark MySQL Example") \
.getOrCreate()
# 读取 MySQL 数据库中的数据
df = spark.read \
.format("jdbc") \
.option("url", "jdbc:mysql://localhost:3306/mydatabase") \
.option("dbtable", "mytable") \
.option("user", "myuser") \
.option("password", "mypassword") \
.load()
# 显示数据
df.show()
# 将数据写入 MySQL 数据库
df.write \
.format("jdbc") \
.option("url", "jdbc:mysql://localhost:3306/mydatabase") \
.option("dbtable", "mytable_output") \
.option("user", "myuser") \
.option("password", "mypassword") \
.save()
# 停止 SparkSession
spark.stop()
option("mapreduce.input.fileinputformat.input.dir.recursive", "true")
等选项来处理复杂的数据结构。spark.executor.memory
和 spark.driver.memory
,以提高性能。通过以上步骤和示例代码,您应该能够成功使用 PySpark 连接 MySQL 数据库,并进行数据处理和存储。
领取专属 10元无门槛券
手把手带您无忧上云