pyspark写mysql

基础概念

PySpark 是 Apache Spark 的 Python API，它允许开发者使用 Python 编写 Spark 应用程序。Spark 是一个快速、通用的大规模数据处理引擎，支持多种数据处理模式，包括批处理、交互式查询、流处理和机器学习。

MySQL 是一个流行的关系型数据库管理系统（RDBMS），广泛用于存储和管理结构化数据。

类型

在 PySpark 中写 MySQL 主要涉及两种类型：

批量写入：将数据批量写入 MySQL 数据库。
流式写入：通过 Spark Streaming 将实时数据流写入 MySQL 数据库。

应用场景

数据仓库：将大规模数据从 Spark 处理后写入 MySQL，用于进一步分析或报告。
实时数据处理：通过 Spark Streaming 处理实时数据流，并将结果写入 MySQL 数据库。
ETL（Extract, Transform, Load）：从 MySQL 中提取数据，使用 Spark 进行转换和处理，然后将结果写回 MySQL 或其他存储系统。

示例代码

以下是一个使用 PySpark 将数据批量写入 MySQL 的示例代码：

from pyspark.sql import SparkSession

# 创建 SparkSession
spark = SparkSession.builder \
    .appName("PySpark to MySQL") \
    .getOrCreate()

# 读取数据
data = spark.read.csv("path/to/your/csv", header=True, inferSchema=True)

# 将数据写入 MySQL
data.write \
    .format("jdbc") \
    .option("url", "jdbc:mysql://localhost:3306/your_database") \
    .option("dbtable", "your_table") \
    .option("user", "your_username") \
    .option("password", "your_password") \
    .option("driver", "com.mysql.cj.jdbc.Driver") \
    .save()

# 停止 SparkSession
spark.stop()

参考链接

遇到的问题及解决方法

问题：连接 MySQL 失败

原因：可能是由于 JDBC 驱动未正确加载，或者数据库连接参数配置错误。

解决方法：

确保已下载并添加 MySQL JDBC 驱动到 Spark 的 classpath 中。
检查数据库 URL、用户名和密码是否正确。
确保 MySQL 服务器正在运行，并且可以从 Spark 集群访问。

.option("driver", "com.mysql.cj.jdbc.Driver")

问题：数据写入失败

原因：可能是由于数据类型不匹配、表结构不兼容或权限问题。

解决方法：

检查数据类型是否与 MySQL 表结构匹配。
确保 Spark 数据帧的列名和 MySQL 表的列名一致。
确保 Spark 应用程序具有写入 MySQL 数据库的权限。

.option("dbtable", "your_table")
.option("user", "your_username")
.option("password", "your_password")

通过以上步骤，您应该能够成功地将数据从 PySpark 写入 MySQL 数据库。如果遇到其他问题，请参考相关文档或寻求社区支持。

页面内容是否对你有帮助？

有帮助

没帮助

如何将mysql数据从hdfs加载到pyspark

、、

我使用sqoop将表从mysql导入到hdfs location /user/cloudera/table1，现在应该使用什么命令将该表加载到pyspark代码中。我只是像下面这样写简单的代码。我使用的是cloudera CDH 5.13。谢谢 from pyspark import SparkContext, SparkConf if __name__ == "__main__": # create Spark context with Spark configuration conf = SparkConf().setAppName("Spark Count&#

浏览 2提问于2019-11-13得票数 0

1回答

如何在Eclipse IDE中修复“异常: Java网关进程在发送其端口号之前退出”

我正尝试在Eclipse IDE的pydev环境中使用pyspark连接MySQL。获取以下错误：异常:在发送其端口号之前，Java网关进程已退出我已经检查了Java是否安装正确，还在windows-> preferences->Pydev->Python Interpreter->Environment中将PYSPARK_SUBMIT_ARGS设置为值--master local[*] --jars path\mysql-connector-java-5.1.44-bin.jar pyspark-shell。还设置了Java路径。我也试过通过代码来设置它，但是没

浏览 23提问于2019-01-11得票数 1

1回答

无法在ipython中正确创建火花上下文以链接到MySQL - com.mysql.jdbc.Driver。

、、、、

我正在使用Spark、PySpark、Ipython和mysql运行一个本地环境。我很怀疑能够通过spark启动一个mysql查询。主要问题是包含适当的jdbc，以便能够执行查询。以下是我到目前为止所拥有的： import pyspark conf = (pyspark.SparkConf() .setMaster('local') .setAppName('Romain_DS') .set("spark.executor.memory", "1g") .set(&

浏览 4提问于2015-11-26得票数 3

回答已采纳

1回答

为什么我得到了TypeError:不能在使用_thread.RLock时选择'_thread.RLock‘对象

、、、、

我用火花来处理我的数据，就像这样： dataframe_mysql = spark.read.format('jdbc').options( url='jdbc:mysql://xxxxxxx', driver='com.mysql.cj.jdbc.Driver', dbtable='(select * from test_table where id > 100) t', user='xxxxxx'

浏览 2提问于2022-05-11得票数 0

回答已采纳

1回答

火花-没有定义模式，也没有在下面找到Parquet数据文件或摘要文件

、、

首先我开始 $SPARK_HOME/bin/pyspark 然后写这段代码 sqlContext.load("jdbc", url="jdbc:mysql://IP:3306/test", driver="com.mysql.jdbc.Driver", dbtable="test.test_tb") 当我只写dbtable= "test_db“时，错误是相同的. 发生此错误后， py4j.protocol.Py4JJavaError:调用o66.load时出错。：java.lang.AssertionError:断言失败

浏览 3提问于2015-08-24得票数 1

回答已采纳

2回答

使用pyspark连接mysql

、、、

我想把mysql和pyspark连接起来。我正在使用jupyter笔记本来运行pyspark。然而，当我这样做的时候， dataframe_mysql = sqlContext.read.format("jdbc").options( url="jdbc:mysql://localhost:3306/playground", driver = "com.mysql.jdbc.Driver", dbtable = "play1", user="root", password=&

浏览 29提问于2018-08-21得票数 6

1回答

使用PySpark读取数据库的最快方法是什么？

、、

我正在尝试使用PySpark和SQLAlchamy读取数据库表，如下所示： SUBMIT_ARGS = "--jars mysql-connector-java-5.1.45-bin.jar pyspark-shell" os.environ["PYSPARK_SUBMIT_ARGS"] = SUBMIT_ARGS sc = SparkContext('local[*]', 'testSparkContext') sqlContext = SQLContext(sc) t0 = time.time() database_uri

浏览 0提问于2018-03-31得票数 3

2回答

如何使用foreach或foreachBatch在PySpark中对数据库进行写入？

、、、

我想用Python (PySpark)实现从Kafka源代码到MariaDB (PySpark)的Spark结构化流(Spark2.4.x)。我想使用流式星火数据，而不是静态或潘达斯的数据。似乎必须使用foreach或foreachBatch，因为根据，流数据没有可能的数据库接收器。以下是我的尝试： from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StructField, StructType, StringType, DoubleTy

浏览 3提问于2019-11-08得票数 7

回答已采纳

1回答

将PySpark数据复制到MySQL

、、

我正在尝试将用PySpark在DataBricks中创建的数据文件加载到MySql，但它告诉我： com.mysql.cj.jdbc.exceptions.CommunicationsException：通信链路故障 df_videojuegos.select("Nombre", "Plataforma", "Año", "Genero", "Editorial", "Ventas NA", "Ventas EU", "Ventas JP", "Ventas

浏览 6提问于2022-11-04得票数 0

回答已采纳

1回答

如何从Pyspark更新Mysql表中的数据

、

我可以从pyspark中的mysql表中读取数据。 hiveContext.read.format('jdbc').options(url=jdbc_url, dbtable=mysql_query,driver='com.mysql.jdbc.Driver').load() 但是我找不到在mysql中更新记录的方法。有没有人执行过pyspark的更新。

浏览 4提问于2016-12-17得票数 1

1回答

表或视图未被插入到mysql中，而该表或视图存在于Pyspark中。

、、、

我试图使用Pyspark连接插入到现有的Mysql表中，但是我得到了以下错误 File "<stdin>", line 1, in <module> File "/usr/hdp/current/spark2-client/python/pyspark/sql/context.py", line 384, in sql return self.sparkSession.sql(sqlQuery) File "/usr/hdp/current/spark2-client/python/pyspark/sql/se

浏览 0提问于2020-07-17得票数 0

回答已采纳

1回答

Pyspark最昂贵的产品

、、

我正在试着用PySpark买到最贵的产品。基本上，我必须将这个查询从SQL转换为pyspark： %sql SELECT product, item_price as price FROM lotstemp ORDER BY item_price DESC LIMIT 1 有没有人能帮我用PySpark写这个查询？

浏览 0提问于2020-05-06得票数 0

1回答

使用pyspark代码从EC2实例向AWS - s3写入pyspark数据帧完成写入操作所需的时间比平时长

、、、、

当我们使用pyspark代码从EC2实例向s3写入pyspark数据帧时，完成写入操作所需的时间比平时要长。以前完成1000条记录的写操作需要30分钟，但现在需要一个多小时。此外，在写操作完成后，上下文切换到下一行代码需要更长的时间(20-30分钟)。我们不确定这是AWS-s3的问题，还是因为Pyspark的懒惰计算。有人能解释一下这个问题吗。提前道谢

浏览 2提问于2019-05-22得票数 0

1回答

zeppelin无法导入熊猫、麻木、scipy

、

用zeppelin写的代码，当我在那里启动pyspark时，它在shell中工作和导入都很好，但用同样的代码在zeppelin中就不行了。 %pyspark import pandas Traceback (most recent call last): File "/tmp/zeppelin_pyspark-4245945050627073162.py", line 239, in <module> eval(compiledCode) File "<string>", line 1, in <module&g

浏览 0提问于2016-08-30得票数 4

回答已采纳

1回答

Apache Spark JDBC SQL注入(pyspark)

、、

我正在尝试向jdbc提交sql查询，同时受到sql注入攻击的保护。我有一些代码，比如 from pyspark import SparkContext from pyspark.sql import DataFrameReader, SQLContext from pyspark.sql.functions import col url = 'jdbc:mysql://.../....' properties = {'user': '', 'driver': 'com.mysql.jdbc.Driver',

浏览 0提问于2017-12-09得票数 1

1回答

如何在客户端模式下加载火花独立的火花放电罐

、、、、

我在客户端模式下使用python2.7和星火独立集群。我想对mysql使用jdbc，发现我需要使用--jars参数加载jdbc，我在本地有jdbc，并设法用pyspark控制台(如 )加载它。当我在我的ide中编写python脚本时，我没有办法加载额外的jar mysql-connector-java-5.1.26.jar并保持get 没有合适的司机错误在客户端模式下运行python脚本、在客户端模式上使用独立集群并引用远程主服务器时，如何加载额外的jar文件？编辑:添加了一些代码-- #############################################

浏览 0提问于2017-08-27得票数 1

回答已采纳

1回答

spark是否异步写入数据帧

、

我有两个spark数据帧df1和df2。我尝试将它们写到两个不同的文件路径。有人能告诉我，写操作是同步进行还是异步进行？这是因为它们是两个不同的数据帧写入两个不同的路径，写入是同时发生，还是必须等到它完成df1写出后才开始写df2？示例代码：更新添加的导入库： import sys from awsglue.transforms import * from awsglue.utils import getResolvedOptions from pyspark.context import SparkContext from awsglue.context import GlueConte

浏览 15提问于2020-02-17得票数 0

1回答

如何处理AWS胶粉中的“0000-00-00”

、、、、

我使用AWS胶水读取Aurora (MySQL)表并写入S3文件。MySQL表的日期列值为“0000-00-00”，这在MySQL中是允许的。正因为如此，我的Glue作业(PySpark)失败了。如何在胶码中处理这个问题？我试过但失败的事。附加jdbc:mysql:<host-name>/<db-name>?zeroDateTimeBehavior=convertToNull&autoReconnect=true&characterEncoding=UTF-8&characterSetResults=UTF-8 从DynamicFra

浏览 0提问于2018-08-04得票数 2

2回答

在windows操作系统中运行pyspark (Anaconda - Spyder)

、、、

亲爱的们，我使用的是windows10，我熟悉在Spyder中测试我的python代码。然而，当我试着写without pyspark“命令时，Spyder显示”没有模块命名为' Pyspark '“pyspark安装在我的PC上，我也可以在命令提示符中导入pyspark而没有任何错误。我找到了许多博客解释如何在Ubuntu中做这件事，但我没有找到如何在windows中解决它。

浏览 1提问于2018-09-26得票数 3

1回答

使用Pyspark查询dataframe中的json对象

、、、、

我有一个具有以下模式的MySql表： id-int path-varchar info-json {"name":"pat", "address":"NY, USA"....} 我使用JDBC驱动程序将pyspark连接到MySql。我可以使用以下命令从mysql检索数据 df = sqlContext.sql("select * from dbTable") 这个查询运行得很好。我的问题是，如何查询"info“列？例如，下面的查询在Pyspark shell和检索数据中工作得很好，但在MySQL (2+)

浏览 0提问于2017-01-10得票数 6

回答已采纳

2回答

如何在Palantir Foundry中的PySpark架构上创建空数据集？

、

我有一个PySpark模式，它描述数据集的列及其类型(我可以手工编写这些数据集，也可以从现有的数据集获取，然后转到“PySpark”选项卡，然后“复制PySpark模式”)。我想要一个包含此架构的空数据集，例如，它可以用作只写回写的本体对象的支持数据集。我怎样才能在铸造中创造这个呢？

浏览 16提问于2022-08-18得票数 3

回答已采纳

1回答

如何将定义的文本传递到PySpark SQL上下文

、

我对PySpark非常陌生，我想知道是否有如下内容：我的PySpark SQL上下文类似于： mysql = """ create table x as select * from a """ 由于我需要更改x很多，而且不希望每次都在sql中更改x，所以我想提前定义一些内容。喜欢 x = 'x' mysql = """ create table x as select * from a """ 有类似的吗？谢谢

浏览 4提问于2022-04-03得票数 0

1回答

使用pySpark将DataFrame写入mysql表

、、、、

我正在尝试向MySql表中插入记录。该表包含作为列的id和name。我在一个pyspark外壳中像下面这样做。 name = 'tester_1' id = '103' import pandas as pd l = [id,name] df = pd.DataFrame([l]) df.write.format('jdbc').options( url='jdbc:mysql://localhost/database_name', driver='com.mysql.jdbc.Drive

浏览 3提问于2017-10-04得票数 16

回答已采纳

2回答

使用pySpark迭代每一行数据帧

、、、、

我需要使用dataframe来迭代pySpark，就像我们可以使用for循环迭代一组值一样。下面是我写的代码。这段代码的问题是我必须使用集合来打破并行性。我无法在函数DataFrame中打印funcRowIter的任何值。一旦找到匹配项，我就不能中断循环。我必须在pySpark做这件事，不能用熊猫做这个： from pyspark.sql.functions import * from pyspark.sql import HiveContext from pyspark.sql import functions from pyspark.sql import Da

浏览 2提问于2017-01-30得票数 3

1回答

写入CSV而不放气

、

我试图在HDFS上写一个csv，但是我得到了一个.deflate扩展作为输出。有没有一种方法，我可以写csv只与.csv扩展使用pyspark。我确实尝试过compression=None，但它不起作用。 from pyspark.sql import SparkSession spark = SparkSession.builder.getOrCreate() df = spark.read.parquet(<<path>>) df.coalesce(1).write.option("header", "false") \

浏览 2提问于2021-09-28得票数 0

2回答

通过JDBC从pyspark dataframe插入到外部数据库表时的重复键更新

、、、、

嗯，我使用的是PySpark，我有一个Spark dataframe，我使用它将数据插入到mysql表中。 url = "jdbc:mysql://hostname/myDB?user=xyz&password=pwd" df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过列值和特定数字的总和来更新列值(不在主键中)。我尝试过不同的模式(追加、覆盖) DataFrameWriter.jdbc()函数。我的问题是，我们如何像在mysql中使用ON DUPLICATE K

浏览 4提问于2015-09-16得票数 12

1回答

从Spark结构化流Dataframe将记录写入MYSQL中的问题

、、、、

我使用下面的代码将火花流数据流写入到MQSQL中，.Below是卡夫卡主题，JSON数据格式和MYSQL表的schema.Column名称和类型相同。但是我无法看到用MYSQL表编写的记录。表为空，records.Please建议为零。卡夫卡主题数据 ssingh@RENLTP2N073:/mnt/d/confluent-6.0.0/bin$ ./kafka-控制台-消费者-主题“中等名”：“玫瑰”、“姓氏”：“”、“dob_year”：2010年、"dob_month":3、“性别”：“M”、“工资”：4000} import pyspark from pyspark.s

浏览 0提问于2020-11-24得票数 1

回答已采纳

1回答

将变量加载到数据帧中

、、、

在PySpark中，我尝试从字符串变量加载数据帧。我的变量是一个多行文本.. string_data = """ Name|age|city david|23|London krish|24|Bali john|56|Goa """ 我想将这些数据加载到PySpark中的数据帧中。我想使用数据集，但它们在PySpark中不可用。使用Pandas时，我常常这样写： string2 = StringIO(string_data) df = pd.read_csv(string2,sep='|')

浏览 7提问于2021-02-02得票数 0

1回答

to PySpark中的字符串方法

、

我有一个用pyspark写的代码。我需要将其转换为字符串，然后将其转换为日期类型，等等。我找不到任何方法来将此类型转换为字符串。我尝试了str()和.to_string()，但都不起作用。我把代码放在下面。 from pyspark.sql import functions as F df = in_df.select('COL1') > type(df) > <class 'pyspark.sql.dataframe.DataFrame'> > df.printSchema() > |-- COL1: offset

浏览 7提问于2019-07-07得票数 0

回答已采纳

2回答

如何在pyspark中更改hdfs块大小？

、、、、

我用pySpark写拼花文件。我想更改该文件的hdfs数据块大小。我像这样设置块大小，但它不起作用： sc._jsc.hadoopConfiguration().set("dfs.block.size", "128m") 是否必须在启动pySpark作业之前设置此设置？如果是这样，该怎么做呢？

浏览 0提问于2016-12-04得票数 2

2回答

如何用pycharm连接spark与mysql

、、、、

我尝试从mysql数据库中选择一个表内容到dataframe，然后按照以下步骤与mysql连接。下载mysql-connector-java-5.0.8-bin.jar 我把mysql-connector-java-5.0.8-bin.jar放在path $SPARK_HOME/bin/mysql-connector-java-5.0.8-bin.jar上，但它仍然不起作用代码： from pyspark import SparkContext from pyspark.sql import SQLContext, Row sc = SparkContext() sqlc

浏览 1提问于2016-06-24得票数 0

1回答

将包从airflow传递到在dataproc上运行的pyspark？

、、

我们有一个Airflow DAG，它涉及在Dataproc上运行pyspark作业。在作业期间，我们需要一个jdbc驱动程序，我通常会将其传递给dataproc提交命令： gcloud dataproc jobs submit pyspark \ --cluster my-cluster \ --properties spark.jars.packages=mysql:mysql-connector-java:6.0.6 \ --py-files ... 但是我怎么才能用Airflow的DataProcPySparkOperator来做呢？现在，我们将这个库添加到集群本身： gcloud d

浏览 2提问于2017-11-14得票数 0

1回答

在Apache Spark 2.0.0中，是否可以从外部数据库获取查询(而不是获取整个表)？

、、、

使用pyspark： from pyspark.sql import SparkSession spark = SparkSession\ .builder\ .appName("spark play")\ .getOrCreate() df = spark.read\ .format("jdbc")\ .option("url", "jdbc:mysql://localhost:port")\ .option("dbtable", "schema

浏览 3提问于2016-08-03得票数 6

回答已采纳

3回答

无法从pyspark连接到Mysql数据库，出现jdbc错误

、、、、

我正在学习pyspark，并试图连接到mysql数据库。但是在运行代码时，我得到了一个java.lang.ClassNotFoundException: com.mysql.jdbc.Driver异常。我已经花了一整天的时间来尝试修复它，任何帮助都将不胜感激:) 我使用的是带有anaconda和python 3.6.3的pycharm社区版下面是我的代码： from pyspark import SparkContext,SQLContext sc= SparkContext() sqlContext= SQLContext(sc) df = sqlContext.read.format

浏览 3提问于2018-02-27得票数 7

回答已采纳

1回答

使用PySpark DataFrames和JDBC插入和更新MySql表

、、、、

我正在尝试使用PySpark、SQL、DataFrames和JDBC connection在MySql上插入和更新一些数据。我已经成功地使用SaveMode.Append插入了新数据。有没有办法从PySpark MySql中更新现有数据并插入新数据到SQL表中？我要插入的代码是： myDataFrame.write.mode(SaveMode.Append).jdbc(JDBCurl,mySqlTable,connectionProperties) 如果我更改为SaveMode.Overwrite，它将删除整个表并创建一个新表，我正在寻找类似于MySql中可用的"ON DUPLIC

浏览 2提问于2020-07-02得票数 1

3回答

用MySQL读取PySpark

、

我有以下测试代码： from pyspark import SparkContext, SQLContext sc = SparkContext('local') sqlContext = SQLContext(sc) print('Created spark context!') if __name__ == '__main__': df = sqlContext.read.format("jdbc").options( url="jdbc:mysql://localhost/mysql

浏览 2提问于2017-09-03得票数 5

回答已采纳

1回答

使用pyspark从Hadoop中删除文件(查询)

、、、、

我使用Hadoop来存储我的数据-对于一些数据我使用分区，对于一些数据我不使用分区。我使用pyspark DataFrame类以parquet格式保存数据，如下所示： df = sql_context.read.parquet('/some_path') df.write.mode("append").parquet(parquet_path) 我想写一个删除旧数据的脚本，使用类似的方式(我需要在数据框上使用过滤来查询这个旧数据)与pyspark。我在pyspark文档中没有找到任何东西... 有没有办法做到这一点？

浏览 2提问于2019-04-14得票数 2

回答已采纳

1回答

从db中读取阿拉伯文本，并以s3格式存储

、、、

我有一个pyspark脚本，它读取mysql数据，其中包含数据帧中的列值，并以aws s3格式存储数据，但是在使用aws雅典娜查询时，它显示的是一些随机文本，而不是阿拉伯文。我做错了什么。请帮忙解决这件事。文本im获取是圣保罗±圣保罗.，如何将其转换为阿拉伯语。当我使用pyspark从mysql读取数据时，我得到的数据格式是：“am‘§”，Šc.’。提前谢谢。

浏览 1提问于2018-12-05得票数 1

回答已采纳

2回答

PySpark配置单元SQL -未插入数据

、、、、

我想插入一些数据，我的表“测试”通过一个pySpark脚本(火种的python)。我首先在HUE的图形界面中为Hive创建了一个表"animals“，感谢下面的查询： CREATE TABLE animals( id int, animal String) 于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1，dog)： from pyspark.conf import SparkConf from pyspark import SparkContext from pyspark.sql import SQLContext, HiveContext sc = SparkC

浏览 2提问于2018-01-25得票数 0

1回答

为什么我的MySQL数据库在运行cron作业时断开连接？

、、、

我在Databricks笔记本上运行一个作业，该笔记本连接到AWS RDS上的MySQL数据库并插入数据。当我手动运行笔记本时，我能够连接到端点URL并插入我的数据。现在，我的笔记本每30分钟运行一次。第一个作业成功，但之后的每个作业都失败，并显示以下错误： MySQLInterfaceError: MySQL server has gone away 然后，我再次尝试手动运行作业，但在tweets_pdf.to_sql(name='tweets', con=engine, if_exists = 'replace', index=False)上得到了相同的错

浏览 21提问于2020-07-10得票数 0

1回答

Pyspark数据框架操作的单元测试用例

、、、

我已经用python写了一些带有sql上下文的代码，即pyspark，通过将csv转换为pyspark dataframe来对csv执行一些操作(df操作，如预处理、重命名列名、创建新列并将其附加到相同的dataframe中等)。我希望为它编写单元测试用例。我没有在数据帧上编写单元测试用例的想法。有谁能帮我在pyspark的dataframe上写单元测试用例吗？或者给我一些数据帧上的测试用例的来源？

浏览 1提问于2016-04-14得票数 3

1回答

Python:扩展类方法并使用类的替换实例

、、、、

我想扩展pyspark.sql.DataFrame的读写功能，以满足我自己的项目需要。为此，我创建了以下代码 import pyspark.sql class DataFrame(pyspark.sql.DataFrame): def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) def write(self, format="parquet", version=True): if format=="some_format"

浏览 1提问于2020-06-17得票数 0

2回答

Spark (2.3+)可从PySpark/Python调用的Java函数

、、

re Spark文档2.3： registerJavaFunction(name，javaClassName，returnType=None)源将Java用户定义函数注册为SQL函数。除了名称和函数本身之外，还可以选择指定返回类型。当未指定返回类型时，我们将通过反射来推断它。参数： name -用户定义函数的名称 javaClassName - java类的全限定名 returnType -注册的Java函数的返回类型。该值可以是pyspark.sql.types.DataType对象，也可以是DDL格式的类型字符串。我的问题是：我想有一个大量的UDF库，为火花2.3+，都是

浏览 76提问于2018-08-11得票数 0

1回答

每次在python中迭代函数时，分别获取该函数的日志

、、、

我有一个类似下面的pyspark脚本。在这个脚本中，我遍历表名的input文件并执行代码。现在，我想在每次迭代函数mysql_spark时分别收集日志。例如： input file table1 table2 table3 现在，当我执行pyspark脚本时，我将所有三个表的日志保存在一个文件中。 What I want is 3 separate log files 1 for each table Pyspark脚本： #!/usr/bin/env python import sys from pyspark import SparkContext, SparkConf from py

浏览 1提问于2017-07-29得票数 0

回答已采纳

1回答

如何使用pyspark for循环打印迭代值

我正在尝试使用pyspark打印数据帧值的阈值。下面是我写的R代码，但是我想在pyspark中这样做，我不知道如何在Pyspark中这样做。任何帮助都将不胜感激！值dataframe看起来如下 values dataframe is vote 0.3 0.1 0.23 0.45 0.9 0.80 0.36 # loop through all link weight values, from the lowest to the highest for (i in 1:nrow(values)){ # print status print(paste0("Iterations

浏览 0提问于2019-06-10得票数 0

回答已采纳

1回答

将列表转换为pyspark数据

、

我有一个元组列表，它是从mysql中获取的。我需要把它转换成火花放电数据。我的代码如下所示： os.environ['PYSPARK_SUBMIT_ARGS'] = "--packages mysql:mysql-connector-java:5.1.39 pyspark-shell" spark = SparkSession.builder.appName('recommendation_clustering').getOrCreate() sqlContext = SQLContext(spark) final_r

浏览 0提问于2018-06-28得票数 0

回答已采纳

1回答

将pyspark数据帧写入MySQL数据库时出错

、、、、

我收到以下错误：将pyspark数据帧写入mysql数据库时的"Caused by: java.lang.NoSuchMethodException: org.apache.spark.sql.execution.datasources.jdbc.DriverWrapper.<init>()" spark-submit命令： spark-submit --deploy-mode client --master yarn --conf spark.pyspark.python=/usr/bin/python3 --packages mysql:mysql-conne

浏览 1提问于2018-10-15得票数 0

1回答

有没有任何方法来设置mysql的sql_mode？

、、、

我想在使用mysql's sql_mode时将pyspark更改为'NO_UNSIGNED_SUBTRACTION'。有办法吗？

浏览 2提问于2016-12-20得票数 0

回答已采纳

10回答

星星之火2.1 -实例化HiveSessionState时出错

使用Spark2.1的新安装，我在执行pyspark命令时得到了一个错误。 Traceback (most recent call last): File "/usr/local/spark/python/pyspark/shell.py", line 43, in <module> spark = SparkSession.builder\ File "/usr/local/spark/python/pyspark/sql/session.py", line 179, in getOrCreate session._jsparkSession.se

浏览 7提问于2017-03-22得票数 9

回答已采纳

2回答

在DataFrame脚本中使用' JDBC‘为Spark Python 'write’加载jdbc驱动程序

、、

我正在尝试从MySQL应用程序加载python JDBC驱动程序。我没有调用'bin/pyspark‘或'spark-submit’程序；相反，我有一个Python脚本，我在其中初始化了'SparkContext‘和'SparkSession’对象。我知道我们可以在调用'pyspark‘时传递'--jars’选项，但我如何在我的python应用程序中加载和指定jdbc驱动程序？

浏览 21提问于2019-06-04得票数 0

回答已采纳