我是在本地机器上使用Python的新手。到目前为止,我可以在Azure Databricks中编写代码。我想创建和部署连接到confluent kafka的库,并将数据保存到增量表。我弄糊涂了- 1]我是否需要通过如下设置从本地计算机连接到Databricks Delta,使用python将流存储到增量或将流存储到本地增量(我可以创建增量表
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
.config("spark.jars.packages", "io.delta:delta-core_2.12:0.7.0") \
.config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
.config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
.getOrCreate()并将库部署到databricks中,当它运行时,它将指向Databricks Delta
我也想使用dbfs文件存储来连接到kafka
.option("kafka.ssl.truststore.location", "/dbfs/FileStore/tables/test.jks") \我是新手,请分享有关如何在Python中创建流应用程序的细节?如何部署到Databricks?
发布于 2021-01-24 21:47:30
要在没有notebooks的Databricks上执行Python代码,您需要配置一个job。正如OneCricketeer提到的,egg是库的文件格式,您需要有一个Python文件作为作业的入口点-它将初始化Spark会话,然后调用您的库。
作业可以进行配置(您还需要上载您的库):
Python
spark-submit选项运行Python代码。
在Databricks上,已经预先安装了Delta,因此您不需要设置选项、指定maven坐标和其他所有内容,因此您的初始化代码将是:
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
.getOrCreate()https://stackoverflow.com/questions/65628741
复制相似问题