首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >开发和测试Python代码以连接本地计算机上的kafka streams

开发和测试Python代码以连接本地计算机上的kafka streams
EN

Stack Overflow用户
提问于 2021-01-08 20:13:03
回答 1查看 170关注 0票数 1

我是在本地机器上使用Python的新手。到目前为止,我可以在Azure Databricks中编写代码。我想创建和部署连接到confluent kafka的库,并将数据保存到增量表。我弄糊涂了- 1]我是否需要通过如下设置从本地计算机连接到Databricks Delta,使用python将流存储到增量或将流存储到本地增量(我可以创建增量表

代码语言:javascript
复制
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
    .config("spark.jars.packages", "io.delta:delta-core_2.12:0.7.0") \
    .config("spark.sql.extensions", "io.delta.sql.DeltaSparkSessionExtension") \
    .config("spark.sql.catalog.spark_catalog", "org.apache.spark.sql.delta.catalog.DeltaCatalog") \
    .getOrCreate()

并将库部署到databricks中,当它运行时,它将指向Databricks Delta

我也想使用dbfs文件存储来连接到kafka

代码语言:javascript
复制
.option("kafka.ssl.truststore.location", "/dbfs/FileStore/tables/test.jks") \

我是新手,请分享有关如何在Python中创建流应用程序的细节?如何部署到Databricks?

EN

回答 1

Stack Overflow用户

发布于 2021-01-24 21:47:30

要在没有notebooks的Databricks上执行Python代码,您需要配置一个job。正如OneCricketeer提到的,egg是库的文件格式,您需要有一个Python文件作为作业的入口点-它将初始化Spark会话,然后调用您的库。

作业可以进行配置(您还需要上载您的库):

Python

  • 通过UI实现,但它仅限于配置笔记本和jars,而不是Python代码。但您仍然可以使用spark-submit选项运行Python代码。

  • via REST API -使用它,您可以通过command-line创建直接执行Python代码的作业(在幕后使用REST API ),并且您需要自己创建

  • ,方法与REST API相同。通过<代码>C13的

  • -它也使用REST API,但可以更轻松地在一个位置配置所有内容-上传库、上载文件到DBFS、创建/修改作业。<代码>H214<代码>G215

在Databricks上,已经预先安装了Delta,因此您不需要设置选项、指定maven坐标和其他所有内容,因此您的初始化代码将是:

代码语言:javascript
复制
spark = pyspark.sql.SparkSession.builder.appName("MyApp") \
    .getOrCreate()
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65628741

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档