无法在Databricks上使用Spark NLP

Databricks是一个基于云的数据处理和分析平台，而Spark NLP是一个自然语言处理（NLP）库，用于在Apache Spark上进行文本分析和处理。然而，目前Databricks平台上不支持直接使用Spark NLP。

Spark NLP是由John Snow Labs开发的开源库，提供了丰富的NLP功能和模型，可以用于文本分类、实体识别、情感分析等任务。它建立在Apache Spark之上，利用Spark的分布式计算能力和数据处理功能，可以处理大规模的文本数据。

虽然Databricks本身不支持Spark NLP，但可以通过其他方式在Databricks上使用Spark NLP。一种方法是将Spark NLP作为一个自定义库添加到Databricks集群中。你可以将Spark NLP的JAR文件上传到Databricks集群，并在Notebook中使用%AddJar命令将其添加到集群中。然后，你可以在Notebook中导入Spark NLP库并使用其功能。

另一种方法是使用Databricks提供的MLflow功能。MLflow是一个开源的机器学习生命周期管理平台，可以与Databricks集成。你可以使用MLflow来管理和部署Spark NLP模型，以便在Databricks上进行NLP任务。

总结起来，虽然Databricks本身不直接支持Spark NLP，但你可以通过将Spark NLP作为自定义库添加到Databricks集群中，或者使用MLflow来管理Spark NLP模型，以在Databricks上进行NLP任务。这样可以充分利用Databricks平台的分布式计算和数据处理能力，进行大规模的文本分析和处理。

无法在Databricks上使用Spark NLP

、、、、

pyspark .builder \ .config('spark.jars.packages', 'com.johnsnowlabs.nlp:spark-nlp

浏览 13提问于2020-05-10得票数 1

1回答

java.lang.SecurityException:您的管理员已禁止在此群集上运行Scala UDF

、、

我正在一个标准的concurrency databricks集群上工作，配置如下: 8.1 (包括Apache Spark 3.1.1，Scala2.12)以及在配置spark.databricks.repl.allowedLanguagespython，sql，Scala中设置当我尝试使用以下代码nlp_model = nlp_pipeline.fit(data)来拟合我的NLP管道时，我得到了这个错误: java.lang.Se

浏览 9提问于2021-05-06得票数 1

1回答

object databricks不是包com的成员

、、、

我正在尝试使用齐柏林飞艇(HDP2.6)在Spark2中使用斯坦福NLP库。显然，Databricks为Stanford NLP库为Spark构建了包装器。链接：我已经从下载了上述包装器的jar，还从下载了Stanford NLP jar。然后，我将这两组jars作为依赖项添加到齐柏林飞艇的Spark2解释器设置中，并重新启动解释器。下面的示例程序仍然给出错误"object databricks<

浏览 7提问于2018-03-31得票数 1

1回答

如何使用sparklyr为Apache实现斯坦福CoreNLP包装？

、、、

我正在尝试创建一个R包，这样我就可以从R中使用用于Apache (由databricks提供)的斯坦福CoreNLP包装器，我正在使用sparklyr包连接到我的本地Spark实例。:spark-corenlp:0.2.0-s_%s", scala_version))} 在日志中，我可以看到两个databricks包都加载了依赖的jars。:: org.apache.spark#spark-submit-paren

浏览 1提问于2016-10-15得票数 6

2回答

在databricks中通过python代码访问文件

、、、

我正在尝试使用https://community.cloud.databricks.com/的笔记本中的以下代码来访问之前通过命令行界面复制过来的模型文件 with open("/dbfs/cat_encoder.joblib为此，我得到了 FileNotFoundError: [Errno 2] No such file or directory: '/dbfs/cat_encoder.joblib' 正如我所说的，我已经使用CLI复制了文

浏览 94提问于2020-11-18得票数 1

1回答

星火3.2 -NLP.pipe - pd.Series.iter()上的熊猫没有实现

、、、、

目前，我正在尝试将一些过程从python迁移到(熊猫上) some，以衡量性能，直到现在，一切都进行得很顺利：nlp定义为：nlp = spacy.loadlemmatize_pipe(doc))我在nlp.pipe如果要将数据收集为NumPy数组，请

浏览 9提问于2022-03-09得票数 1

1回答

将AWS Redshift上的Azure Databricks* Spark Cluster列入白名单*

、、、、

我有一个在Azure Databricks上运行的Spark群集。我有一个要在Azure Databricks Spark集群上运行的python/pyspark脚本。在这个脚本中，我想要将一些数据写入到AWS Redshift集群中，我计划使用psycopg2库来实现这一点。我在哪里可以找到Azure Databricks Spark群集的IP地址，以便我可以将其列入AWS Redshift群集的安全组的

浏览 0提问于2020-12-29得票数 1

1回答

斯卡拉-火花-corenlp- java.lang.ClassNotFoundException

、、

"protobuf-java" % "2.6.1"然后，我通过在没有问题的情况下运行来创建我的jar。/src/com/databricks ./src/com/databricks/spark/corenlp ./src/co

浏览 2提问于2016-06-22得票数 1

回答已采纳

1回答

数据库中的addSparkListener等价

、、、

我想在Databricks的spark上下文中注册自定义SparkListener。对于databricks安装程序，我已经在集群中安装了包含监听器的jar。当我将配置"spark.extraListeners“放在集

浏览 14提问于2022-02-03得票数 2

2回答

火花-雪花连接器是否只适用于数据库火花？

、、

使用databricks spark，能够使用connector(spark-snowflake_2.11-2.3.0.jar，spark雪花-JDBC2.8.1.jar将数据写入雪花中，而不是使用JDBC但是如果没有databricks，当我试图在安装了火花的本地机器上应用相同的代码时，我无法使用火花-雪花连接器写入雪花。但是能够使用JDBC连接从本地安装<em

浏览 1提问于2018-10-13得票数 1

1回答

无法导入Databricks上的sparknlp

、、

我在试着做一个在Databricks平台上，我收到了与上报告的消息类似的消息我不知道如何安装python包装器...我可以通过Scala访问spark-nlp库，但是我不能让

浏览 1提问于2018-03-16得票数 0

4回答

如何在pyspark中加载databricks包dbutils

、

call last): NameError: name 'dbutils' is not defined 那么，有没有办法通过包含databricks包来在pyspark中运行它，就像导入一样？

浏览 13提问于2018-08-17得票数 7

1回答

安装栅格框的Java错误(数据库)

、、、、

我遵循在我的databricks集群上安装了栅格框架。我使用的是星火3.2.1的集群。我还安装了1.8.0_341，但这并没有什么区别。 100

浏览 15提问于2022-07-27得票数 1

1回答

斯卡拉-火花-corenlp- java.lang.NoClassDefFoundError

、、

._ spName := "databricks/spark-corenlp" licenses := Seq("GPL-3.0" -> url(&

浏览 3提问于2016-06-23得票数 1

回答已采纳

2回答

如何在Azure databricks中使用Active Directory身份验证连接Azure SQL数据库

、、、

如何在下面的代码中将AAD会话值放在密码和用户名上： import com.microsoft.azure.sqldb.spark.connectconnectTimeout" -> "5", //seconds

浏览 2提问于2019-07-30得票数 1

1回答

齐柏林飞艇中如何进口火花

、、

ImportError: No module named 'sparkdl'spark-deep-learning-0.1.0-spark2.1-s_2.11.jar 使用maven坐标，如下所示并尝试使用jar独立的路径。

浏览 1提问于2017-10-31得票数 2

回答已采纳

1回答

从本地计算机连接到Databricks时出错

、、、

我正在尝试从我的Mac(Mojave)建立到Databricks的连接。我做了一个pip install -U databricks-connect==5.5.*原因: com.databricks.service.SparkServiceConnectionException: spark.conf.get("spark.databricks<

浏览 30提问于2020-03-04得票数 3

1回答

在使用pyspark读取csv时失败

、、、、

我正在使用Zeppelin-Sandbox 0.5.6和Spark 1.6.1在Amazon EMR上。我正在读取位于csv上的s3文件。问题是，有时我在读取文件时出错。我无法恢复它，也无法判断它何时发生。/maven")使用spark-csvim

浏览 1提问于2016-06-21得票数 0

1回答

错误:对象xml不是包com.databricks.spark的成员。

、、、、

我正在尝试使用SBT读取XML文件，但是我在编译它时遇到了问题。" % "2.0.0"libraryDependenciesimport scala.xml._import org.apache.spar

浏览 6提问于2017-09-22得票数 0

回答已采纳

1回答

从数据库看apache.avro与spark-avro的区别

我是spark的新手，想要在avro文件上工作，但我不知道你应该使用哪个库，org.apache.avro还是spark-avro，我不知道这之间的实际区别是什么。

浏览 2提问于2019-06-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法在Databricks上使用Spark NLP

相关·内容

无法在Databricks上使用Spark NLP

java.lang.SecurityException:您的管理员已禁止在此群集上运行Scala UDF

object databricks不是包com的成员

如何使用sparklyr为Apache实现斯坦福CoreNLP包装？

在databricks中通过python代码访问文件

星火3.2 -NLP.pipe - pd.Series.iter()上的熊猫没有实现

将AWS Redshift上的Azure Databricks* Spark Cluster列入白名单*

斯卡拉-火花-corenlp- java.lang.ClassNotFoundException

数据库中的addSparkListener等价

火花-雪花连接器是否只适用于数据库火花？

无法导入Databricks上的sparknlp

如何在pyspark中加载databricks包dbutils

安装栅格框的Java错误(数据库)

斯卡拉-火花-corenlp- java.lang.NoClassDefFoundError

如何在Azure databricks中使用Active Directory身份验证连接Azure SQL数据库

齐柏林飞艇中如何进口火花

从本地计算机连接到Databricks时出错

在使用pyspark读取csv时失败

错误:对象xml不是包com.databricks.spark的成员。

从数据库看apache.avro与spark-avro的区别

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐