获取路径:在Apache Spark / Databricks中尝试流式数据时，TypeError只能是单个字符串

、、

我正在尝试在Databricks上的Apache Spark中测试流数据。thestream = spark.read.parquet('/

浏览 12提问于2021-05-13得票数 0

2回答

为什么电火花不能读取这个csv文件？

、、、

问题中的CSV文件驻留在集群驱动程序的tmp目录中，请注意，这个csv文件是有意不在Databricks DBFS云存储中的。对于导致此问题的用例，使用DBFS将不起作用。注意，我正试图通过Spark3.2.1和Scala2.12在Databricks运行时10.3上运行。接下来，我们将给Spark一个命令，强制它执行dataframe：错误是: FileReadException: error在读取文件:&#

浏览 9提问于2022-03-24得票数 1

回答已采纳

1回答

在蔚蓝数据库中调整类路径/更改弹簧版本

、、、、

我正在尝试在Azure数据库中使用Apache /Ignite集成。我使用Databricks安装了org.apache.ignite:ignite-spark-2.4:2.9.0 maven库。我看到spring-core-4.3.26.RELEASE.jar安装在/dbfs/FileStore/jars/maven/org/springframework中，在o

浏览 3提问于2020-10-25得票数 2

回答已采纳

3回答

如何使用spark databricks xml解析器从Hdfs目录加载所有xml文件

、、、

如何使用databricks xml解析器获取Hdfs目录中具有相同xml模式的所有xml文件的单个数据帧

浏览 1提问于2017-02-03得票数 1

1回答

Delta Lake将多个文件压缩为单个文件

、

我目前正在探索delta，这是由databricks开源的。我正在读取kafka数据，并使用delta lake格式将其写入为流。Delta lake在从kafka进行流式写入的过程中创建了许多文件，我觉得kafka是hdfs文件系统的核心。我已经尝试过将多个文件压缩为单个文件。("overwrite").save("deltalakefile/data/") spark

浏览 16提问于2019-10-13得票数 4

回答已采纳

1回答

从ADLS Gen2读取的文件错误配置属性xxx.dfs.core.windows.net未找到

、、

我正在使用ADLS Gen2，从一个数据库笔记本试图使用'abfss‘路径处理文件。我能够很好地读取拼板文件，但是当我尝试加载XML文件时，我得到的是没有找到配置的错误--配置属性xxx.dfs.core.windows.net未找到。以下是我的XML库配置com.databricks:spark_2.11:0.9.0 我在其他文章中尝试了一些东西，但仍然得到了相同的错误。添加了一个新的作用域，以查看它是否

浏览 2提问于2020-08-13得票数 1

回答已采纳

1回答

创建一个新的列，方法是读取json字符串中的不一致模式。

、、、

我有一个pyspark dataframe，其中重要信息作为json字符串存储在列中，这些字符串具有类似但不一致的模式。我的问题提出了三个问题，如下所述：这种情况既发生在databricks中，也发生在火花放电的本

浏览 6提问于2022-02-03得票数 0

1回答

从ES中获取数据并保存到HDFS作为Avro (火花)

、、

我创建了一个配置，允许我在使用spark-shell命令启动--config时直接从ES中以JSON的形式获取一些数据；我还导入了elasticsearch-hadoop的--jar。就会得到以下结果： res9: Class[_ <: org.apache.spark.rdd.RDD[(String, scala.collection.Map[String,AnyRef])]] =class org.elasticsearch.spar

浏览 3提问于2017-05-11得票数 0

回答已采纳

6回答

如何在Apache预构建版本中添加任何新的库(如Spark* csv)*

、、

我已经构建了，并能够使用下面的命令使用同样的pyspark错误获取Traceback (most recent call last): File "<stdin>&q

浏览 13提问于2015-06-10得票数 26

回答已采纳

4回答

在Scala IDE中读取spark代码中的avro文件时出错

、、、

我通过读取avro文件创建了一个数据框，但在scala IDE的spark应用程序中读取该文件时出现错误。:找不到数据源: org.apache.spark.sql.avro.AvroFileFormat。请在上查找软件包SparkCourseAsMavenProject构建路径的spark-avro_2.11-3.2.0.jar与Scala (2.11.0)如果此报告<

浏览 22提问于2020-05-28得票数 0

1回答

调用o898.save时出错。Azure Synapse Analytics连接器代码中遇到异常

、、

write函数，我正在使用它在同一个笔记本中写入synapse中的多个表。at com.databricks.spark.sqldw.DefaultSource.(Utils.scala:410) ... 33 more 从早期到现在的唯一变化是，运行此notebook的资源组与以前不同，但它仍然访问旧资源组中的ADLS数据。我已经尝试在新资源组笔记本中为旧的资源组源运行dbutils.fs.ls，并且我能够

浏览 39提问于2021-08-03得票数 0

2回答

尝试在PySpark中使用partitionBy写入csv时出错

、

我有一个数据帧，我希望根据现有的日期列按年、月和日进行分区。最后，我想把分区的csv写到某个目录中。但是在写入目录时，当我调用partionBy()函数时，它会抛出下一个异常。当使用coalesce()时，我可以像预期的那样写入目录。以下是pyspark版本2.3的代码片段 import pyspark.sql.functions as func df1 = flights.select("airlines","date")\&

浏览 32提问于2019-03-02得票数 1

回答已采纳

1回答

Azure数据库只获取运行时发送的事件集线器数据

、、

我正在尝试使用databricks读取Azure事件中心数据。# Initialize event hub config dictionary with connectionString connectionString_jvm.org

浏览 12提问于2022-01-04得票数 1

2回答

用于在spark中处理xml的复杂自定义模式

、、、

我正在尝试为spark编写自定义模式，以加载xml文件。在我的示例中，我需要访问两个标记，即：us-related-documents标记下的related-publication和us-provisional-application| | | | |-- date: long (nullable = true)下面是我

浏览 9提问于2018-02-02得票数 0

2回答

如何将RDD转换为Dataframe Spark2.4.5 Python

、、、、

我完全是数据库和火花的新手。我使用的是数据砖、社区版和Spark2.4.5集群。我试图修改从Spark1.6.2到Spark2.4.5运行的代码，因为在社区版本中，不允许使用Spark1.6.2创建集群。有人能帮我把RDD对象转换成Spark2.4.5中的Dataframe吗？environemnt is set and sc is spark.sparkContext sche

浏览 1提问于2020-05-01得票数 0

回答已采纳

1回答

如何避免火花NumberFormatException: null

、、、

我正在使用spark 1.6使用dataproc查询数据。我需要从2个日志中获取1天的数据(~10000个文件)，然后进行一些转换。但是，我的数据可能(或者不可能)有一些糟糕的数据，在一整天的查询中没有成功，我尝试了000-09小时，没有发现错误。试了10到19小时，得到了一个例外。一小时一小时地尝试，发现坏数据</em

浏览 0提问于2016-03-17得票数 3

2回答

数据库读取orc文件，在应用模式时抛出arrayindexexception

、、

我正在尝试读取一个ORC格式文件，它在单个文件中有5000行。在databricks笔记本中，下面的命令工作display(data_df(DriverWrapper.scala:221)我注意到的一件事是，orc文件中<

浏览 6提问于2021-10-15得票数 0

1回答

Spark增量表在中间模式演进中添加新列

、、、

.format("com.databricks.spark.csv") .option("header"，"true") .load("/mnt/loc/fold") display(df) 路径中的文件包含以下数据name,addressraj,usa 在将其写入到表中时， import org.apach

浏览 12提问于2021-06-29得票数 0

1回答

为什么AWS上的Spark与AbstractMethodError失败？

、、、、

我有一个用Python编写的AWS Glue作业，它引入了火花xml库(通过依赖的jars路径)。我使用的是火花-xml_2.11-0.0.jar。:在调用o75.save时出错。：：com.databricks.spark.xml.DefaultSource15.createRelation(Lorg/apache/spark/sql/SQLContext;Lorg/apache&q

浏览 0提问于2018-02-06得票数 4

2回答

用消防软管从分区文件夹中读取JSON

、、、

Kinesis将文件的持久性(在本例中为时间序列JSON )管理为一个文件夹层次结构，该层次结构由YYYY/MM/DD/HH (直到24小时编号)...great划分。那么我如何使用Spark2.0来读取这些嵌套的子文件夹，并从所有的叶json文件中创建一个静态的Dataframe呢？数据阅读器有“选项”吗？我的下一个目标是成为一个流DF，火龙将新文件持久化到s3中，使用Spark2.0中</em

浏览 4提问于2016-10-30得票数 8

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

为什么电火花不能读取这个csv文件？

在蔚蓝数据库中调整类路径/更改弹簧版本

如何使用spark databricks xml解析器从Hdfs目录加载所有xml文件

Delta Lake将多个文件压缩为单个文件

从ADLS Gen2读取的文件错误配置属性xxx.dfs.core.windows.net未找到

创建一个新的列，方法是读取json字符串中的不一致模式。

从ES中获取数据并保存到HDFS作为Avro (火花)

如何在Apache预构建版本中添加任何新的库(如Spark* csv)*

在Scala IDE中读取spark代码中的avro文件时出错

调用o898.save时出错。Azure Synapse Analytics连接器代码中遇到异常

尝试在PySpark中使用partitionBy写入csv时出错

Azure数据库只获取运行时发送的事件集线器数据

用于在spark中处理xml的复杂自定义模式

如何将RDD转换为Dataframe Spark2.4.5 Python

如何避免火花NumberFormatException: null

数据库读取orc文件，在应用模式时抛出arrayindexexception

Spark增量表在中间模式演进中添加新列

为什么AWS上的Spark与AbstractMethodError失败？

用消防软管从分区文件夹中读取JSON

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐