腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8019)
视频
沙龙
1
回答
获取
路径
:
在
Apache
Spark
/
Databricks
中
尝试
流式
数据
时
,
TypeError
只能
是
单个
字符串
、
、
我正在
尝试
在
Databricks
上的
Apache
Spark
中
测试流
数据
。thestream =
spark
.read.parquet('/
浏览 12
提问于2021-05-13
得票数 0
2
回答
为什么电火花不能读取这个csv文件?
、
、
、
问题中的CSV文件驻留在集群驱动程序的tmp目录
中
,请注意,这个csv文件
是
有意不在
Databricks
DBFS云存储
中
的。对于导致此问题的用例,使用DBFS将不起作用。注意,我正试图通过
Spark
3.2.1和Scala2.12
在
Databricks
运行时10.3上运行。接下来,我们将给
Spark
一个命令,强制它执行dataframe:错误
是
: FileReadException: error在读取文件:
浏览 9
提问于2022-03-24
得票数 1
回答已采纳
1
回答
在
蔚蓝
数据
库
中
调整类
路径
/更改弹簧版本
、
、
、
、
我正在
尝试
在
Azure
数据
库中使用
Apache
/Ignite集成。我使用
Databricks
安装了org.
apache
.ignite:ignite-
spark
-2.4:2.9.0 maven库。我看到spring-core-4.3.26.RELEASE.jar安装在/dbfs/FileStore/jars/maven/org/springframework
中
,
在
o
浏览 3
提问于2020-10-25
得票数 2
回答已采纳
3
回答
如何使用
spark
databricks
xml解析器从Hdfs目录加载所有xml文件
、
、
、
如何使用
databricks
xml解析器
获取
Hdfs目录
中
具有相同xml模式的所有xml文件的
单个
数据
帧
浏览 1
提问于2017-02-03
得票数 1
1
回答
Delta Lake将多个文件压缩为
单个
文件
、
我目前正在探索delta,这是由
databricks
开源的。我正在读取kafka
数据
,并使用delta lake格式将其写入为流。Delta lake在从kafka进行
流式
写入的过程
中
创建了许多文件,我觉得kafka
是
hdfs文件系统的核心。 我已经
尝试
过将多个文件压缩为
单个
文件。("overwrite").save("deltalakefile/data/")
spark
浏览 16
提问于2019-10-13
得票数 4
回答已采纳
1
回答
从ADLS Gen2读取的文件错误配置属性xxx.dfs.core.windows.net未找到
、
、
我正在使用ADLS Gen2,从一个
数据
库笔记本试图使用'abfss‘
路径
处理文件。我能够很好地读取拼板文件,但是当我
尝试
加载XML文件
时
,我得到的
是
没有找到配置的错误--配置属性xxx.dfs.core.windows.net未找到。以下
是
我的XML库配置com.
databricks
:
spark
_2.11:0.9.0 我在其他文章
中
尝试
了一些东西,但仍然得到了相同的错误。添加了一个新的作用域,以查看它是否
浏览 2
提问于2020-08-13
得票数 1
回答已采纳
1
回答
创建一个新的列,方法
是
读取json
字符串
中
的不一致模式。
、
、
、
我有一个pyspark dataframe,其中重要信息作为json
字符串
存储
在
列
中
,这些
字符串
具有类似但不一致的模式。我的问题提出了三个问题,如下所述: 这种情况既发生在
databricks
中
,也发生在火花放电的本
浏览 6
提问于2022-02-03
得票数 0
1
回答
从ES
中
获取
数据
并保存到HDFS作为Avro (火花)
、
、
我创建了一个配置,允许我
在
使用
spark
-shell命令启动--config
时
直接从ES
中
以JSON的形式
获取
一些
数据
;我还导入了elasticsearch-hadoop的--jar。就会得到以下结果: res9: Class[_ <: org.
apache
.
spark
.rdd.RDD[(String, scala.collection.Map[String,AnyRef])]] =class org.elasticsearch.
spar
浏览 3
提问于2017-05-11
得票数 0
回答已采纳
6
回答
如何在
Apache
预构建版本
中
添加任何新的库(如
Spark
csv)
、
、
我已经构建了,并能够使用下面的命令使用同样的pyspark错误
获取
Traceback (most recent call last): File "<stdin>&q
浏览 13
提问于2015-06-10
得票数 26
回答已采纳
4
回答
在
Scala IDE
中
读取
spark
代码
中
的avro文件
时
出错
、
、
、
我通过读取avro文件创建了一个
数据
框,但在scala IDE的
spark
应用程序
中
读取该文件
时
出现错误。:找不到
数据
源: org.
apache
.
spark
.sql.avro.AvroFileFormat。请在上查找软件包SparkCourseAsMavenProject构建
路径
的
spark
-avro_2.11-3.2.0.jar与Scala (2.11.0)如果此报告<
浏览 22
提问于2020-05-28
得票数 0
1
回答
调用o898.save
时
出错。Azure Synapse Analytics连接器代码
中
遇到异常
、
、
write函数,我正在使用它在同一个笔记本
中
写入synapse
中
的多个表。at com.
databricks
.
spark
.sqldw.DefaultSource.(Utils.scala:410) ... 33 more 从早期到现在的唯一变化
是
,运行此notebook的资源组与以前不同,但它仍然访问旧资源组
中
的ADLS
数据
。我已经
尝试
在
新资源组笔记本
中
为旧的资源组源运行dbutils.fs.ls,并且我能够
浏览 39
提问于2021-08-03
得票数 0
2
回答
尝试
在
PySpark中使用partitionBy写入csv
时
出错
、
我有一个
数据
帧,我希望根据现有的日期列按年、月和日进行分区。最后,我想把分区的csv写到某个目录
中
。 但是
在
写入目录
时
,当我调用partionBy()函数
时
,它会抛出下一个异常。当使用coalesce()
时
,我可以像预期的那样写入目录。以下
是
pyspark版本2.3的代码片段 import pyspark.sql.functions as func df1 = flights.select("airlines","date")\&
浏览 32
提问于2019-03-02
得票数 1
回答已采纳
1
回答
Azure
数据
库只
获取
运行时发送的事件集线器
数据
、
、
我正在
尝试
使用
databricks
读取Azure事件中心
数据
。# Initialize event hub config dictionary with connectionString connectionString_jvm.org
浏览 12
提问于2022-01-04
得票数 1
2
回答
用于
在
spark
中
处理xml的复杂自定义模式
、
、
、
我正在
尝试
为
spark
编写自定义模式,以加载xml文件。
在
我的示例
中
,我需要访问两个标记,即:us-related-documents标记下的related-publication和us-provisional-application| | | | |-- date: long (nullable = true)下面
是
我
浏览 9
提问于2018-02-02
得票数 0
2
回答
如何将RDD转换为Dataframe
Spark
2.4.5 Python
、
、
、
、
我完全是
数据
库和火花的新手。我使用的
是
数据
砖、社区版和
Spark
2.4.5集群。我试图修改从
Spark
1.6.2到
Spark
2.4.5运行的代码,因为
在
社区版本
中
,不允许使用
Spark
1.6.2创建集群。有人能帮我把RDD对象转换成
Spark
2.4.5
中
的Dataframe吗?environemnt is set and sc is
spark
.sparkContext sche
浏览 1
提问于2020-05-01
得票数 0
回答已采纳
1
回答
如何避免火花NumberFormatException: null
、
、
、
我正在使用
spark
1.6使用dataproc查询
数据
。我需要从2个日志
中
获取
1天的
数据
(~10000个文件),然后进行一些转换。但是,我的
数据
可能(或者不可能)有一些糟糕的
数据
,
在
一整天的查询
中
没有成功,我
尝试
了000-09小
时
,没有发现错误。试了10到19小
时
,得到了一个例外。一小
时
一小
时
地
尝试
,发现坏
数据</em
浏览 0
提问于2016-03-17
得票数 3
2
回答
数据
库读取orc文件,
在
应用模式
时
抛出arrayindexexception
、
、
我正在
尝试
读取一个ORC格式文件,它在
单个
文件中有5000行。
在
databricks
笔记本
中
,下面的命令工作display(data_df(DriverWrapper.scala:221)我注意到的一件事
是
,orc文件
中<
浏览 6
提问于2021-10-15
得票数 0
1
回答
Spark
增量表
在
中间模式演进
中
添加新列
、
、
、
.format("com.
databricks
.
spark
.csv") .option("header","true") .load("/mnt/loc/fold") display(df)
路径
中
的文件包含以下
数据
name,addressraj,usa
在
将其写入到表
中
时
, import org.
apach
浏览 12
提问于2021-06-29
得票数 0
1
回答
为什么AWS上的
Spark
与AbstractMethodError失败?
、
、
、
、
我有一个用Python编写的AWS Glue作业,它引入了火花xml库(通过依赖的jars
路径
)。我使用的
是
火花-xml_2.11-0.0.jar。:
在
调用o75.save
时
出错。::com.
databricks
.
spark
.xml.DefaultSource15.createRelation(Lorg/
apache
/
spark
/sql/SQLContext;Lorg/
apache
&q
浏览 0
提问于2018-02-06
得票数 4
2
回答
用消防软管从分区文件夹
中
读取JSON
、
、
、
Kinesis将文件的持久性(
在
本例
中
为时间序列JSON )管理为一个文件夹层次结构,该层次结构由YYYY/MM/DD/HH (直到24小
时
编号)...great划分。那么我如何使用
Spark
2.0来读取这些嵌套的子文件夹,并从所有的叶json文件
中
创建一个静态的Dataframe呢?
数据
阅读器有“选项”吗?我的下一个目标
是
成为一个流DF,火龙将新文件持久化到s3
中
,使用
Spark
2.0
中</em
浏览 4
提问于2016-10-30
得票数 8
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
深度对比Delta、Iceberg和Hudi三大开源数据湖方案
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
Apache Spark 2.3 加入支持Native Kubernetes及新特性文档下载
Waterdrop帮你快速玩转Spark数据处理
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券