腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2551)
视频
沙龙
5
回答
Spark
Dataframe
验证
拼接
写入
的
列名
、
、
、
、
我正在使用从JSON事件流转换而来
的
Dataframe
来处理事件,这些数据帧最终会被写成Parquet格式。但是,一些JSON事件在键中包含空格,我希望在将其转换为Parquet之前记录和过滤/删除数据帧中
的
此类事件,因为;{}()\n\t=在拼图方案(CatalystSchemaConverter)中被视为特殊字符,如中所列1下面因此不应允许在
列名
中使用。如何在
Dataframe
中对
列名
执行此类
验证
,并完全删除此类事件,而不会导致
Spark
浏览 188
提问于2016-07-05
得票数 17
2
回答
使用Python将Dask
Dataframe
转换为
Spark
dataframe
、
、
、
、
我想将Dask
Dataframe
转换为
Spark
Dataframe
。让我们考虑这个例子:dask_df = dd.read_csv("file_name.csv")
spark
_df =
spark
_session.createDataFrame(dask_df) 但这是行不通
的
。
浏览 18
提问于2021-02-25
得票数 0
2
回答
在
spark
结构化流中
写入
来自kafka / json数据源
的
损坏数据
、
、
在
spark
批处理作业中,我通常会将JSON数据源
写入
到一个文件中,并且可以使用
DataFrame
阅读器
的
损坏列功能将损坏
的
数据写出到不同
的
位置,并使用另一个阅读器从同一作业中
写入
有效数据。(数据写为
拼接
) 但在
Spark
Structred Streaming中,我首先通过kafka将流作为字符串读取,然后使用from_json获取我
的
DataFrame
。然后,from_json使用JsonToS
浏览 34
提问于2018-12-27
得票数 1
回答已采纳
1
回答
Pyspark
dataframe
拼接
vs.增量:不同
的
行数
、
、
、
我在HDFS上以Delta格式
写入
了数据。据我所知,Delta正在以
拼接
的
形式存储数据,只是在它上面增加了一个具有高级功能
的
层。但是,当使用Pyspark读取数据时,如果使用
spark
.read.parquet()或
spark
.read.format('delta').load()读取
dataframe
,我会得到不同
的
结果 df=
spark
.read.format('delta').load(
浏览 28
提问于2021-01-27
得票数 1
回答已采纳
1
回答
使用
Spark
或pyspark或python
的
dat文件
、
、
、
因为它花费了太多
的
时间。我想去
spark
或pyspark.I。我是
spark
/ please
的
新手。你能帮我解决这个问题吗?
浏览 11
提问于2019-10-04
得票数 0
1
回答
Spark
SQL忽略动态分区筛选器值
、
在AWS
的
EMR 5.20上运行
Spark
2.4时遇到问题。 我有一个字符串列作为分区,它有日期值。我
的
目标是将该列
的
最大值作为筛选器引用。这些值类似于2019年1月1日
的
2019-01-01。在这个查询中,我试图过滤到某个日期值(这是一个字符串数据类型),而
Spark
最终读取所有目录,而不仅仅是结果max(value)。
spark
.sql("select mypartitioncolumn, column1, column2 from mydatabase
浏览 29
提问于2019-02-21
得票数 2
1
回答
使用PySpark上传数据到红移
、
、
、
、
我创建了一个包含所有数据
的
DataFrame
,选择我需要
的
所有列,并将它们转换为我
的
红移表期望
的
类型: mapping = [('id', StringType), ('session', StringType), ('ip', StringType)] format("csv").\ option("header
浏览 17
提问于2020-12-30
得票数 4
回答已采纳
2
回答
如何在使用
spark
数据帧
写入
时自动计算numRepartition
、
、
当我尝试将
dataframe
写入
Hive
拼接
分区表时它会在HDFS中创建大量
的
块,每个块只有很小
的
数据量。我理解它是如何进行
的
,因为每个
spark
子任务都会创建一个块,然后向其中
写入
数据。 我也理解,块
浏览 2
提问于2018-08-13
得票数 1
5
回答
如何从配置单元外部表创建数据帧
、
、
、
、
我们喜欢在Hive外部表
的
顶部创建数据帧,并使用hive模式和数据进行
spark
级别的计算。 我们是否可以从hive外部表中获取模式并将其用作
Dataframe
模式。
浏览 69
提问于2017-05-11
得票数 1
回答已采纳
1
回答
将PySpark DataFrames
写入
MySQL时
的
最佳实践
、
、
、
、
我试图开发几个数据管道使用Apache气流与预定
的
火花作业。df_tsv =
spark
.read.csv(tsv_file, sep=r'\t', header=True) df_tsv.write.jdbc其次,我想知道将数据从
Spark
写入</em
浏览 2
提问于2021-10-28
得票数 1
回答已采纳
2
回答
如何从
spark
java数据集中删除某些记录?
、
、
有没有什么具体
的
方法可以从Apache
Spark
上
的
数据集中删除记录?或者,有什么替代方案可以实现它吗?
浏览 40
提问于2017-01-31
得票数 0
回答已采纳
1
回答
星火ML索引器不能用点解析
DataFrame
列名
?
、
、
、
我有一个
DataFrame
,
列名
为a.b。当我将a.b指定为
的
输入
列名
时,具有消息“无法解析给定输入列a.b”
的
AnalysisException。我用
的
是星火1.6.0。我知道早期版本
的
Spark
可能对
列名
中
的
点有问题,但在最近
的
版本中,可以在
Spark
中
的
列名
和SQL查询中使用反引号。例如,这就是另一个问题
的
解决方案,。.s
浏览 1
提问于2016-01-22
得票数 16
1
回答
移除“来自星火
DataFrame
列名
、
、
、
从星火
DataFrame
的
列名
?下面的代码是可复制
的
。# import
Spark
libraries, configuration, Contexts, and types.from pyspark.sql importSparkSession import pyspark.sql
浏览 12
提问于2017-11-15
得票数 3
回答已采纳
1
回答
Scala火花:重命名大量列
的
性能问题
、
、
为了能够在不转义.
的
情况下使用.
的
列名
,我需要一个函数来“
验证
”所有的
列名
--但是我尝试过
的
任何方法都没有及时完成这个工作(5分钟后我就中止了)。我正在尝试我
的
算法
的
数据集是golub数据集(获取它)。它是一个有7200列
的
2.2MB CSV文件。重命名所有列应该是秒
的
问题。中读取CSV
的
代码 .option("h
浏览 2
提问于2017-02-08
得票数 3
回答已采纳
2
回答
从
Spark
中
的
旧
dataframe
获取
列名
、
、
请看我
的
代码: .master("local[*]") .getOrCreate() Id Name City 1
浏览 2
提问于2020-04-24
得票数 1
回答已采纳
1
回答
pyspark.sql.utils.AnalysisException: U‘’Path不存在
、
、
、
、
我使用标准
的
hdfs,而不是S3来存储我
的
文件,使用amazon emr运行
spark
作业。我在hdfs://user/ hive /warehouse/中有一个配置单元表,但在运行我
的
spark
作业时找不到它。我配置了
spark
属性
spark
.sql.warehouse.dir,以反映我
的
hdfs目录
的
spark
属性,而纱线日志显示: 17/03/
浏览 0
提问于2017-03-30
得票数 2
回答已采纳
1
回答
单列分隔字符串rdd到正确列化
的
dataframe
、
每一列都是一个字符串,表示由|分隔
的
条目列表。例如: a|b|c|d我想把它转换成一个数据帧,所以它是这样
的
: a b cd列数是未知
的
,并且不需要标题(它们可以只是默认
的
列名
)。这样做
的
最终目标是将其
写入
到一个
拼接
文件中。 一种解决方案是将其
写入
文本
浏览 1
提问于2018-08-22
得票数 2
回答已采纳
2
回答
spark
写入
拼花面板文件。如何指定行组大小?
、
、
、
我正在努力寻找如何在
Spark
API中指定拼图文件
写入
器
的
行组大小。我发现有一种方法可以做到这一点,那就是使用具有此选项
的
快速
拼接
python模块:write具有参数: row_group_offsets预先感谢您<em
浏览 5
提问于2017-10-25
得票数 1
1
回答
如何将numpy数组元素转换为
spark
RDD列值
、
、
我准备使用
spark
dataframe
(不是pandas)
的
内置CSV打印工具。我已经构建了一个IndexedRowMatrix。因此,它中有稀疏数组列。到密集数组
的
转换是由x.vector.toArray()映射调用执行
的
(如下所示)。我似乎想不出,如何将密集
的
numpy数组元素放入
Spark
DataFrame
的
单独列中。(我不是在介绍熊猫。)问题是RDD tuple有2列,但我需要在
DataFrame
中有7
浏览 0
提问于2018-06-12
得票数 0
3
回答
在亚马逊网络服务s3a存储上
写入
大文件时出现问题
、
、
我在上传大文件到s3a时遇到了一个无法解释
的
问题。我使用带有
spark
-2.4.4-bin-hadoop2.7和
Spark
DataFrame
的
EC2实例来
写入
V4版本
的
s3a。使用访问密钥和密钥
验证
S3。过程如下: 1)从s3a中读取csv文件作为火花
DataFrame
;2)数据处理;3)将数据帧以
拼接
的
格式上传到s3a中 如果我使用400MB
的
csv文件执行此过程,则没有任何问
浏览 6
提问于2019-09-09
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
如何管理Spark的分区
第八篇|Spark SQL百万级数据批量读写入MySQL
大数据有道之spark选择去重
大数据有道之spark筛选去重
热门
标签
更多标签
云服务器
ICP备案
实时音视频
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券