腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6952)
视频
沙龙
0
回答
Spark
2.1.1
上
的
Pyspark
,
StructType
中
的
StructFields
总是
可
以为
空
的
我正在使用几个
StructType
创建一个
StructFields
--名称和数据类型似乎工作得很好,但是不管在每个StructField中将nullable设置为False,对于每个StructField,最终得到
的
模式报告nullable都是True。from
pyspark
.sql import SparkSession from
pyspark
.sql.types import
StructType
, StringType, FloatType,SparkSession.buil
浏览 0
提问于2017-06-16
得票数 1
1
回答
星星之火SQL:从周数和年获得月份
、
我有一个带有“周”&“年”列
的
dataframe,需要计算如下所示
的
月份:+----+----++----+----+| 50|2012|
浏览 2
提问于2016-05-30
得票数 1
回答已采纳
2
回答
是否可以使用StructField创建一个元组类型
的
PySpark
?
我需要为
Spark
中
的
dataframe创建一个架构。创建常规
StructFields
(如StringType、IntegerType )没有问题。但是,我想为元组创建一个StructField。我尝试了以下几点: StructField("dst_ip", StringType()), 是
浏览 0
提问于2018-04-20
得票数 2
回答已采纳
12
回答
如何创建一个
空
的
DataFrame?为什么"ValueError: RDD是
空
的
“?
、
我正在努力创建一个
空
的
数据在火花(火花)。df = sqlContext.createDataFrame(sc.emptyRDD(), schema)Traceback (most recent call last):File "<stdin>", line 1, in <module> File "/Users/Me/Desktop/
spark
浏览 4
提问于2016-01-06
得票数 34
回答已采纳
3
回答
如何遍历星火中
的
模式?
、
我想在
Spark
中
迭代一个模式。使用df.schema提供了嵌套
StructType
和
StructFields
的
列表。当我尝试访问嵌套
的
StructType
does not take parameters
浏览 1
提问于2018-07-17
得票数 7
回答已采纳
1
回答
Dataframe模式不同于手动定义
的
模式(教科书示例)。
、
我只是仿效“星火”
中
的
“最终指南”(第五章): StructField('DEST_COUNTRY_NAME', StringType(), True), StructField('
浏览 4
提问于2020-03-16
得票数 0
回答已采纳
1
回答
AWS胶水初始化一个
空
的
动态框架
在AWS Glue
中
初始化一个完全
空
的
动态框架是可能
的
吗?我目前
的
方法是这样
的
,但似乎很麻烦:from
pyspark
.sql.types import
StructType
,StructField, StringType
spark
= SparkSession.builder.appName('Sesh').getO
浏览 13
提问于2021-06-12
得票数 0
2
回答
从包含DataFrame
的
行创建Option[T]
的
问题
、
、
我正在将一些代码从
Spark
1.6迁移到
Spark
2.1,并努力解决以下问题:import org.apache.
spark
.sql.types.{LongType, StructField,
StructType
} val schema =
StructType
(Seq(StructField("i", LongType,nullablerows = sparkContext.parallelize(Seq
浏览 4
提问于2017-06-02
得票数 2
回答已采纳
1
回答
PySpark
到PMML -“字段标签不存在”错误
、
、
我是
PySpark
的
新手,所以这可能是一个基本
的
问题。我正在尝试使用JPMML库将
PySpark
代码导出到PMML。从同一个页面运行Scala代码时会弹出相同
的
错误。有人知道这个标签字段指的是什么吗?似乎是隐藏在后台执行
的
火花代码
中
的
东西。我怀疑这个标签字段是否是Iris数据集
的
一部分。完整
的
错误消息: Traceback (most recent call last): File "/usr
浏览 2
提问于2017-06-27
得票数 1
回答已采纳
1
回答
验证镶嵌块文件
中
的
空
值
、
我在读第三方
的
镶木地板文件。似乎无论文件是如何编写
的
,parquet
总是
将文件
的
模式转换为
可
空
的
列。 在读取这些文件时,我希望拒绝在特定列
中
包含
空
值
的
文件。(myPath) 如果在col1
中
包含NULL,则加载将被拒绝。我可以对空值
的
列进行筛选或计数,然后引发错误-从性能角度来看,这是很糟糕
的
,因为我将在工作
中
获得额外
的
阶段。它
浏览 29
提问于2020-09-25
得票数 0
回答已采纳
1
回答
来自具有架构
的
行
的
sqlContext.createDataframe。IntegerType : TypeError:
pyspark
不能接受类型为<type 'unicode'>
的
对象
、
、
、
、
在花了很多时间弄清楚为什么我得到以下错误之后在我
的
rdd中有一个名为rrdRows
的
行,如下所示:我
的
dfSchema定义为:
浏览 2
提问于2015-11-03
得票数 3
2
回答
将文件读取并附加到
spark
数据文件
中
我已经创建了一个
空
的
dataframe,并开始添加它,通过读取每个文件。但其中一个文件
的
列数比前一个文件多。如何仅为所有其他文件选择第一个文件
中
的
列?from
pyspark
.sql import SparkSession import os, glob
spark
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
2
回答
用电火花替换结构型柱
的
空白点
、
、
、
、
我有一个用例,希望用
空
值替换
StructType
列
中
的
空
值。下面是示例,您可以使用它重新创建场景: StructField(
浏览 3
提问于2022-01-31
得票数 1
回答已采纳
6
回答
如何在
spark
中将Avro Schema对象转换为
StructType
、
、
、
我有一个行类型
的
RDD,即RDDRow和avro schema对象.I需要用这个信息创建一个数据帧。 为了创建DataFrame,我需要将avro schema对象转换为
StructType
。
浏览 5
提问于2016-11-24
得票数 8
9
回答
如何创建具有指定模式
的
空
DataFrame?
、
、
、
我想用Scala中指定
的
模式在DataFrame
上
创建。我尝试过使用JSON read (我
的
意思是读取空文件),但我不认为这是最佳实践。
浏览 3
提问于2015-07-17
得票数 106
1
回答
Pyspark
:云存储
中
来自多个文件
的
增量ETL
、
、
、
、
我有大约500-700 csv文件
的
日志加载每周。文件名是每周随机生成
的
。这些文件存储在google云存储
上
,
pyspark
在google dataproc
上
运行,有几个工作节点。我已经创建了一个
pyspark
文件,它基本
上
只是迭代文件并按原样加载到bigquery
中
。我
以为
我会在bigquery表
上
看到增量加载,但似乎
pyspark
会将整个gz输入文件合并到dataframe
中
,
浏览 22
提问于2021-10-10
得票数 1
5
回答
pyspark
: ValueError:某些类型在推断后无法确定
、
、
、
、
数据帧:但是,我得到了以下错误:----> 1
spark
_my_df = sc.createDataFrame(my_df)2
spark
_my_df.take(20) /usr/local/
spark
浏览 1
提问于2016-11-10
得票数 34
6
回答
如何在
Pyspark
中
定义一个
空
的
dataframe并将其附加到相应
的
dataframe?
、
所以我想从一个目录
中
读取csv文件,作为
pyspark
dataframe,然后将它们附加到单个dataframe
中
。而不是像我们在熊猫身上做
的
那样,在
pyspark
中
得到替代方案。例如,在熊猫
中
,我们这样做: dff=pd.read_csv(f,delimiter=',') df
浏览 5
提问于2017-04-10
得票数 11
1
回答
PySpark
数据帧写入orc不允许使用连字符
的
列名
、
、
、
、
我是
PySpark
的
新手。我有一个列名
中
包含连字符
的
csv文件。我可以成功地将文件读取到数据帧
中
。然而,当将df写入orc文件时,我得到一个错误,如下所示-当我通过删除连字符来重命名列时,我可以将数据帧写入但是我需要列名有连字符,因为我想把这个orc附加到列名中有连字符
的
现有orc
上
。 有没有人能帮我一下?任何帮助都将非常感谢!
浏览 32
提问于2021-02-13
得票数 0
2
回答
Pyspark
:从JSON文件创建模式
、
、
我正在处理来自非常长
的
嵌套JSON文件
的
数据。问题是,这些文件
的
结构并不
总是
与其他文件
的
列相同。我希望从包含所有列
的
空
JSON文件
中
创建一个自定义模式。如果我稍后将JSON文件读入这个预定义
的
模式
中
,则不存在
的
列将被
空
值填充(至少计划是这样
的
)。我试过了 schemaFromJson =
StructType
.fromJson(json.load
浏览 7
提问于2021-10-26
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
Jupyter在美团民宿的应用实践
PySpark分析二进制文件
半小时搭建 spark 应用
pyspark 安装
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券