腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
pyspark
dataframe
中
选择
列
和
强制
转换
列
类型
?
dataframe
、
pyspark
我有一个非常大的
pyspark
dataframe
,我需要在其中
选择
很多
列
(这就是为什么我想使用for而不是写每个列名)。除了需要作为StringType()保存的一
列
(
列
"ID")之外,我需要将这些
列
中
的大多数
转换
为DoubleType()。当我
选择
需要
强制
转换
为DoubleType()的所有
列
时,我使用以下代码(它可以工作): df_num
浏览 32
提问于2021-11-17
得票数 1
回答已采纳
1
回答
如
何在
火花放电中使用导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser
python
、
scala
、
pyspark
、
databricks
、
azure-databricks
我们怎么才能用 在org.apache.spark.sql.catalyst.parser.CatalystSqlParser中导入它,它在Scala
中
工作得很好,现在根据需求,我们尝试
转换
我们的项目
浏览 7
提问于2022-06-09
得票数 0
1
回答
PySpark
toPandas函数正在更改
列
类型
python
、
pandas
、
apache-spark
、
pyspark
我有一个
pyspark
dataframe
,它的模式如下: root |-- dst_ip: integer (nullable= true) 通过toPandas()将此数据帧
转换
为pandas时,
列
类型
从spark
中
的integer更改为pandas
中
的float: <class 'pandas.core.frame.
DataFrame
non-null
浏览 24
提问于2020-03-25
得票数 4
回答已采纳
1
回答
使用map函数将Spark
Dataframe
转换
为RDD
apache-spark
、
dataframe
、
pyspark
我正在尝试将spark数据框
中
的
列
拆分为多个值。因此,我分隔了要拆分的
列
,并检查了其
类型
:O:
pyspark
.sql.
dataframe
.
DataFrame
当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split(
浏览 0
提问于2016-06-22
得票数 0
3
回答
我可以将pandas数据帧
转换
为spark rdd吗?
pyspark
Pbm: a)读取一个本地文件到Panda
dataframe
中
,比如PD_DF。b)操纵/海量PD_DF并添加列到
dataframe
中
。c)需要使用spark将PD_DF写到HDFS。
浏览 0
提问于2015-04-15
得票数 4
1
回答
Pyspark
:将所有数据帧的字符串
转换
为foat
python
、
apache-spark
、
pyspark
我有一个包含多个
列
(1000)的数据框,它们具有字符串
类型
。我希望将它们
转换
为不是一
列
一
列
地浮动,而是一次浮动所有数据帧。此外,我知道这是存在的: from
pyspark
.sql.types import IntegerType data_df = data_df.withColumn("column_name",
浏览 17
提问于2021-04-15
得票数 0
回答已采纳
1
回答
Pyspark
:获取嵌套结构
列
的数据
类型
json
、
dataframe
、
pyspark
、
nested
我目前正在处理一些相当复杂的json文件,我应该将它们
转换
并写入增量表。问题是,当涉及到
列
的数据
类型
时,每个文件都有细微的差异。有人能给我解释一下检索嵌套结构
列
的数据
类型
的一般方法吗?在互联网上,我只能找到如何对它们做
选择
:https://sparkbyexamples.com/
pyspark
/
pyspark
-select-nested-struct-columns/ 如果我有这样的格式我怎样才能获得数
浏览 42
提问于2021-10-22
得票数 0
1
回答
spark将日期时间
转换
为时间戳
apache-spark
、
datetime
、
pyspark
、
timestamp
我在
pyspark
dataframe
中有一个
列
,它的格式是2021-10-28T22:19:03.0030059Z (字符串数据
类型
)。如
何在
pyspark
中将其
转换
为时间戳数据
类型
?我正在使用下面的代码片段,但它返回空值,因为它无法
转换
它。有没有人能推荐一下如何
转换
这个?
浏览 173
提问于2021-11-05
得票数 1
1
回答
如何将所有的日期格式
转换
为日期
列
的时间戳?
apache-spark
、
datetime
、
pyspark
、
apache-spark-sql
我使用的是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串
类型
。 ? ? 上面附加的屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将date
列
中
的行值
转换
为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前的格式,但如何
转换
浏览 16
提问于2020-12-30
得票数 2
1
回答
星火
DataFrame
如何区分不同的VectorUDT对象?
apache-spark
、
dataframe
、
pyspark
、
apache-spark-mllib
、
apache-spark-ml
我正在尝试理解
DataFrame
列
类型
。当然,
DataFrame
不是一个物化的对象,它只是一组Spark的指令,将来要
转换
成代码。但我认为,这个
类型
列表代表了在执行操作时JVM
中
可能出现的对象
类型
。()root |-- SparseVector'> De
浏览 1
提问于2016-07-31
得票数 7
回答已采纳
1
回答
将向量
列
添加到吡咯
DataFrame
中
apache-spark
、
dataframe
、
pyspark
、
apache-spark-ml
如何将Vectors.dense
列
添加到
pyspark
中
?import pandas as pdfrom
pyspark
.sql import SQLContext py_df = pd.
DataFrame
.from_dict({"time": [59., 115., 156., 421.], &qu
浏览 1
提问于2018-04-14
得票数 1
回答已采纳
1
回答
将字符串时间
转换
为日时间戳
pyspark
、
pyspark-sql
我刚刚开始为
Pyspark
工作,需要一些帮助来
转换
列
数据
类型
。我的
dataframe
有一个string
列
,它将一天
中
的时间存储在AM/PM
中
,我需要将它
转换
为datetime以进行进一步的处理/分析。spark.createDataFrame([(['0143A'])], ['dt'])| dt||0143A| +
浏览 1
提问于2019-06-17
得票数 1
回答已采纳
1
回答
pyspark
:从map
类型
的
列
中
选择
带有特殊字符的
列
python
、
dataframe
、
pyspark
、
pyspark-sql
在从
dataframe
中
选择
一些
列
的查询
中
,我有一个
列
类型
: map,它有多个属性。我试图从该
列
中
只
选择
几个属性,但这向我返回了一个错误,因为一些属性包含特殊字符,
如
'-‘,该
列
的其他属性工作正常sqlContext.sql("select colA, colB.attribute1from schema.table") 但是,如果我
选择
了一
浏览 0
提问于2018-08-29
得票数 1
5
回答
火花放电中柱的比较
python
、
apache-spark
、
pyspark
我正在开发一个包含n
列
的
PySpark
DataFrame
。我有一组m
列
(m < n),我的任务是
选择
其中包含最大值的
列
。例如:col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,在
PySpark
中
是否存在这样的方法,或者我是否应该将
PySpark
d
浏览 7
提问于2016-06-07
得票数 29
回答已采纳
1
回答
如何重命名所有
列
,在
pyspark
中
创建
dataframe
之后,如何根据模式/从csv文件
中
读取数据
类型
来
转换
数据
类型
python
、
pyspark
在
pyspark
中
创建示例数据 from
pyspark
.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0TypeError:字段col4: Dat
浏览 1
提问于2020-05-04
得票数 0
回答已采纳
2
回答
从拼图自动推断模式/有
选择
地将字符串
转换
为浮点型
apache-spark
、
pyspark
、
parquet
、
pyspark-sql
我有一个包含400+
列
的parquet文件,当我读取它时,附加到许多
列
的默认数据
类型
是字符串(可能是由于其他人指定的模式)。spark.read.parquet, present for spark.read.csvmergeSchema=True #but it doesn't improve the resultsdf_temp.select(*(col(c).cast("float").alias(c) for c in
浏览 0
提问于2018-02-02
得票数 0
1
回答
熊猫火星雨表
pandas
、
pyspark
我有一个对象
类型
<class '
pyspark
.sql.
dataframe
.
DataFrame
'>,我想将它
转换
为Pandas
DataFRame
。但是数据集太大了,我只需要一些
列
,因此我
选择
了我想要的
列
如下:columns= ['X', 'Y', 'Z
浏览 8
提问于2022-03-15
得票数 0
回答已采纳
2
回答
如何创建空的考拉df
python
、
spark-koalas
我正在尝试使用以下命令创建空的考拉
DataFrame
但是我得到了以下错误我也尝试了执行命令,但发现了类似的错误 df = ks.
DataFrame
(columns=['col1
浏览 3
提问于2020-08-24
得票数 0
2
回答
选择
具有更多数据的
列
apache-spark
、
pyspark
、
apache-spark-sql
、
conditional-statements
、
multiple-columns
我必须使用
PySpark
从包含更多数据或值的两个
列
中
选择
一个
列
,并将其保存在
DataFrame
中
。 例如,
列
B有更多的值,因此我将将其保存在DF
中
以进行
转换
。同样,如果A有更多的价值,我也会
选择
A。我认为我们可以使用if else条件来完成这个任务,但是我无法得到正确的逻辑。
浏览 1
提问于2022-10-02
得票数 0
回答已采纳
1
回答
PySpark
-如果条件不满足,什么也不做
python
、
apache-spark
、
pyspark
、
conditional-statements
我拥有的是一个date
列
和
price
列
,这两个
列
都包含数组。如果数组
中
只有一个元素,我只想把它作为一个字符串,否则(如果有多个元素),让它保持原样。所以我的when
和
otherwise永远不会匹配
类型
--一个是字符串,另一个是数组。 有办法解决这个问题吗?
浏览 2
提问于2020-07-08
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
肝了3天,整理了90个Pandas案例
一文读懂 PySpark 数据框
PySaprk之DataFrame
Python开源数据分析工具TOP 3!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券