腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(663)
视频
沙龙
2
回答
PySpark
RDD
:
将
字符串
映
射到
整数
,
删除
无效
数据
、
、
、
、
我在
PySpark
中有一个名为animalRDD的
RDD
,它的头被
删除
了。标题标题为:animal, animalBreed, nickName, numberLegs。中的每个元素都是一个
字符串
。我想映射
RDD
,这样腿的数量就会变成一个
整数
。我知道我可以使用以下代码将其转换为
整数
: animalRDD.map(lambda x: (x[0], x[1], x[2], int(x[3]))) 但是,
数据
中有
字符串
'XXX‘和
浏览 37
提问于2020-08-28
得票数 0
1
回答
字符串
中的
Pyspark
双字符替换避免未映
射到
pandas或
rdd
的特定单词
、
、
、
、
我继承了一个修改
pyspark
dataframe中一些
字符串
的程序。其中一个步骤涉及从
字符串
中的一些单词中
删除
双/三/等字母,以及一个额外的例外列表,即使它们有重复的字母也会保持不变。目前,这是通过
将
dataframe转换为具有udf的pandas,然后在读回
pyspark
之前对生成的pandas dataframe中的
字符串
应用自定义函数来完成的。不幸的是,对需求的更改意味着代码在任何情况下都不能使用pandas udf或映
射到
浏览 7
提问于2021-03-15
得票数 0
回答已采纳
4
回答
将
RDD
中的空
字符串
替换为空值
、
你好,我想将我的
RDD
的空
字符串
转换为0。 我已经读了20个文件,它们是这样排列的。,1094,N3EDAA,DFW,BOS,1155,1155,0,12,1207,223,206,190,1562,1617,4,1638,1621,-17,0,0,,,,,, 我想用数字0填充这些空
字符串
def import_parse_
rdd
(data):
rdd
= sc.textFile(data) # remove the headerheade
浏览 76
提问于2021-09-09
得票数 1
1
回答
如何在
pyspark
中将
字符串
的
RDD
映
射到
Dataframe的列
、
我有一个
字符串
的
RDD
,它存储
数据
帧的列名。我想将这个
RDD
的每个值映
射到
它引用的列的计数。File "<stdin>", line 1, in <module>File "&
浏览 7
提问于2016-08-16
得票数 0
1
回答
火花HashPartitioner碰撞机制?
、
也就是说,如果我有非常不正确的
数据
,其中一个键保存了许多记录,并且 我将在内存无法保存的同一个分区中放置许多记录。在这种情况下,HashPartitioner是否有类似于探测的东西
将
记录分配给新分区,或者没有?如果没有,我是否需要实现一个自定义的分区器来处理倾斜的密钥?非常感谢。
浏览 2
提问于2019-10-31
得票数 0
2
回答
如何在spark中将二进制文件转换为
rdd
?
、
我正在尝试
将
seg-Y类型的文件加载到spark中,并将它们传输到
rdd
中以进行mapreduce操作。但我没能把它们转换成
rdd
。有谁能提供帮助吗?
浏览 0
提问于2015-09-16
得票数 2
4
回答
如果用户if是
字符串
而不是连续
整数
,如何使用mllib.recommendation?
、
、
但是,我所拥有的用户
数据
的格式是以下格式:CD234WZ12345GH456XY98765 ....如果我想使用mllib.recommendation库,根据Rating类的API,用户I必须是
整数
(也必须是连续的?)
浏览 12
提问于2015-01-05
得票数 13
回答已采纳
1
回答
分区上的星火
数据
格式withColumn
、
、
、
dataframe中的列"colA“包含
整数
值:| colA|| 1|| 1|+-----++----+------++----+------+| 2| b|+----+------+ 我需要创建一个新列"colB“,它将包含"colA”到
字符串</em
浏览 0
提问于2018-02-05
得票数 1
回答已采纳
5
回答
更新spark中的dataframe列
、
、
、
、
如何更改
数据
文件的行x列y中的值?在pandas中,这将是:编辑:合并下面所说的内容,您不能修改现有的
数据
格式,因为它是不可变的,但是您可以返回一个新的
数据
格式,并进行所需的修改。如果只想根据条件替换列中的值,如np.wheredf = df.withColumn('new_co
浏览 12
提问于2015-03-17
得票数 95
回答已采纳
1
回答
Tkinter小部件验证问题-再次
、
、
关于我已经回答过的问题,我仍然想不出如何解决验证问题,这样它在任何情况下都不会中断。目前,它在很大程度上运行良好,除非您选择了值,然后键入一些输入。有什么想法吗? from Tkinter import * from tkinter import * def __init__(self):
浏览 0
提问于2015-08-24
得票数 1
回答已采纳
1
回答
RDD
中的行对象
、
、
我尝试为每个
RDD
删除
标题行,并将每个逗号分隔的行解析为一个row对象,每个列都遵循jupyter notebook单元格中给定的
数据
类型。请将某些列转换为首选格式。应转换为
整数
的列:‘年’、‘月’、‘日’、‘日_周’、‘航班编号’。应转换为float
数据
类型的列:'DEPARTURE_DELAY‘、’into _DELAY‘、'ELAPSED_TIME’、'AIR_TIME‘、'DISTANCE’、'TAXI_IN‘和'TAXI_OUT而其余的
浏览 19
提问于2021-09-09
得票数 2
回答已采纳
1
回答
pyspark
线性回归模型给出错误此列名必须是数字类型,但实际上是
字符串
类型
、
、
true)IMP:注意,我尝试使用DenseVector数组中的其他变量,但它抛出了一个很长的错误,比如float()的
无效
文字
rdd
=
rdd
.map(converter) /usr/local/spark/python/
pyspark
/sql/session.pyc in _inferSchema(self,
rdd
, samplingRa
浏览 3
提问于2018-03-08
得票数 1
1
回答
不同的SQL语句和
pyspark
的不同方法之间的不同输出
、
、
、
、
我想做一些正则表达式的清理(
删除
标点符号、空格、数字、重音和一些问题),然后应用一些近似的
字符串
匹配算法,比如TF或BM25,但这是另一个问题。这是我的前五行(包括标题)。但是使用下面的代码,我
将
每个
字符串
拆分为一个由四个元素组成的列表。my_
rdd
_splitted = my_
rdd
.map(lambda x: x.split(',')).cache() [['cuit_impor
浏览 3
提问于2021-05-31
得票数 0
1
回答
在
pySpark
中,如何有效地替换
字符串
数据
帧中多个正则表达式模式的所有实例?
、
、
、
我在Hadoop中有一个表,其中包含70亿个
字符串
,这些
字符串
本身可以包含任何内容。我需要从包含
字符串
的列中
删除
每个名称。一个示例
字符串
是“John to to the park”,我需要将“John”从其中
删除
,理想情况下只需替换为“name”即可。我已经在
数据
库中尝试过了,但是由于不能更新列或迭代变量,所以使用Python和
PySpark
似乎是最好的选择,特别是考虑到计算的数量(20k名称* 7bil输入
字符串
) #nameLis
浏览 23
提问于2019-05-30
得票数 0
7
回答
Pyspark
:解析一列json
字符串
、
、
、
我有一个由一个名为json的列组成的
pyspark
,其中每一行都是一个json的unicode
字符串
。我想解析每一行并返回一个新的dataframe,其中每一行都是解析的json。([Row(json=jstr1),Row(json=jstr2),Row(json=jstr3)])(df .
rdd
时,模式信息会丢失,所以我也尝试手动输入模式信息: schema = StructType([StructField('json&
浏览 25
提问于2016-12-12
得票数 56
回答已采纳
1
回答
模糊匹配火花放电
数据
字符串
中的一个单词
、
、
、
、
我有一些
数据
,其中列“X”包含
字符串
。我正在编写一个函数,其中传递一个search_word,并且在列'X‘
字符串
中不包含子
字符串
search_word的所有行都被过滤掉。我已经
将
数据
加载到
pyspark
中,并使用NLTK和fuzzywuzzy库编写了一个函数,如果
字符串
包含search_word,则返回True或False。我的问题是,我不能正确地
将
函数映
射到
dataframe。我是不是不正确地处理这个问
浏览 8
提问于2018-01-03
得票数 6
4
回答
Apache Spark的主键
、
、
、
我有一个与Apache Spark和PostgreSQL的JDBC连接,我想将一些
数据
插入到我的
数据
库中。当我使用append模式时,我需要为每个DataFrame.Row指定id。
浏览 2
提问于2015-10-13
得票数 33
回答已采纳
1
回答
pyspark
后缀替换避免某些词而不映
射到
熊猫或
rdd
、
、
、
、
我继承了一个程序,它修改了中的一些
字符串
。其中一个步骤涉及从
字符串
中的一些单词中移除后缀,另外还有一个异常列表,即使它们有后缀,也会单独保留。目前,这是通过使用udf
将
dataframe转换成熊猫,然后在读取回
pyspark
之前,将自定义函数应用到生成的熊猫
数据
文件中的
字符串
中。不幸的是,对需求的更改意味着代码在任何情况下都不能使用熊猫udf或映
射到
rdd
。我需要在火星雨中直接执行同样的功能。下面是一个MWE目前的实现,之后的火花放电
数据</e
浏览 2
提问于2021-03-13
得票数 0
回答已采纳
3
回答
优化火花放电中的行访问和转换
、
、
、
、
我有一个大型
数据
集(5GB),其格式是S3桶中的jason。我需要转换
数据
的模式,并使用ETL脚本
将
转换后的
数据
写回S3。#df is the
pyspark
dataframeprint(columns) s3 = boto3.resource('s3
浏览 3
提问于2020-05-30
得票数 1
回答已采纳
1
回答
删除
PySpark
数据
帧中具有
无效
多边形值的行?
、
、
、
、
我们在
数据
帧上使用
PySpark
函数,这会引发错误。错误很可能是由于
数据
帧中的错误行造成的。true)|-- polygon: geometry (nullable = false)df.show() java.lang.IllegalArgumentException: LinearRing点不形成闭行
字符串
为了精确定位这些行,我们希望迭
浏览 14
提问于2022-10-18
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
Spark计算详解
python编程:从入门到实践学习笔记-安装、变量和简单数据类型
一个Python大数据处理利器:PySpark入门指南
InnoSetup的Registry段
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券