腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
每行
有
列
插入
列表
的
pyspark
、
、
、
我
有
一个包含一
列
type
的
df,我
有
两个
列表
women = ['0980981', '0987098']df_ = df.withColumn('ne
浏览 9
提问于2019-05-13
得票数 3
回答已采纳
3
回答
计算spark数据帧中
的
字数
、
、
、
如果不使用SQL
的
REPLACE()函数,我们如何才能找到spark数据帧一
列
中
的
字数?下面是我正在使用
的
代码和输入,但replace()函数不起作用。from
pyspark
.sql import SparkSession .builder \ .enableHiveSupport() \ pa
浏览 3
提问于2018-02-22
得票数 10
1
回答
如何删除少于3个字母
的
行?
、
、
我
有
一个
有
很多行
的
pyspark
数据框。
每行
都是一个文本。只有一
列
。我想删除或移除少于3个字母
的
行。例如,在下面的4行中,我想删除第二
列
和第四
列
。
浏览 14
提问于2021-01-20
得票数 0
2
回答
pyspark
dataframe中类似元组
的
数据类型
、
背景 我
有
以下
pyspark
数据帧 +-----+-----++-----+-----+|False|True |+-----+-----+ 我
的
目标 我想创建另一个基于key_1中
的
值
的
列
和key_2
列
,如下所示。-----+|False|True | (2,) |+-----+-
浏览 23
提问于2020-11-06
得票数 0
1
回答
Pyspark
dataframe从函数返回添加
列
、
我
有
一个数据框,我想添加
列
。我想从函数结果中随机地将值分配给新
列
的
行。就像这样。woteva" + str(randint(0,100)) 在结果中,我得到了我
的
第一个随机结果如何获得
每行
的
新结果?
浏览 0
提问于2021-09-24
得票数 1
1
回答
使用
pyspark
统计
每行
数据帧中
的
合计值
、
、
我在数据框中有一
列
,其中每一行都有一个用逗号分隔
的
日期
列表
。我想创建一个名为date_count
的
新
列
,其中包含
每行
的
日期数。我试过使用pandas,但我想在
pyspark
中实现它,而且我也是spark
的
新手。
浏览 8
提问于2019-10-13
得票数 1
回答已采纳
1
回答
从Spark输出数十亿行
、
、
、
、
我正在尝试使用
PySpark
将大约5,000,000行
的
RDD输出为文本文件。这需要很长
的
时间,那么关于如何让.saveAsTextFile()更快有什么建议呢?
每行
有
3
列
,我将保存到HDFS。
浏览 0
提问于2016-05-13
得票数 0
1
回答
将每个二元语法从
列表
格式移动到Pandas或
Pyspark
数据帧中
的
新行
、
、
、
、
我
有
pandas和
pyspark
数据帧,每天
每行
都有二元组
的
列表
。我想打破
列表
,并将每个二元组合移动到一行,计数按降序排列。 如下所示是我拥有的数据帧。我已经按event_dt进行了排序。在“merged”
列
中,显示了二元语法
的
列表
。例如,“漂亮
的
相遇”和“相遇后付费”是两个二元语法。双连词
的
列表
每天都在继续... ? 现在,我想要将每个biagram移动到同一日期
浏览 40
提问于2020-10-23
得票数 0
回答已采纳
2
回答
将
pyspark
dataframe
插入
到现有的分区配置子表中
、
我
有
一个hive表,它是按
插入
时间
列
分区
的
。df.insertInto('tablename',overwrite=True) df.insertInto(
浏览 0
提问于2017-09-16
得票数 1
2
回答
使用python将txt
插入
到sql server
、
、
、
我
有
个txt文件。
每行
有
4个用空格分隔
的
数字。(线例,1243814474 832 23.5380533333333 37.88067)。我想在sql server
的
4
列表
格中分别
插入
每行
的
每一行
的
每一个数字(第1
列
中
的
1243814474,第2
列
中
的
832等)。我给你
的
代码只
插入
该行第一个数字
的</e
浏览 1
提问于2016-06-14
得票数 3
1
回答
两个相同
的
值
、
、
我
有
个很奇怪
的
问题。我读过一个csv文件,其中一些
列
同时具有空值和空值。我试图查找
每行
值相同
的
列
,但最后得到如下结果:df.select(trim(lower(col("
浏览 2
提问于2022-03-17
得票数 0
1
回答
从两个值不同
的
数据帧中获取
列
、
、
、
我
有
两个几乎相同
的
Pyspark
数据帧:相同
的
行数和row_id,相同
的
模式,但
每行
的
某些列上
的
值不同。 我想确定每一行
的
列
是什么。Michael Jordan mj@yahoo.com3 Angela Markle am@dw.com 预期
的
输出是一个字典
列表
浏览 22
提问于2020-03-23
得票数 1
回答已采纳
1
回答
用
列
列表
激发SQL
插入
选择?
当我阅读Spark/Hive文档时,将
插入
到带有
列
列表
的
表中,在Spark2.4和更早版本中不支持。 我
有
一个源表和一个目标表,它们
有
不同
的
列
数和不同
的
列名,我需要复制它们。这是否意味着我必须在
PySpark
中编写此代码以完成此工作,因为Spark将无法完成此任务?output_table(fieldx, fieldy, fieldz) select cola, colb, colc from input_
浏览 1
提问于2019-01-09
得票数 4
回答已采纳
1
回答
列表
中,图像
列
不显示共享用户
的
图像
在我
的
共享点
列表
中,我
有
一个图像
列
,它将pic显示为
每行
的
缩略图,当它悬停时显示一个稍大
的
图像,并在签入时在一个单独
的
选项卡中打开完整
的
图像。问题是,当我在内部共享此
列表
时,用户无法看到该
列
中
插入
的
图像。共享用户拥有“仅查看”权限。
浏览 3
提问于2022-04-06
得票数 0
回答已采纳
1
回答
使用
PySpark
创建一个包含唯一单词
的
列
、
、
我
有
一个Spark dataframe,其中包含一个
列
,其中包含部分行
的
重复单词: id source_value2 NULL4 John 我需要创建一个
列
,其中将排除
每行
中重复
的
单词: id result_value2NULL4 John 使用
PySpark
浏览 17
提问于2021-08-22
得票数 0
回答已采纳
1
回答
动态汇总和重命名
PySpark
中
的
聚合
列
、
、
、
、
我
有
一个
PySpark
数据帧(Df),其中包含50+
列
,其中包含一些动态
列
,这些
列
可能存在也可能不存在,但它们存在于一个单独
的
列表
(Reqd_col)中。我想对
列表
(Reqd_col)中存在
的
PySpark
data frame(df)中
的
那些
列
进行汇总(按固定
列
‘region’分组)和汇总总和或计数,汇总
列
的
名称应与
列
浏览 24
提问于2021-09-08
得票数 0
2
回答
通过JDBC从
pyspark
dataframe
插入
到外部数据库表时
的
重复键更新
、
、
、
、
嗯,我使用
的
是
PySpark
,我
有
一个Spark dataframe,我使用它将数据
插入
到mysql表中。df.write.jdbc(url=url, table="myTable", mode="append") 我希望通过
列
值和特定数字
的
总和来更新
列
值(不
浏览 4
提问于2015-09-16
得票数 12
1
回答
使用
pyspark
从JSON数据生成Hive表
、
、
、
、
我想用json数据创建一个扁平
的
hive表,它来自另一个hive表(放在一个
列
-event_ data中)。下面是json数据结构。我已经使用后视图创建了hive表,但现在我想使用
pyspark
和一些UDF来创建hive表。,"category":"TST","entity":"colleague"},"platform":{"name":"v-generation","id":&q
浏览 0
提问于2020-05-13
得票数 0
2
回答
UDF
的
性能改进-获取
pyspark
中
每行
最小值
的
列名
、
、
、
row.index(min(row))], StringType())获取
每行
最小值
的
列名作为另一个名为'mycol‘
的
列
的
值。
有
什么改进性能
的
建议吗?我使用
的
是
Pyspark
2.3
浏览 0
提问于2020-09-10
得票数 2
1
回答
如何在
pyspark
中解压list类型
的
列
、
、
、
我在
pyspark
中有一个dataframe,df
有
一个数组字符串类型
的
列
,所以我需要生成一个包含
列表
头部
的
新
列
,还需要包含尾
列表
连接
的
其他
列
。这是我
的
原始数据帧:
pyspark
> df.show()| id| lst_col|| 1|[a, b, c,d]| +---+-------
浏览 29
提问于2020-01-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
操作列表1列表的遍历
列表简介2列表元素的修改、添加
Excel – 在每行下面插入数量不等的空行,这个巧妙的技巧一定要学
4种方法,在Word里面的已有表格中插入新的行和列
【行业资讯】CKEditor 5 v22.0.0 发布,URL 插入图像和新的列表样式
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券