腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2127)
视频
沙龙
1
回答
迭代
遍历
spark
dataframe
并为
每行
连接
两
列
我正在
迭代
spark
datframe,我想为每一行
连接
两
列
。
浏览 38
提问于2019-09-28
得票数 0
1
回答
scala中的withColumn函数没有将contstant值添加到
列
、
这是我的代码: val df=
spark
.emptyDataFramemodify2.show(false) 它返回一个空的
浏览 50
提问于2021-05-10
得票数 1
1
回答
Pandas创建单独的df
遍历
现有的df行
、
、
23, 4, 5], 'id': [234, 745, 732, 245, 232]}df 我如何
迭代
pandas df中的每一行,并根据
每行
创建一个单独的df?例如,我可以如下所示
遍历
每一行并打印animal
列
,但最终我还是要弄清楚如何
遍历
每一行
并为
每一行创建一个单独的名称,而df名称将
浏览 16
提问于2019-11-01
得票数 0
回答已采纳
1
回答
Spark
access行对象值
、
、
我想按分区
迭代
一个数据帧,
并为
每个分区
迭代
它的所有行,
并为
它们创建一个deleteList,其中将包含
每行
的HBase的delete对象。我在Java中使用
Spark
和HBase,并用以下代码创建了一个Row对象: df.foreachPartition((ForeachPartitionFunction<Row> iterator ->而df有一个名为"hbase_key“的
列
。
浏览 38
提问于2021-10-11
得票数 0
回答已采纳
2
回答
从PySpark
DataFrame
列
中删除元素
我知道PySpark DataFrames是不可变的,所以我想创建一个新
列
,该
列
是根据应用到PySpark
DataFrame
的现有
列
的转换生成的。我的数据太大了,无法使用collect()。我想要生成一个
列
,它
遍历
ints列表
并为
每个循环删除一个元素。要删除的元素将从所有列表中的唯一元素集合中删除,在本例中为[1,2,3]。对于每次
迭代
,我都希望将结果附加到原始的PySpark
DataFrame
中,以运行一些查询,使用这个“过滤”
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
2
回答
遍历
数据表的行。
、
、
、
因为我对Scala有点陌生,所以我发现很难
遍历
Dataframe
。我的
dataframe
包含
两
个
列
,一个是path,另一个是ingestiontime。例子-现在,我想
迭代
这个数据,并使用Path和ingestiontime
列
中的数据来准备一个Hive查询并运行它,这样运行的查询看起来就像- ALTER TABLE <hiveTableName> ADD PARTITON (ingestiontime=<Ingestiontime_From
浏览 2
提问于2020-07-22
得票数 0
回答已采纳
1
回答
星星之火SQL数据集:将多个数组
列
拆分为单个行
、
、
、
我对
Spark
和Dataset /
Dataframe
很陌生。我希望按位置逐行
遍历
数组,
并为
数组中的每一组对应位置条目输出一个新行。您可以从下面的
两
个图表中看到如何。---+-----+| 2|[ccc,ddd]|[3,4]|预期输出数据集 我需要如下所示的输出,将数据
浏览 0
提问于2020-03-17
得票数 1
1
回答
如何在
两
个不同的DataFrames中添加相应的整数值
、
我的代码中有
两
个DataFrames,维数完全相同,假设是1,000,000×50。我需要在
两
个数据文件中添加相应的值。如何实现这一目标。一个选项是添加另一个带有ids的
列
,union和DataFrames,然后使用reduceByKey。但还有其他更优雅的方式吗? 谢谢。
浏览 5
提问于2017-03-09
得票数 0
回答已采纳
1
回答
迭代
的
列
并更新指定的值
、
、
、
为了
迭代
从Hive表创建的
Spark
列
并更新所有所需的
列
值,我尝试了以下代码。import org.apache.
spark
.sql.functions._ val a:
DataFrame
=
spark
.sql(s"select * fro
浏览 0
提问于2018-05-06
得票数 0
回答已采纳
1
回答
Pyspark -在空数据帧上调用时withColumn不工作
、
我为一些需求创建了一个空的
dataframe
,当我在它上面调用withColumn函数时,我得到了
列
,但数据是null,如下所示-df = sqlContext.createDataFrame
浏览 17
提问于2018-07-26
得票数 2
回答已采纳
3
回答
列出pandas数据框
列
中的所有单词
、
我有以下数据帧:我想用"c1“一栏中包含的所有单词
列
一张表生成的列表应如下所示:我以为我可以
迭代
浏览 0
提问于2020-02-25
得票数 0
1
回答
正在将pyspark数据帧写入文本文件
、
我有一个从sql server中的一个表创建的pyspark数据框架,我对它做了一些转换,现在我要将它转换为动态数据框架,以便能够将其保存为s3存储桶中的文本文件。当我将数据帧写入文本文件时,我将向该文件添加另一个头文件。AT_DATE | AMG_INS | MONTHLY_AVG 我想在上面添加另一个头文件,当我保存我的文本文件时,我需要添加另一行,如下所示: AT_DATE,AMG_INS,MONTHL
浏览 0
提问于2021-04-23
得票数 0
1
回答
从一个数据中获取值并将该值传递到SqlContext的循环中
想尝试做这样的事情:val id_list = sqlContext.sql("select distinctid_list.registerTempTable("ID_LIST") id_list
浏览 6
提问于2017-05-16
得票数 0
1
回答
手动
迭代
Spark
SQL数据框并创建
列
值是否效率低下?
、
、
、
为了运行一些ML算法,我需要创建额外的数据
列
。这些
列
中的每一
列
都涉及一些相当密集的计算,包括保持移动平均值,并在您
遍历
每行
时记录信息(并同时更新它)。我已经用一个简单的Python脚本做了一个模拟,并且它可以工作,我现在正打算将它转换成一个可以在更大的数据集上运行的Scala
Spark
脚本。问题是,对于使用
Spark
SQL的这些应用程序似乎是高效的,最好使用内置的语法和操作(类似SQL)。在SQL表达式中编码逻辑似乎是一个非常耗费心思的过程,所以我想知道,如果我只是
浏览 2
提问于2016-06-07
得票数 0
1
回答
避免在Apache中使用Java数据结构以避免复制数据
、
、
我有一个包含大约1亿条记录(~25 100,~5
列
)的单表的MySQL数据库。使用Apache,我通过JDBC
连接
器提取这些数据,并将其存储在
DataFrame
中。从这里开始,我对数据做了一些预处理(例如,替换空值),所以我绝对需要
遍历
每条记录。然后,我想进行维数约简和特征选择(例如使用PCA),进行聚类(例如K-均值),然后对新数据进行模型测试。我已经在
Spark
的Java中实现了这一点,但是它太慢了(就我的目的而言),因为我将大量数据从
DataFrame
复制到java.util.Ve
浏览 2
提问于2016-06-02
得票数 0
回答已采纳
2
回答
遍历
Panda的df
列
以删除str
、
、
、
我不确定如何删除它,并尝试以各种方式
迭代
。如何
遍历
df并替换这些值?我希望它们是空白的,但我正在使用HELLO进行测试。
浏览 34
提问于2021-06-23
得票数 0
17
回答
在Apache
Spark
DataFrame
中
连接
列
、
、
、
如何在Apache
Spark
DataFrame
中
连接
两
列
?
Spark
SQL中有没有我们可以使用的函数?
浏览 7
提问于2015-07-16
得票数 159
1
回答
把熊猫变成火花公子
(left_on=column1, right_on=column2, window=41) 它基本上比较一
列
和另一
列
,
并为
可能相同的
列
生成索引对(记录匹配)。我的代码:df2 =
spark
.read.load(*.csv) func_udf = udf(index.indexer) ????我一直在使用udf进行只涉及一个
datafr
浏览 0
提问于2018-07-25
得票数 0
回答已采纳
2
回答
如何在Pyspark中转换
Dataframe
中的列表列表,每个列表都是每个属性的值?
、
、
、
、
我有一个类型列表:每个列表包含属性'A1‘、'A2’和'A3‘的值。+----------+----------+----------+ +----------+----------+----------+ +
浏览 2
提问于2017-10-23
得票数 5
2
回答
如何合并火花(java)中具有不同模式的
两
个拼花文件
、
、
我有
两
个不同
列
数的拼板文件,并试图将它们与下面的代码片段合并// dataSetParquet1.union(dataSetParquet2);Caused by: org.apache.
spark
.sql.AnalysisException: Cannot reso
浏览 2
提问于2021-08-26
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 5-Pandas DataFrame 常用功能实践
Pandas中高效的“For循环”
数据清洗、合并、转化和重构
使用Python逐行处理DataFrame
我用Rust徒手重写了一个Spark,并把它开源了
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券