腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如
何在
spark
(
java
)
中
迭代
数据
集
的
所有
列
、
、
、
我有一个包含许多
列
(实际上是11000
列
,但也可能更多)和大约40000行
的
数据
集
。我尝试做
的
是将UDF应用于
所有
这些
列
(此UDF只是通过用字符替换
列
的
字符串来缩短它们)。我
的
方法工作得很好,但效率确实很低,因为我使用for循环来
迭代
所有
列
。有没有机会使用foreach()函数或类似的函数来并行执行
所有
11000
列</e
浏览 5
提问于2019-08-13
得票数 1
3
回答
是否有方法在UDF
中
添加一个新
列
(在
java
星星之火中)
、
、
我有一个火花
数据
集
的
列
(在
java
中
),我希望这个
列
的
所有
值都成为新
列
的
列名(新
列
可以用一个常量值填充)。: static SparkSession
spark
= SparkSession.builder().appName("
Java
"),有时我得到了正确
的
浏览 1
提问于2019-08-08
得票数 1
回答已采纳
2
回答
用
java
实现
spark
dataframe
中
两
列
的
差异
、
我尝试了以下帖子中提到
的
选项,但在
java
-
中
不起作用 请让我知道如
何在
Java
中使用
Spark
找出
数据
集
两
列
之间
的
差异。
浏览 2
提问于2018-06-14
得票数 1
1
回答
在Apache
Spark
中使用
Java
对
数据
集
的
单个
列
应用函数
、
、
、
假设我有一个
数据
集
: Dataset<Row> sqlDF = this.
spark
.sql("SELECT first_name, last_name, age from persons"; 这将返回一个包含三
列
的
我想要应用一个函数,该函数向age
列
添加5,并返回一个新
数据
集
,该
数据
集
与原始
数据
集
具有相同
的
列
,但
浏览 18
提问于2019-09-22
得票数 0
回答已采纳
1
回答
相似
数据
集
上
的
联合操作
我想对具有相同结构(相同名称和
列
类型)
的
小型
数据
集
执行联合操作,以获得一个大型
数据
集
。如
何在
JAVA
/
SPARK
中
做到这一点?PS :我尝试过使用union(),但是这个方法只接受一个
数据
集
,而不接受我想要
的
数据
集
联合列表。谢谢
浏览 9
提问于2021-04-17
得票数 1
回答已采纳
3
回答
在
Spark
2.0
中
从用逗号分隔
的
字符串行
中
获取不同
的
项
、
、
、
我正在使用
Spark
2.0来分析一个
数据
集
。有一
列
包含如下字符串
数据
:A,BB我希望得到一个包含
列
中
所有
不同项
的
JavaRDD,如下所示:B如
何在
火花中有效地做到这一点?我在
Java
中使用
Spark
,但是Scala示例或指针是有用
的
。 编辑:我尝试过使用flatMap,但是我
的
实现非常慢。
浏览 6
提问于2016-10-13
得票数 2
回答已采纳
1
回答
Java
Spark
删除重复项/空值并保留顺序
、
我有下面的
Java
Spark
数据
集
/dataframe。 Col_1 Col_2 Col_3 ...A 1 1B 2 2C 1 NULL 这个
数据
集中有将近25
列
,我必须删除那些在Col_1上重复
的
记录。如果第二个记录为NULL,则必须删除NULL (
如
COl_1 = A),如果有多个有效值(
如
Col_1 =B
浏览 17
提问于2020-11-25
得票数 0
回答已采纳
1
回答
避免在Apache中使用
Java
数据
结构以避免复制
数据
、
、
我有一个包含大约1亿条记录(~25 100,~5
列
)
的
单表
的
MySQL
数据
库。使用Apache,我通过JDBC连接器提取这些
数据
,并将其存储在DataFrame
中
。我已经在
Spark
的
Java
中
实现了这一点,但是它太慢了(就我
的
目的而言),因为我将大量
数据
从DataFrame复制到
java
.util.Vector和
java
.util.List (
浏览 2
提问于2016-06-02
得票数 0
回答已采纳
1
回答
在UDF如何通过Row?
、
、
我正在用
Java
编写一个UDF。 UDF1<Dataset<Row>,String> myUDF = new UDF1<Dataset<Row>,String>() { }
浏览 0
提问于2018-12-16
得票数 1
1
回答
如
何在
Spark
Java
中将带有值
的
列
添加到新
数据
集中?
、
、
、
、
因此,我从
java
Spark
API创建了一些
数据
集
。这些
数据
集
是使用
spark
.sql()方法从hive表填充
的
。 因此,在执行了一些sql操作(比如joins)之后,我就有了一个最终
的
数据
集
。我想要做
的
是向最终
数据
集中添加一个新
列
,该
数据
集中
的
所有
行
的
值都为"
浏览 1
提问于2017-07-07
得票数 8
回答已采纳
0
回答
spark
如何读取文本格式
的
文件
、
、
、
我有一个文本格式(.gz)
的
S3
数据
集
,我正在使用
spark
.read.csv将文件读入
spark
。对于这种情况,
spark
是扫描整个100 of
的
数据
,还是只智能地过滤这5
列
,而不扫描
所有<
浏览 7
提问于2017-01-05
得票数 0
1
回答
使用
Spark
并行缓存和查询
数据
集
、
、
我有一个需求,我想缓存一个
数据
集
,然后通过在该
数据
集
上并行地触发"N“个查询来计算一些度量,
所有
这些查询都计算类似的度量,只是过滤器会改变,我想并行运行这些查询,因为响应时间非常重要,而且我想要缓存
的
数据
集
总是小于一个GB
的
大小。我知道如
何在
Spark
中
缓存
数据
集
,然后再对其进行查询,但如果必须在同一
数据
集中并行运行查
浏览 1
提问于2017-12-09
得票数 3
回答已采纳
1
回答
火花流|将不同
的
数据
帧并行写入多个表
、
、
、
我正在从Kafka读取
数据
并加载到
数据
仓库
中
,从一个Kafka主题中我正在创建一个
数据
框架,在应用了所需
的
转换之后,我正在从中创建多个DFs并将这些DFs加载到不同
的
表
中
,但这个操作是按顺序进行
的
。| | |-- primary: boolean (nullable = true) 我分别为attribute1Formatted和attribute2Formatted创建了两个不同
的
数据
框,而且这些DFs
浏览 1
提问于2021-07-26
得票数 1
1
回答
Spark
:按键
迭代
数据
集
的
子集(where子句)
、
、
、
、
我在一个
数据
集
(ds_ids)中有一堆I,假设我
的
数据
集
如下所示:13IDprocessMethod
的
方法(按ID) (并行)处理此
数据
集
的
子集,例如: ID | Date
浏览 1
提问于2018-08-01
得票数 0
1
回答
某些
列
的
PySpark更新值
、
、
、
我正在努力找出更新多
列
值
的
最佳方法,但返回整个
数据
集
-星星之火变化迅速,许多答案似乎已经过时。我看到了一个()功能,但这似乎是一种“过时”
的
方法--而且我已经将底层
数据
集
按
列
分开,所以我不认为我应该回到RDD。我
的
问题是:如果是的话,我如何一次将UDF应用于多个
列
?由于我将
迭代
行,所以最好
的
查询设
浏览 1
提问于2017-05-10
得票数 0
回答已采纳
2
回答
如
何在
Spark
Java
中
遍历/
迭代
数据
集
?
、
、
、
、
我正在尝试遍历
数据
集
来执行一些字符串相似度计算,比如Jaro winkler或Cosine相似度。我将我
的
数据
集
转换为行列表,然后使用for语句遍历,这不是一种有效
的
spark
方式。因此,我期待着在
Spark
中有更好
的
方法。").setMaster("local[*]")); Spark
浏览 0
提问于2017-03-13
得票数 7
回答已采纳
1
回答
在
Java
中
尝试在
Spark
Dataset
中
添加
列
时出现null指针异常
、
、
、
我正在尝试
迭代
java
中
的
数据
集
行,然后访问特定
的
列
,以找到作为键存储在JSON文件
中
的
值,并获得它
的
值。找到
的
值需要存储为
所有
行
的
该行
中
的
新
列
值。我看到从JSON文件
中
获得cluster_val不是空
的
,但是当我尝试将它添加为一个
列
时,我
浏览 91
提问于2018-10-09
得票数 0
2
回答
星火
数据
集
在DataFrame上
的
缺点
我知道Dataset (类型安全等)
的
优点,但我找不到任何与火花
数据
集
限制相关
的
文档。 是否有任何特定
的
场景,其中火花Dataset是不推荐
的
和更好地使用DataFrame。目前,我们
所有
的
数据
工程流程都在使用
Spark
DataFrame。对于我们
所有
的新流程,我们都想利用Dataset。因此,了解Dataset
的
所有
局限性/缺点将对我们有所帮助。编辑:--这与不一样,
浏览 4
提问于2019-03-20
得票数 17
3
回答
在Hadoop上使用MapReduce还是
Spark
进行批处理?
、
、
、
我知道MapReduce是一个在Hadoop上进行批处理
的
很好
的
框架。但是,
Spark
也可以用作Hadoop上
的
批处理框架,与MapReduce相比,它提供了可伸缩性、容错性和高性能。那么,我想知道在Hadoop上使用
Spark
作为批处理框架的当前挑战是什么? 有什么想法吗?
浏览 2
提问于2014-10-31
得票数 5
2
回答
激发如
何在
映射中拆分并
迭代
每个元素
我
的
输入
集
如下所示:101,John,CEO,20000,CS如何
迭代
和打印
所有
的值
浏览 2
提问于2016-05-17
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
如何在Excel表格中快速的进行两列数据的互换?
【WPS神技能】如何在WPS-Excel表格中批量查找两列数据的不同?
年薪50万+的大数据工程师需要具备哪些技能?
【WPS神技能】如何在WPS-Excel表格中的两列数据里快速找相同内容?
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券