腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
向
RDD
添加
字段
/
从
RDD
选择
字段
、
、
我有一个
RDD
,假设dataRdd有像timestamp,url这样的
字段
...var fewfieldsRDD= dataRdd.map(r=> ( "timestamp" -> r.timestamp我如何创建一个新的
Rdd
,
字段
名映射到另一个
Rdd</e
浏览 11
提问于2016-09-28
得票数 0
回答已采纳
1
回答
向
RDD
添加
新成员
、
我正在尝试
向
RDD
.scala类
添加
新的成员变量,然后在从工作节点(执行器)访问
rdd
时访问这些变量。在 answer中,其中一位spark贡献者提到,在executors中只能调用
RDD
的某些方法。所以,我想知道如何
向
RDD
.scala
添加
新的成员
字段
,以便可以在executor中访问它?
浏览 1
提问于2015-04-27
得票数 2
1
回答
从
Spark
RDD
中
选择
字段
、
我有一个相当大的
RDD
,有400个
字段
来自Kafka spark流,我需要创建另一个
RDD
或Map,当我转换流时,
从
初始
RDD
流中
选择
一些
字段
,并最终编写Elasticsearch。我知道我的
字段
的
字段
名称,但不知道
字段
索引。 如何按
字段
名称将特定
字段
投影到新Map?
浏览 3
提问于2016-03-25
得票数 1
2
回答
将名称设置为
RDD
的优点
、
有一些API可用于为
RDD
分配名称。val y = sc.parallelize(List(1,2,3))它的优点是什么?
浏览 7
提问于2016-03-17
得票数 6
回答已采纳
1
回答
如何通过在dataset中
添加
字段
并将
字段
作为表达式插入textbox中来修改现有的Epicor SSRS报表
、
我想修改现有的包装单SSRS报告,
添加
一个新的
字段
,以显示TNR号码。当我将该
字段
包括在dataset中并试图
添加
表达式并保存它时,它将显示一个错误:
字段
不能用于查询参数表达式。
浏览 4
提问于2019-04-28
得票数 0
1
回答
Pyspark: json对象中的
rdd
、
/hw2-files-10mb.txt')1)如何通过
rdd
方式
选择
用户中的'id_str‘? 我尝试了将
rdd
映射到返回field_list = 'user.id_str‘的函数,但它不起作用。SYSTEM RIGGED CLASS WAR"}
浏览 0
提问于2018-10-03
得票数 1
1
回答
有条件地加入和映射2 RDDs
、
、
我有两个需要加入的RDDs其中v_id是唯一的idg_id, p_id, timestamp=t1val
rdd
2 =
RDD
[(g_id, inputObject2)]p_id, timestamp=t2, e_idval resuldR
浏览 3
提问于2017-03-07
得票数 1
2
回答
_.split(“") scala中的更多
字段
、
我试图将数据
从
RDD
[string]中提取到另一个
RDD
[string]中17.808 15.749 6.649 -0.548 15.9994ansRDD = rawRDD(._split(" ")(4)).(_.toFloat) rawRDD包含字符串。但我需要将这两个
字段
提取
浏览 0
提问于2015-12-03
得票数 1
回答已采纳
3
回答
星火上下文不能序列化吗?
、
、
、
、
下面是相关的代码块:所以基本上,我的问题变成这样: 我有一个叫
RDD
的events。这是整个HBase表。注意:每个event都由一个performerId执行,这个
字段
又是event中的一个
字段
,即event.performerId。
浏览 7
提问于2016-09-22
得票数 0
回答已采纳
1
回答
如何
从
RDD
中的键中删除双引号并将JSON拆分为两行?
、
、
、
、
我需要修改数据以输入CEP系统,我的当前数据如下所示Check = { var = "system-ready",value = 0.0, objectID = "2018", partnumber = 2 } 我必须编写
RDD</
浏览 0
提问于2018-03-26
得票数 2
回答已采纳
2
回答
Scala -
从
外部
向
类
添加
成员变量
是否可以
从
类外部
向
类
添加
成员变量?(或者模仿这种行为?)有办法获得这种功能吗?这样做不对吗?implicit def toExtendedRDDFunctions(
rdd
:
RDD
[Map[
浏览 3
提问于2015-07-07
得票数 0
回答已采纳
1
回答
在使用模式创建数据框架时出现了StructType中的错误
、
我想做以下几点: T.StructField("AA", T.LongType(), True),]), True) T.StructField("B", subschema, True),]) d = [Row(
浏览 1
提问于2021-02-03
得票数 2
回答已采纳
1
回答
Spark JSON文本
字段
到
RDD
、
、
、
我有一个cassandra表,其中包含一个名为snapshot的文本类型
字段
,其中包含JSON对象:我知道,为了能够使用Spark对该
字段
进行转换,我需要将该
RDD
的
字段
转换为另一个
RDD
,以便对JSON模式进行转换。编辑:目前,我设法
从
单个文本
字段
创建了一个
RDD
: val conf = new SparkConf().setAppName("signal-aggrega
浏览 1
提问于2015-05-04
得票数 8
回答已采纳
1
回答
从
RDD
中的2个值中
添加
一个新的计算列
、
、
、
我有两个配对的RDDs,我使用相同的键将它们连接在一起,现在我想
添加
一个新的计算列,使用来自values部分的2列。新加入的
RDD
类型是:我想将另一个
字段
添加
到新的
RDD
中,它显示了两个DateTime
字段
之间的增量。
浏览 4
提问于2015-04-14
得票数 1
回答已采纳
3
回答
理解火花的缓存
在上面,
rdd
1将只
从
磁盘(例如HDFS)加载一次。(当保存
rdd
2时,我假设),然后从缓存(假设有足够的内存)保存
rdd
3 )基本上是重复的,不是吗?因为一旦计算了
rdd
2和
rdd
3,我就不再需要
rdd
1了,我可能应该取消它,对吗?(...) val
rdd
3 =
rdd
1
浏览 2
提问于2015-04-27
得票数 47
回答已采纳
1
回答
如何删除
RDD
中的所有记录,包括null?
、
、
、
我
从
csv文件中加载了一个
RDD
。但是,此文件包含无效数据。所以,当我试图输出这个
RDD
与first的联系时。例外是 当一个记录包含空字符串时,我希望找到删除
RDD
中所有记录的解决方案。此外,这个
RDD
包含这么多
字段
,因此很难逐一处理每个
字段
。我记得DataFrame有这样的函数,比如。我需要这类函数可以用于
RDD
。= sc.textFile("
浏览 3
提问于2017-10-13
得票数 0
回答已采纳
1
回答
Apache如何
从
两个
RDD
中获取不匹配的行
、
我有两个不同的
RDD
,每个
RDD
都有一些公共
字段
,基于这些
字段
,我希望
从
RDD
1或
RDD
2获取不匹配的记录。记录在
RDD
1中可用,但在
RDD
2中不可用alex,34,cricket,usa更新: 目前,我正在使用Spark
从
浏览 2
提问于2015-07-01
得票数 0
回答已采纳
1
回答
PySpark:使用有1000个
字段
但列数可变的模式创建
RDD
->DF->Parquet
、
、
、
、
我正在尝试读取一个ElasticSearch索引,该索引有数百万个文档,每个文档都有可变数量的
字段
。我有一个模式,它有1000个
字段
,每个
字段
都有自己的名称和类型。现在,当我创建一个
RDD
低谷ES-Hadoop连接器,然后通过指定模式转换为DataFrame时,它失败了- 我有几个问题。1.是否可能有一个包含可变
字段
数的
RDD
/DF?如果不是,除了为每个列中缺少的
字段
添加
空值之外,还有什么其他
选择
浏览 0
提问于2019-03-11
得票数 2
1
回答
scala.collection.immutable.List$SerializationProxy的java.lang.ClassCastException:无法分配实例
我
从
Spring java应用程序处理csv文件来触发清理。 获取序列化异常。由: scala.collection.immutable.List$SerializationProxy :无法将org.apache.spark.
rdd
.
RDD
.org$apache$spark$
rdd
$
RDD
$$dependencies_实例分配给java.io.ObjectStreamClass$FieldReflector.setObjFieldValues(ObjectStream
浏览 0
提问于2019-05-07
得票数 2
1
回答
如何在星火数据集上使用组
、
、
我正在使用星火数据集(星火1.6.1版本)。下面是我的代码.setMaster("local")sc.setLogLevel("ERROR")import sqlContext.implicits._ override def readDataTable(table
浏览 2
提问于2016-06-14
得票数 5
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL DataFrame与RDD交互
大数据有道之spark选择去重
遇见YI算法之初识Pyspark(二)
大数据有道之spark筛选去重
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券