腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(3992)
视频
沙龙
1
回答
如
何在
spark
dataframe
API
中
投影
结构
数组
、
) |-- arr: array (nullable = true)但这只适用于选择一个
结构
元素
浏览 4
提问于2018-02-19
得票数 2
1
回答
火花数据到密封特性类型
、
、
我有一些数据存储在与数据模式相匹配的parquet文件和案例类
中
。
Spark
很好地处理常规产品类型,所以如果我有我可以很容易做到但据我所知,星火不处理分离类型所以当我在我的地板上有枚举时,以前编码为整数,而scala表示形式类似case object A extends E我做不到
spark
.read.parquet
浏览 0
提问于2018-06-19
得票数 6
回答已采纳
1
回答
自组织映射在火花上的有效实现
、
、
、
对于一个具有>100个特性的大型数据集,我正在努力实现
Spark
/ Pyspark上SOM批处理算法的性能版本。我有一种感觉,我可以在其中使用RDDs,在其中我可以/必须自己指定Par结晶,也可以使用
Dataframe
,它应该更有表现力,但我看不出在使用dataframes时如何为每个工作人员使用一个本地积累变量通过创建一个UDF将计算并行化,该UDF将观测作为输入,计算对网络的影响,并将影响发送到驱动程序
中
的累加器。(已经实现了这个版本,但看起来相当慢(我认为累加器更新需要很长时间)) “存储结果”将生成一
浏览 0
提问于2019-02-10
得票数 4
回答已采纳
1
回答
在使用PySpark时,如
何在
Spark
中
实现Python数据
结构
?
、
、
、
我目前正在自学
Spark
programming,并试图用PySpark重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark中使用常规Python对象感到困惑。我了解
Spark
中
的分布式数据
结构
,
如
RDD、
DataFrame
、Datasets、vector等。
Spark
有自己的转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在PySpark
中
创建传统的
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
星火‘
结构
化
API
’是什么意思?
、
我不知道星火‘
结构
化
API
’是什么意思。如果你能更具体地告诉我,我将不胜感激。 对不起,我没有完美的英语。(我得到了翻译的帮助。)
浏览 1
提问于2019-06-06
得票数 2
回答已采纳
1
回答
为什么Apache的文档
中
存在"ML“与"MLLIB”的区别?
https://
spark
.apache.org/docs/2.2.0/mllib-feature-extraction.html#word2vec https://
spark
.apache.org/docs这里的"
DataFrame
“是什么?因为文件无法解释这一点。
浏览 0
提问于2018-12-12
得票数 6
回答已采纳
1
回答
对SparkSQL
中
数组
列的每个元素执行UDF (需要另一个火花作业)吗?
、
、
、
、
单元表(tbl_a)的
结构
如下:A | [1,7,13,25168,992]C | nullid | new_id2 | 'ficnw'name | ids A | ['aik
浏览 4
提问于2017-06-01
得票数 1
回答已采纳
2
回答
我们是否应该像在训练之前并行化Seq一样来并行化
DataFrame
、
、
、
、
考虑这里给出的代码, val training = sparkContext.parallelize我们是否应该继续这样做或者,当传递
dataFrame
浏览 0
提问于2016-06-01
得票数 14
回答已采纳
3
回答
斯卡拉星火中的Encoder[Row]
、
、
我试图在
Spark
2.0.0
中
的Dataset[Row] (
DataFrame
)上执行一个简单的映射。
浏览 5
提问于2016-09-30
得票数 2
1
回答
如
何在
snappaydata
中
检索存储的
数组
数据?
、
、
我在snappydata中有样本
数组
数据。使用此查询插入的数据:如何检索这个存储的
数组
数据
浏览 3
提问于2018-07-20
得票数 0
2
回答
Spark
SQL -隐式创建模式与以编程方式创建模式的确切区别
、
我正在尝试理解隐式创建模式和以编程方式创建模式之间的确切区别,以及在什么特定场景
中
可以使用哪种方法。导入行
API
-它将再次映射到Schema字符串中使用的特定列和数据类型(类似于case类) 然后我们创建
DataFrame
&之后一切都是一
浏览 2
提问于2016-01-31
得票数 2
1
回答
我们如何看待同一个函数的不同实现
、
我想了解如
何在
Scala
中
实现相同方法。def createDataFrame(rdd: org.apache.
spark
.
api
.java.JavaRDD[_],beanClass: Class[_]): org.apache.
spark
.sql.
DataFrame
def createDataFrame(rowRDD: org.apache.
spark
.
api
.java.JavaRDD[org.apache.
spark
.sql.Ro
浏览 0
提问于2020-07-19
得票数 0
回答已采纳
5
回答
SparkContext、JavaSparkContext、SQLContext和SparkSession之间的区别是什么?
、
、
、
、
中
的所有函数SQLContext,SparkContext,以及JavaSparkContext也在SparkSession?
浏览 216
提问于2017-05-05
得票数 39
回答已采纳
2
回答
当NullType位于StructType内时,将空值写入
Spark
中
的拼图
、
、
、
我正在将一个集合从MongodB导入到
Spark
。所有文档都有字段'data‘,该字段又是一个
结构
,并具有字段'configurationName’(始终为空)。val partitionDF =
spark
.read.format("com.mongodb.
spark
.sql.DefaultSource").option("database", "db").option("collection", collectionNa
浏览 24
提问于2021-08-11
得票数 1
1
回答
如何将
spark
贴图与.net一起用于
spark
、
、
如何将
spark
贴图与.net一起用于
spark
?就像python
中
的: nums=sc.parallelize([1,2,3,4])val res=input.map(x=>x*x) 但是.net数据帧没有名为map的函数 此文档(https://docs.microsoft.com/en-us/dotnet/
api
/m
浏览 4
提问于2020-07-06
得票数 0
回答已采纳
1
回答
sparksql将
dataframe
转换为json
、
我的要求是将
dataframe
作为输入参数传递给scala类,该类将json格式的数据保存到hdfs。String, parm4: Double, "field4" -> JsNumber(xx.parm4), ) parm5
浏览 0
提问于2016-06-14
得票数 1
回答已采纳
1
回答
spark
.sql()和
spark
.read.format("jdbc").option("query“、"")之间有什么区别?
、
、
、
我假设
spark
.sql(查询)是在使用
spark
.sql时使用的,而
spark
.read.format("jdbc").option("query“、"")则是在使用oracle语法时使用的。
浏览 3
提问于2021-08-16
得票数 3
回答已采纳
3
回答
如何获取Kafka offset,用于
结构
化查询,实现手动、可靠的offset管理?
、
、
、
、
Spark
2.2引入了Kafka的
结构
化流媒体源代码。据我所知,它依靠HDFS检查点目录来存储偏移量,并保证“只传递一次”消息。但旧的docks (
如
)表示,
Spark
Streaming检查点不能跨应用程序或
Spark
升级恢复,因此不太可靠。作为一种解决方案,有一种做法是支持将偏移量存储在支持MySQL或RedshiftDB等事务的外部存储
中
。 如果要将Kafka源的偏移量存储到事务型DB
中
,如何从
结构
化流批处理
中
获取偏移量?RD
浏览 1
提问于2017-09-11
得票数 28
回答已采纳
1
回答
如何确定火花应用程序
中
的最佳线程数?
、
、
在我的Scala/
Spark
应用程序
中
,我试图正确地使用多处理。从下面的代码
中
可以看到,线程数等于storage
数组
中
的元素数。我测试了当前的代码,它可以工作。但是
如
您所见,storage
数组
中
只有两个元素。在我看来,如果
数组
中有大量的元素,就会出现问题。在我的例子
中
,我不知道将来
数组
中会有多少个元素。Main.app: import org.apache.
spark
.s
浏览 3
提问于2020-01-29
得票数 0
2
回答
如何将数据帧
中
的数据存储在变量
中
,以用作cassandra
中
select的参数?
、
、
、
、
我有一个
Spark
结构
的流媒体应用程序。应用程序从kafka接收数据,并且应该使用这些值作为参数来处理来自cassandra数据库的数据。我的问题是,我如何使用输入数据帧(kafka)
中
的数据,作为cassandra
中
的"where“参数"select”,而不会出现以下错误: Exception in thread "main" org.apache.
spark
.sql.AnalysisException: Queries with streaming sour
浏览 25
提问于2021-05-24
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何在Spark中处理结构化流式数据,如日志文件或传感器数据?
什么是Spark SQL,它的作用是什么?
简化TensorFlow和Spark互操作性的问题:LinkedIn开源Spark-TFRecord
Spark之SparkSQL
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券