腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如
何在
spark
中用
scala
计算
两个
数据
帧
的
值
、
我有
两个
数据
帧
,
两个
数据
帧
的
计数相同,我想得到
两个
数据
帧
中每个
值
的
和,这是输入:|df1| |df2|| 18| | 8|| 20| | 10|这是我<e
浏览 0
提问于2017-07-07
得票数 1
3
回答
字符串列包含通过
spark
scala
进行精确匹配
的
单词
、
、
我有
两个
数据
帧
,第一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含一个具有多个关键字
的
列。即下面的Dataframe-1外观相似(我们必须搜索
的
地方):
数据
帧
-2:我想要
的
输出:我在这里使用
spark
scala
。我想要一个与dataframe-1中
的
datafr
浏览 1
提问于2021-02-12
得票数 0
3
回答
如何比较SQL语句中两种
数据
的
模式?
、
、
在
spark
(
如
)中,有许多方法来验证
两个
数据
帧
的
架构。但是我只想在SQL中验证
两个
数据
帧
的
模式,我指的是SparkSQL。中没有
数据
库(模式)
的
概念,但是我读到了包含模式信息等
的
亚稳态。我们可以在SparkSQL中编写像上面这样
的
SQL查询吗?我只是在检查为什么显示create没有使用
spark
,是因为它是一个临
浏览 6
提问于2018-09-04
得票数 1
1
回答
如
何在
spark
中使用pandas split-apply-combine风格策略和
scala
api?
、
、
、
我有一个
scala
函数,它接受一个
spark
dataframe并返回一个单
值
,也就是说
两个
值
。这个函数很复杂,使用在DataFrame类中定义
的
聚合,调用其他java库,并且不能用SQL表达。它需要整个
数据
帧
的
内容来进行
计算
,它不能一次添加一行并建立一个结果。 我有一个大
的
dataframe,其中包含一个列,我想用它将dataframe分成小块,并对每个小块执行上述
计算
。然后,我
浏览 28
提问于2020-04-22
得票数 0
1
回答
spark
-cassandra-connector -从Dataframe创建表格- StructType?
、
、
我正试着从
Spark
数据
帧
中写给Cassandra。当我有一个简单
的
数据
帧
模式时,
如
示例中所示,它可以工作: |-- id: string (nullable = true)但是,当我尝试编写包含StructTypes
的
数据
帧
时,其模式如下: |-- crawl: struct (nullable = true) |
浏览 4
提问于2016-06-27
得票数 1
1
回答
df.select()和df.agg()有什么区别?
、
、
、
我有一个
数据
帧
,我想从其中提取最大
值
、最小
值
并
计算
其中
的
记录数。
数据
帧
是:df: org.apache.
spark
.sql.Dataset[Long] = [id: bigint]
scala
> df.
浏览 3
提问于2017-06-19
得票数 1
回答已采纳
1
回答
如
何在
spark
中对
scala
中
的
Long和BigInt进行数学运算
、
、
、
我有
两个
不同类型
的
值
,如下所示ageSum: org.apache.
spark
.sql.DataFrame = [sum(age): bigint]
scala
> totalEntries第一个
值
来自
数据</em
浏览 7
提问于2017-01-26
得票数 0
回答已采纳
1
回答
如
何在
scala
中访问和合并未来类型
的
多个DataFrame
、
、
、
、
我有
spark
scala
应用程序。我正在尝试使用它内部
的
Futures来并行化几个独立
的
操作集。我在期货中调用它们,它们返回给我未来类型
的
DataFrame,我如
何在
最后合并它们,并在任何未来类型无法
计算
的
情况下抛出错误。下面是我
的
代码。当我尝试在onComplete块中应用
数据
帧
的
联合时,它显示以下错误 value union is not a member of
sc
浏览 2
提问于2020-01-22
得票数 0
1
回答
DataFrame na()填充方法和不明确引用
的
问题
、
我使用
的
是
Spark
1.3.1,其中连接
两个
数据
帧
会重复连接
的
列。我在外部连接
两个
数据
帧
,希望将结果
数据
帧
发送到na().fill()方法,以便根据列
的
数据
类型将空
值
转换为已知
值
。我有涉及多个列
的
连接。我是否只需要确保存在一组惟一
的
列名,而不管我应用na().fill()方法
的</e
浏览 4
提问于2016-02-28
得票数 3
1
回答
将1列中
的
空
值
替换为另一列中
的
数据
、
我正在尝试用可能在count_2列中
的
数据
替换count_1列中
的
所有空
数据
。下面是给定输入
的
预期输出。我如
何在
Spark
Scala
中做到这一点?输入
数据
帧
name count_1 count_2Python null 20000R nullnull Swift 50000 65000
浏览 23
提问于2021-09-05
得票数 1
回答已采纳
1
回答
Spark
在RDD中查找字段
的
重复记录
、
、
我有如下
数据
集: 10,"Name",2016,"Country“11,"Name1",2016,"country1”10,"Name",2016,"Country“10,"Name",2016,"Country”12,"Name2",2017,"Country2“ 我
的
问题陈述是,我必须按年查找总计数和重复计数。我
的
结果应该是(年份,总记录,重复) 2016,4,3 2017,1,0。._1
浏览 15
提问于2016-08-03
得票数 0
1
回答
如何访问
scala
中火花
数据
的
列索引以进行
计算
、
我是
Scala
编程新手,我对R做过大量
的
工作,但是在
scala
工作时,很难在循环中提取特定
的
列来执行列
值
的
计算
。让我用一个例子来解释:上面是引用列
的
计算
,所以在
计算
之后,我们将得到下面的
spark
数据
浏览 1
提问于2018-05-09
得票数 0
回答已采纳
2
回答
我如
何在
spark
scala
中创建日期范围
的
存储箱?
、
我是一名Python开发人员,正在尝试学习
Spark
Scala
。我
的
任务是创建日期范围框,并
计算
每个框(直方图)中出现
的
频率。我
的
输入
数据
帧
如下所示我
的
bin边是这样
的
(在Python中):我要查找
的
输出dataframe是
浏览 2
提问于2020-09-02
得票数 0
1
回答
如
何在
Apache
Spark
中检查一列
的
值
是否在另一列
的
数组中?
、
、
我有一个
数据
帧
,看起来像这样| col1| col2|| blue |[blue, purple] |+------+--------------------+ 我如
何在
Apache
Spark
中使用
scala
来判断col1中
的
值
是否在c
浏览 19
提问于2021-06-02
得票数 1
9
回答
Apache中
的
DataFrame等式
、
、
、
、
假设df1和df2是Apache中
的
两个
DataFrame,使用两种不同
的
机制
计算
,例如
Spark
与
Scala
/Java/Python。是否有一种惯用
的
方法来确定这
两个
数据
帧
是否是等价
的
(相等
的
、同构
的
),其中等价性是由
数据
(每一行
的
列名和列
值
)是相同
的
(行和列
的<
浏览 7
提问于2015-07-03
得票数 61
回答已采纳
3
回答
PySpark
数据
帧
性能调整
、
我正在尝试合并一些脚本;让我们只读一次DB,而不是每个脚本从Hive读取相同
的
数据
。因此,转移到只读一次;处理多个模型。我持久化了
数据
帧
并在每次聚合后重新划分输出;但我需要它更快,如果有什么不同的话,那就是这些东西减慢了它
的
速度。我们每天都有20TB+
的
数据
,所以我认为如果
数据
要被多次读取,那么持久化
数据
会让事情变得更快,但事实并非如此。 此外,我有很多工作发生在相同
的
数据
,如下图所示。我们可以并行
浏览 0
提问于2020-04-23
得票数 0
3
回答
如何使用createDataFrame创建pyspark
数据
帧
?
我知道这可能是一个愚蠢
的
问题。
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
3
回答
使用
Scala
的
星火2.0时间戳差(毫秒)
、
、
、
、
我正在使用
Spark
2.0,并在
Scala
中寻找一种实现以下功能
的
方法:Value_2 = 06/13/2017 16:44:21.067 两者
的
数据
类型都是时间戳。注意:对
值
和减法都应用函数unix_timestamp(列s),但不能达到所需<em
浏览 0
提问于2017-10-03
得票数 9
1
回答
N列m行
的
动态
数据
帧
、
从json(动态模式)读取
数据
,并将其加载到dataframe。示例
数据
帧
:import
spark
.implicits._ (1, "ABC")ABC|| 3| GHIJ|要求:列数和名称可以是任何
值
。需要在后续流程中处理该<em
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
3
回答
如
何在
pyspark中找到
数据
帧
的
大小
、
如何复制此代码以获取pyspark中
的
数据
帧
大小?
scala
> val df =
spark
.range(10)Statistics(sizeInBytes=80.0 B, hints=none) 我想要做
的
是将sizeInBytes
值
放入
浏览 0
提问于2020-06-03
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
2018年数据科学前15名的Scala库
GitHub标星2400,Netflix开源笔记本工具Polynote
Spark机器学习模块开发环境部署与实例
如何进行大数据学习,有什么学习思路呢?
Spark实战(5)_Spark Core核心编程
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券