腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
pyspark
仅
按
特定
功能
分组
、
、
、
、
MAC000002| 0.0| 0| 0| 10|| LCLid|Month|0 | 1 | |MAC000024| 8| 481.7160003000004| 1 |
浏览 20
提问于2020-12-22
得票数 0
回答已采纳
1
回答
pyspark
将事务转换为列表列表
、
、
、
、
我想在
pyspark
中
使用
PrefixSpan序列挖掘。
浏览 1
提问于2017-06-05
得票数 0
1
回答
将文本文件映射到键/值对,以便将它们
分组
、
我希望这样做,以便删除多余的行,并能够在以后按键值对它们进行
分组
。我知道
如何
在熊猫身上做到这一点,但我仍然不知道从哪里开始在火星雨中这样做。我的输入是一个包含以下内容的文本文件: 891011,sara,femal,germany 我希望能够
按
第一列的前六个字符对每一行进行
分组
。
浏览 4
提问于2018-10-29
得票数 3
回答已采纳
2
回答
pyspark
dataframe、groupby和列的方差计算
、
、
、
我想
按
pyspark
数据帧
分组
,并计算
特定
列的方差。对于一般人来说,这很容易,可以这样做AVERAGES=df.groupby('country').agg(func.avg
浏览 7
提问于2015-08-12
得票数 5
1
回答
分组
依据列表中的元素
、
、
我是
PySpark
的新手。我创建了spark dataframe,并且我有一个" countries“列,其中包含国家列表。
如何
通过存在于国家/地区列表中的单个国家/地区来groupBy我的数据帧 +-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
1
回答
PySpark
-聚合还是
按
多个键缩减?
、
我有一个具有以下元组格式的RDD:我只想
按
(a, (b,c))和d进行
分组
,如下所示: 在
pySpark
中
如何
按
多个键
分组
?
浏览 6
提问于2017-12-19
得票数 0
2
回答
pyspark
是否支持窗口函数(例如first、last、lag、lead)?
、
pyspark
是否支持窗口函数(例如first, last, lag, lead)? 例如,
如何
按
一列
分组
并按另一列排序,然后
按
SparkSQL或数据框选择每个组的第一行(这就像窗口函数一样)?我发现
pyspark
.sql.functions类包含聚合函数first和last,但它们不能用于groupBy类。
浏览 2
提问于2015-03-24
得票数 3
1
回答
SSRS报告-子组合计
我希望我的报告
按
某个字段
分组
,然后
按
由几个不同字段确定的
特定
标准
分组
。基本上有一个父组和三个相邻的子组。我的
分组
功能
工作正常,但是我发现很难将总计添加到每个相邻的子组中。当我添加一个合计时,它是对整个数据集范围内的
特定
字段进行合计,而不是
仅
将合计限制到该子组。您可以忽略函数代码字段,这是我用来对父组进行
分组
的字段。资产编号、说明、第一年、
浏览 1
提问于2014-06-17
得票数 0
1
回答
D3叠加条形图中的引用JS数组
、
、
、
我正在
使用
。但是,我想添加html,它显示单条中所有段的值列表(并可能突出显示活动段)。我想
使用
.html,但是我不知道
如何
访问/引用/调用其他段的数据。
浏览 1
提问于2015-07-21
得票数 1
3
回答
按
日期
分组
spark数据帧
、
、
、
.| 312.2|现在,我想
按
小时(或天、月或...)对值进行
分组
(和求和),但我真的不知道
如何
做到这一点。
浏览 0
提问于2016-01-22
得票数 21
回答已采纳
1
回答
用Pandas绘制和处理日期/时间数据
、
、
、
我希望分析数据并按天
分组
*
使用
groupby(),并进一步计算当天的平均值和偏差。我想将几年的平均值和std_deviation数据绘制为散点图或折线图。主要刻度是年或月,次要刻度是天。如果可以,我会尽量不
使用
set_index()作为日期/时间列,这样更容易应用该组。为了方便起见,我
使用
Pandas模块来实现我的整个分析。非常感谢!
浏览 35
提问于2018-10-16
得票数 0
回答已采纳
3
回答
如何
根据
特定
列的通用值的条件选择行?
、
、
、
、
这就是我想用
PySpark
实现的
功能
: 当变量' Z‘的值介于2000和3000之间时,返回该
特定
ID的行,但
仅
返回变量Y和Z的数据。除了下面的查询,我不知道
如何
更进一步,
如何
让SQL知道我们需要在附加的df中选择正确的in (2和3)?
浏览 14
提问于2020-08-07
得票数 0
回答已采纳
2
回答
在没有自定义函数的情况下,
如何
在
PySpark
上将多个数组的交集处理成单个数组?
、
、
--+# | g2| []|有没有办法避免自定义函数(因为它很昂贵),并以某种方式
使用
浏览 16
提问于2021-02-15
得票数 0
回答已采纳
1
回答
如何
仅
按
特定
工作日
分组
?
、
、
我现在要做的是
按
天和小时对其进行
分组
。但我希望将数据帧分为工作日(周一至周五)和周末(周六至周日),并从每个数据帧中获取每小时的值。00:40:00+01:00 0.31 2018-01-07 00:35:00+01:00 0.31 以下是我
使用
的每小时数据作为示例
浏览 14
提问于2021-08-23
得票数 0
1
回答
#1055 - SELECT list的表达式#2不在GROUP子句中,包含非聚合列'osunemonitor.r.entry_date‘。
、
、
、
、
我试图
按
ward_name
分组
,这是我唯一需要
分组
的东西,但是我得到了这个错误: # #1055 - SELECT list的表达式#2不是
按
子句
分组
,而是包含非聚合列'osunemonitor.r.entry_date‘,它在
功能
上不依赖于
按
子句
分组
的列;这与sql_mode=only_full_group_by不兼容。在我的查询中,
如何
使它
仅
按
ward_name
分组
浏览 0
提问于2019-02-09
得票数 1
回答已采纳
1
回答
最常出现的词
、
、
、
、
|text|| eng| cat|| eng| dog|+----+----+我这样做:但我知道我需要在这里
使用
create_map(),但我不太明白
如何
<
浏览 1
提问于2021-11-02
得票数 0
回答已采纳
1
回答
Pyspark
:
如何
填充另一行中的缺失值
、
按
id
分组
后,
如何
替换
pyspark
中的null值?
浏览 5
提问于2017-08-04
得票数 0
回答已采纳
1
回答
特性工程师实时计量学
、
、
、
为了举例说明这一过程,想象4个不同的客户(一些是返回的,一些是新的)从商店购买(如下所示)我正在尝试
使用
Pyspark
将我的代码
按
ID划分,并创建两个特性:平均(在那个时候)购买和总购买。结果如下:我简单地做了一个累积和,从而确定了Total_Purchase_1列,但在我的一生中,我无法得到
仅
使用
该日期的滞后值计算平均值的时间均值(Mean_Purchase_1)点。有没有人有过处理这类
功能
工程任务的经验?我是个大块头,有处理Python中的dplyr,甚至是P
浏览 3
提问于2020-11-02
得票数 0
回答已采纳
1
回答
将事务
分组
到嵌套模式中
、
、
我希望将存储在
pyspark
.sql.dataframe.DataFrame "ddf“中的事务
按
列"key”
分组
,该列指示事务的来源(在本例中为customer )。
分组
是一个非常昂贵的过程,因此我想在嵌套模式中将组写入磁盘:
如何
创建嵌套模式并将其写入磁盘?
浏览 6
提问于2016-05-14
得票数 0
回答已采纳
1
回答
如何
在
PySpark
2.1.0中定义事件时间窗口上的UDAF
、
、
、
、
我们已经
使用
Python库实现了该函数,以利用GPU。from
pyspark
.sql import SparkSession, SQLContextfrom
pyspark
.sql.types import StructType from
pyspark
.sql.functions
浏览 21
提问于2017-03-12
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一个Python大数据处理利器:PySpark入门指南
一文读懂PySpark数据框
PySpark,大数据处理的Python加速器!
一文读懂 PySpark 数据框
pyspark 安装
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券