如何在pyspark中创建中位数、平均值和标准差的新列？

文章/答案/技术大牛

发布

1回答

在Python中添加平均值、中位数和标准差值作为新数组列

python、pandas

我尝试找出平均值、中位数和标准差，并将它们作为新列添加到以下数组中的每个索引值： import pandas as pdsalesDictsales.drop(['Samsung Galaxy S10', 'iPhone X', 'Google Pixel 4'], axis=1, inplace=True

浏览 63提问于2021-02-25得票数 0

回答已采纳

1回答

python、apache-spark、pyspark、statistics

我有一个pyspark数据帧，如下所示： +-----------+------------++-----------+------------19| 4|| 2017-12-20| 1| +-----------+------------+ 我想为列count的中位数、平均值和标准差创建新</

浏览 15提问于2021-05-05得票数 1

回答已采纳

1回答

如何从大量数据中提取特定行集以查找统计操作。每一组在两边都加1？

python、python-3.x、pandas、statistics

我想从大型数据集(.mat)中找到一些统计操作，如平均值、中位数、标准差和方差。假设它包含1000*1。在这里，我想找出每10行的平均值和中位数等，并将其保存在新的列中。同样，中位数、标准差等这些值保存在col1(均值)、col2(中位数)、col3(方差)和col4(标准差</em

浏览 40提问于2018-06-11得票数 -1

回答已采纳

1回答

绘制R中的偏态正态分布

r、math、plot

如何在给定病例数、平均值、标准差、中位数和的情况下绘制R中的偏态正态分布。对于这个问题，我能找到的最好的答案是来自，并推荐使用包。然而，我不

浏览 1提问于2014-11-07得票数 0

2回答

我创建了这个函数来计算平均值、中位数和标准偏差： f1<- function(x) c(mean= round(mean(x),2), median= round(median(x),2), sd=round(sd(x),2)) 我想将它用于多个列(列名: domain 1，domain2，domain3，total) 我想知道如何使用函数，您能推荐一种比使用函数更好的方法来表示均值、中位数和标准差吗

浏览 46提问于2021-03-28得票数 0

回答已采纳

4回答

如何在星火DataFrame中计算逐行中值

apache-spark、pyspark、apache-spark-sql

我有以下格式的星火数据帧。spark.createDataFrame([(1, 2, 3), (1, 4, 100), (20, 30, 50)],['a', 'b', 'c'])输入：我想添加一个新列“中位数”作为'a'，'b'，'c‘列的中位数。如何在PySpark中做到

浏览 1提问于2019-01-15得票数 3

回答已采纳

2回答

循环和创建新列

r、loops、mean

假设我的数据框架中有一些列，这些列来自一组类似的因素：我想要的是使用这些数据创建额外的列所以： B1_Mean --这应该是以B1开头的列

浏览 1提问于2018-03-26得票数 0

2回答

Pyspark -使用dataframe中其他两个列的RMSE创建新列

python、pyspark

我对Pyspark还是个新手。我有一个数据框架，我想用col1和col2之间的均方根计算创建第三列。我使用了一个用户定义的lambda函数来计算均方根值，但是一直收到这个错误AttributeError: 'int' object has no attribute 'mean' from pyspark.sql.functionsimport udf,col from pyspark.sql.types impo

浏览 39提问于2020-04-11得票数 0

回答已采纳

2回答

如何将大熊猫的均值和标准差列合并成一个单栏

python、python-3.x、pandas、dataframe

我有一个熊猫数据框架，一列数据帧是平均值，第二列数据帧是标准差。数据帧的每一行表示一个sample_Case，我们对其有一个均值和标准差。我想要创建一个新的列，在该列中，我可以以以下格式将平均值和标准差保存在一起：然后我想将它导出为csv文件。所以这个文件就像 Sam

浏览 16提问于2022-04-20得票数 0

3回答

合并两个统计结果集

math、statistics

处理过程中的数据可以是大量的结果，所以我不希望存储所有的数据来重新计算额外的数据。Statistics : { mean, median, standard deviation, runs on process} 我如何合并两者的中位数和标准差，以获得两个描述统计集的组合摘要请记住，我不能同时保留统计数据所描述的两组

浏览 3提问于2009-09-26得票数 9

回答已采纳

1回答

如果你没有数据，但你知道斜率和50%的点，如何构建CDF？

r、cdf

我有一个关于CDF函数的问题。在一项研究中，研究人员在他们的数据上拟合了正态分布的CDF，并给出了中位数(= -8.4 dB)和斜率(=18.7)。如何重新创建此函数(在R中)，以便找出x轴上期望的百分比(y轴)，例如9 dB？当我查看CDF的公式时，我不确定在哪里插入斜率和中位数统计... 首先要感谢大家！

浏览 5提问于2020-09-03得票数 0

1回答

异常检测阈值问题

machine-learning、python、time-series、unsupervised-learning、anomaly-detection

我正在研究Python中的异常检测开发。上限等于平均值+ (5 *标准差)。如果错误超过阈值，则标记为异常。这种方法不起作用的是，如果我一天

浏览 0提问于2019-10-28得票数 2

回答已采纳

4回答

计算一组数字的平均值，同时忽略异常值

c++、math

我正在试图找出一种算法来计算一组数字的平均值。然而，我需要忽略任何与大多数结果不太接近的数字。下面是我想要做的一个例子：{ 90, 91, 92, 95, 2, 3, 99, 92, 92, 91, 300, 91, 92, 99, 400 } 很明显，对于上面的集合，大多数数字位于90和99之间，但是我有一些像{ 300, 400, 2, 3 }这样的异常值。我需要计算这些数字的平均值，同时忽略

浏览 2提问于2011-06-01得票数 7

回答已采纳

1回答

Spark Scala -如何迭代dataframe中的行，并将计算值添加为数据框的新列

scala、apache-spark、apache-spark-sql、spark-dataframe

我有一个包含两列"date“和"value”的dataframe，如何在dataframe中添加两个新列"value_mean“和"value_sd”，其中"value_mean“是过去10天(包括”date“中指定的当天)的平均值，"value_sd”是过去10天内"value“的标准差？

浏览 0提问于2016-02-12得票数 4

1回答

Pycharm问题集(从步骤3开始)

python、pandas、pycharm

使用ff_monthly.csv数据集，使用第一列作为索引(，它以字符串形式包含数据的年份和月份。创建一个新列“Mkt”为“Mkt-RF”+“RF” 在加载的DataFrame中创建两个新的列()，即“月份”和“年份”，以包含从索引列提取的数据集的年份和月份。创建一个<e

浏览 5提问于2022-10-23得票数 -1

1回答

在pandas dataframe python中创建子列

python、pandas、dataframe

我有一个包含多列的数据帧 df = pd.DataFrame({"cylinders":[2,2,1,1],1 2 100 6200 3 1 70 1200 我想创建一个新的数据帧，并用中位数和平均值<em

浏览 21提问于2019-01-13得票数 1

回答已采纳

1回答

dplyr将新列中的NAs替换为good值的函数

r、dplyr、na

最小的例子:一个小的数据帧，有6行两列的问题回答和一列ID df <- data.frame(ID = c(rep("A", 3), rep("B", 2), "C"),和Q2的标准差创建一个新的数据帧，然后写下 questions <- c("Q1", "Q2") df

浏览 17提问于2021-04-26得票数 1

回答已采纳

4回答

如何计算给定PySpark* DataFrame的均值和标准差？*

python、apache-spark、pyspark、apache-spark-sql

我有一种叫PySpark DataFrame (而非大熊猫)的名字叫df，它很大，可以使用collect()。因此，下面给出的代码是无效的。它处理的数据量较小，但现在却失败了。total.append(score)std = np.std(total) 是否有任何方法可以通过使用mean或类似的方法将std和pyspark.sql.functionsfrom pyspark.sql.functions im

浏览 20提问于2017-12-27得票数 27

回答已采纳

1回答

如何使用不同的技术在填充熊猫或蟒蛇的缺失值后添加“填充数据”的列？

python-3.x、pandas、matplotlib、jupyter-notebook、seaborn

如何在填充熊猫或蟒蛇的缺失值后，使用不同或几种技术，如各种统计技术或机器学习技术，添加“填充数据”列。我想做的是，在用平均值、中位数或标准差值或其他机器学习算法(如KNN或XGBoost或其他一些技术)填充数据之后，我想在csv或excel文件的末尾添加或追加这些或那个列，但不低于实际数据，我指的是文件的右侧例如，我已经使用统计技术和其他ML技术填充了某一

浏览 2提问于2019-09-26得票数 0

1回答

Pandas聚合修改索引

python、pandas、aggregate

我使用这个函数在我的数据框中计算'value‘列的每个id和每个小时的平均值、中位数和方差： df = df.groupby(['PatientID', 'var']

浏览 20提问于2019-09-08得票数 0

点击加载更多

在Python中添加平均值、中位数和标准差值作为新数组列