开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

有没有办法根据来自单独数据框的值从行子集计算中位数？

是的，可以根据来自单独数据框的值从行子集计算中位数。以下是一种实现方法：

首先，将数据框按照需要的条件进行筛选，得到行子集。
接下来，提取行子集中的数值列，并将其转换为一个数组或向量。
对该数组或向量进行排序。
根据数组或向量的长度，判断中位数的位置。如果长度为奇数，中位数的位置为 (n+1)/2；如果长度为偶数，中位数的位置为 n/2 和 (n/2)+1。
根据中位数的位置，从排序后的数组或向量中提取对应位置的值，即为中位数。

以下是一个示例代码，使用R语言的dplyr和stats库来实现：

library(dplyr)
library(stats)

# 创建一个示例数据框
df <- data.frame(
  ID = c(1, 2, 3, 4, 5),
  Value = c(10, 20, 30, 40, 50)
)

# 根据条件筛选行子集
subset_df <- df %>%
  filter(ID > 2)

# 提取数值列并转换为向量
values <- subset_df$Value

# 对向量进行排序
sorted_values <- sort(values)

# 计算中位数的位置
n <- length(sorted_values)
if (n %% 2 == 0) {
  pos1 <- n/2
  pos2 <- (n/2) + 1
  median_value <- (sorted_values[pos1] + sorted_values[pos2]) / 2
} else {
  pos <- (n+1)/2
  median_value <- sorted_values[pos]
}

# 打印中位数
print(median_value)

在这个示例中，我们首先创建了一个示例数据框df，然后使用dplyr库的filter函数根据条件筛选出行子集subset_df。接着，我们提取了subset_df中的数值列Value，并将其转换为向量values。然后，我们对values进行排序，并根据排序后的向量长度计算中位数的位置。最后，根据中位数的位置从排序后的向量中提取对应位置的值，并打印出中位数。

请注意，这只是一种实现方法，具体的实现方式可能因编程语言和工具的不同而有所差异。

相关搜索:根据列值对数据框的子集进行计算从pandas数据框中的行子集计算平均值: groupby还是for循环？如何根据范围表中的值从数据框中选择行是否根据其他列的唯一值从数据框中选择行？pandas:使用来自单独数据框中一个单元格的值填充数据框列中的所有行如何根据行值的指定顺序从R中的数据框中删除列有没有办法以列表格式填充数据框中的缺失值，作为前一行中列表的最后一个值？有没有办法让Maximo Automation脚本根据从另一个值列表中选择的值来启用或禁用来自另一个值列表的值？根据一列中的条件对数据集进行子集设置后，如何从另一列中共享相同值的原始数据合并/添加数据行？R:我的数据框有两列，每一行都有一个数字字符串，有没有办法拆分字符串并将每列的值相加？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言2

#最大值 min（x）#最小值， mean（x）#均值，median（x）#中位数var（x）#方差，sd（x）#标准差，sum（x）#总和length（x）#长度（计算元素个数）unique（x）...y中存在吗，%in%只对前面的数字进行比较，不会发生循环补齐图片发现问题的眼睛，面对困难的信心，解决问题的能力unexpected，提示代码错误两句代码写同一行，用；分隔，不能用，隔开循环补齐：有没有发生运算...：如何从13个数中筛选大于7的13个数字组成向量，赋值给xx大于7，返回多少个逻辑值——13个挑选TRUE 对应的值————向量筛选（取子集），中括号[]:将true 对应的值挑选处理，false将丢弃图片图片图片下标...」、第一四分位数、中位数、第三分位数和「最大观测值」来反映数据的分布情况的统计图图片# 4.用函数计算向量g的长度length(g)# 5.筛选出向量g中下标为偶数的基因名。...sumvector向量——一维表格——二维，矩阵matrix，只允许一种数据类型，data.frames数据框，每列只允许一种数据类型list列表，可装万物根据生存它的函数，用class或is族函数判断所有图片引用自小洁忘了怎么分身

1.2K6 0

2023.4生信马拉松day2-数据类型

5.多个数据的组织——数据结构 -向量一个向量内部只能有一种数据类型，可以有重复值重复值允许，不同的数据类型不允许！...-数据框约等于表格：列有要求（同一列只允许同一种数据类型）；不是文件（可以导出来成为一个文件）数据框单独拿出的一列是向量，视为一个整体 -矩阵 -列表 6.向量的生成 -以下代码基本来自小洁老师所给的...;x (x <- c(1,3,5,1)) -(2)简单数学计算 #(2)简单数学计算 x+1 log(x) sqrt(x) -(3)根据某条件进行判断,生成逻辑型向量 #(3)根据某条件进行判断,生成逻辑型向量...x = c(1,3,5,1) y = c(3,2,5,6) #(1)比较运算，生成等长的逻辑向量 x == y y == x #以上两行返回结果完全一致，不做区分 #(2)数学计算 x + y #(...y里所有的元素比一遍； 9.向量筛选(取子集) x <- 8:12 #根据逻辑值取子集 x[x == 10] x[x < 12] x[x %in% c(9,13)] #根据位置取子集 x[4] x[2:

7183 0

R基础-2

因为数据框不是电脑上的一个文件，并且要求每一列只能有一种数据类型。但是数据框可以导出，可以导出为一个表格。 ...（2）数据框单独拿出的一列是向量（也是一串同一个类型的数据），视为一个整体。（3）一个向量只能有一种数据类型，可以有重复值。...）、下划线可以用不可以使用的名字：变量命名里面带空格不能用（可以用下划线替代空格和中划线）、中文名不能用（2）简单数学计算 >x=c(1,3,5,1) >x+1 (3)根据某条件进行判断，生成逻辑值向量...比如：下面这些都是根据逻辑值对向量取子集的做法（1）x<—— 8:12 x==10 #逻辑值向量 x[x==10] #挑选出来x向量中，等于10的那些元素（2）x<——...去掉第4个数字 x[-(2:4)] 【总结取子集的知识点】根据逻辑值：中括号里是与x等长且一一对应的逻辑值向量根据位置：中括号里是由x的下标组成的向量 #思考：从13个彩色的球中，选出属于蓝色和绿色的

4584 0

R语言—02数据类型和向量

(4>5) TRUE 数据类型的判断和转换 is族函数，判断，返回值为TRUE或FALSE as族函数实现数据类型之间的转换多个数据如何组织数据结构向量数据框矩阵列表 1.数据框约等于“表格...”（列有要求-只能是一种类型；不是文件） 2.数据框单独拿出的一列是向量，视为一个整体 3.一个向量只能有一种数据类型脚本的正确打开方式：从右下角文件面板单击打开脚本打开是乱码的解决方案 2.1向量的生成...可以实现赋值+输出一起实现 “；”的作用是两句或多句代码写在同一行同时运行赋值用命建议 (2)简单数学计算 x+1 log(x) sqrt() (3)比较运算，生成逻辑值向量 x>3 x==3 (4...)初级统计 max(x) #最大值 min(x) #最小值 mean(x) #均值 median(x) #中位数 var(x) #方差 sd(x) #标准差 sum(x) #总和 >length(x)...y中存在吗 x==y和x%in%y的区别 2.4 向量筛选(取子集) [] (中括号）：将TRYE对应的值挑选出来，FALSE丢弃 (1)根据逻辑值筛选中括号外面是谁(x)代表对谁(x)取TURE值

931 0

单变量分析 — 简介和实施

让我们首先导入今天要使用的库，然后将数据集读入数据框，并查看数据框的前5行，以熟悉数据。...我们将使用“value_counts”方法来查看数据框中每个不同变量值发生的次数。但由于“value_counts”不包括空值，让我们首先看看是否有任何空值。...问题1：数据框中存在多少个空值，以及在哪些列中？...问题2：数据集包括来自三种不同培育品种的葡萄酒信息，如列“class”中所示。数据集中每个类别有多少行？...问题9：创建一个名为“malic_acid_level”的新列，将“malic_acid”列的值分解为以下三个段落：从最小值到第33百分位数从第33百分位数到第66百分位数从第66百分位数到最大值

2491 0

数据挖掘第二天

数据结构：向量、数据框、矩阵、列表数据框约等于“表格”，数据框里的每一列只能同一种数据类型，单独拿出一列是向量，是为一个整体一、向量的生成： 1、用c（）逐一放到一起 > c(2,5,6,2,9)...“<-";随意的写法"=" > x = c(1,3,5,1) #随意的写法 x <- c(1,3,5,1) #规范的赋值符号 Alt+减号 2、赋值+输出一起实现：用括号框住赋值或者赋值及输出写在一行...最大值 min(x) #最小值 mean(x) #均值 median(x) #中位数 var(x) #方差 sd(x) #标准差 sum(x) #总和...x <- 8:12 x [1] 8 9 10 11 12 #根据逻辑值取值，【】将TRUE对应的值挑选出来，FALSE丢弃 x[x==10] [1] 10...x[x<12] [1] 8 9 10 11 x[x %in% c(9,13)] [1] 9 #根据位置取子集，【】为向量的下标，数字或者为由向量组成的下标

3234 0

从零开始的异世界生信学习 R语言部分 01 数据结构之向量

数据结构 1.向量数据框单独的一列是向量，视为一个整体；一个向量只能有一种数据类型，可以有重复值。...+减号 x #赋值+输出一起实现 x <- c(1,3,5,1);x #分号可以实现一行组织多个代码 (x <- c(1,3,5,1)) #(2)简单数学计算 x+1 log(x) sqrt(x)...#(3)根据某条件进行判断,生成逻辑型向量 x>3 x==3 #(4)初级统计 max(x) #最大值 min(x) #最小值 mean(x) #均值 median(x) #中位数 var(x) #...中存在吗图片图片向量的筛选（取子集） [ ] ：将TRUE对应的值挑选出来，FALSE丢弃或者是一个有x下标组成的向量 x <- 8:12 #根据逻辑值取子集 x[x==10] #被取子集的向量在外面...，[]内部为选取条件 x[x<12] x[x %in% c(9,13)] #根据位置取子集 #向量中的元素存在下标，从左到右表示元素的位置 x[4] x[2:4] x[c(1,5)] x[-4] #去掉第四元素

3792 0

R语言学习笔记-Day07

（加权共表达网络）-富集分析（ORA、GSEA）-PPI网络-预后分析（影响生存的疾病）1.11.1.1 热图输入数值为数值型矩阵/数据框以颜色变化代表数值大小#聚类树：根据基因相似程度进行排序分类，与原表达矩阵基因顺序不同...1.1.2 散点图和箱线图可以用箱线图代替散点图，显示整体差异箱线图：以连续型向量为纵坐标；有重复值的离散型向量为横坐标箱线图的五条线max - 75% - median#中位数 - 25% - min...#library报错，就单独安装。...2) #箱线图看是否有异常样本#应当在大概相等的范围内#处理异常样本第一个办法：删掉异常样本第二个办法：exp = limma::normalizeBetweenArrays(exp)#中位数在0附近，...是不正常的标准化数据#做过不可逆操作，无法继续分析#取过log，存在少量负值，4<中位数<15——正常#没取log，有负值——错误数据#(2)提取临床信息pd <- pData(eSet)#临床信息表格中的行为表达矩阵的列

1230 0

生信课程note-3

) ，iris,letters,LETTERS是r语言内部的数据，可以导出为表格文件打开，但没办法用别的软件直接打开数据框。...、行、列dim(df1)nrow(df1)ncol(df1)#行名，列名rownames(df1)colnames(df1)#4.数据框取子集df1$score 向量取子集用的是[] 取score这一列...用于取子集的逻辑值向量：与x对应，不必须由x生成。（例子中即通过score为gene取子集）记住，==是等于的意思，>-是赋值的意思## 代码思维#如何取数据框的最后一列？...df1[,3]df1[,ncol(df1)]#如何取数据框除了最后一列以外的其他列？df1[,-ncol(df1)] 注：！-给数值用，！给逻辑值用。...test <- read.csv("exercise.csv")# 2.求test第一列数值的中位数median(test$Petal.Length)# 3.筛选test中，Species列的值为a或c

1.3K4 0

R语言-基础+向量

2）数据类型的判断与转换is族函数判断图片as族函数实现数据类型转换图片3）数据类型转换的优先顺序字符型 > 数值型 > 逻辑型三、数据结构数据框约等于表格每一列只能有一种数据类型数据框单独一列是向量...，视为一个整体向量里只有一种数据类型，但是可以有重复值向量3x==3#(4)初级统计max(x) #最大值min(...y中存在吗y %in% x #y的每个元素在x中存在吗图片4.向量筛选（取子集） []: 将TRUE对应的值挑选出来，FALSE丢弃x <- 8:12#根据逻辑值取子集x[x==10]x[x<12]x[...x %in% c(9,13)]#根据位置取子集x[4]x[2:4]x[c(1,5)]x[-4]x[-(2:4)] #-表示删掉元素- 表示删掉元素，与python区分总结：按照逻辑值：中括号里是与x等长且一一对应的逻辑值向量按照位置

8295 0

Jelys Note之生信入门class3

df1中的数据，c（1，3)是取第一行和第三行的数据，逗号表示维度的分割，1：2是取第一列与第二列的数据 eg....gene change 1 gene1 up 3 gene3 down 5)向量x只有一个维度=只有一行，无法取行列；只有数据框或矩阵才有两个以上的维度才可以直接用中括号取子集 >x[1,5...取出来的是符合条件的子集】筛选score > 0的基因 > df1[df1$score > 0,]内容写在逗号前取子集是按行来取子集取df1数据框中score那一列大于0的df1值如第一行、第二行...只修改某一列名：colnames（变量）[第几列]=修改值“” > colnames(df1)[2] <- "CHANGE" （5）两个数据框的连接【智能的连接】【使用：差异分析结果，分析基因的结果，...37 63 3.[]取交集的时候会去重复，而%in%取子集不会去重复【要不要去重复】 4.需要撤回时，可用函数：set.seed(10086) rnorm（10）,代码运行了没办法赋值

6381 0

dpois函数_frequency函数

这样，可以根据非常少量的数据检查。...这种模式还有另一种常见的变化。让我们来看看棒球击球手的平均表现如何与他们击球的次数有关。在这里，使用来自拉赫曼包的数据来计算每个大联盟棒球运动员的击球率（击球次数/尝试次数）。...均值是除以长度的总和；中位数是一个值，其中50%的x高于它，50%低于它。将聚合与逻辑子集相结合有时很有用。我们还没有谈到这种子集化，但你会在子集中了解更多。...过滤提供所有变量，每个观察在一个单独的行中： not_cancelled %>% group_by(year, month, day) %>% mutate(r = min_rank(desc...换句话说，分组总和的总和是总和，但分组中位数的中位数不是总体中位数。 5.6.6 取消组合如果需要删除分组，并返回对未分组数据的操作，使用ungroup()。

1.8K1 0

2023.4生信马拉松day3-数据结构

回顾：多个数据的组织——数据结构-向量-一维数据；一个向量内部只能有一种数据类型，可以有重复值；注：重复值允许，不同的数据类型不允许！...-数据框二维数据；约等于表格但是：列有要求（同一列只允许同一种数据类型）；不是文件（可以导出来成为一个文件）；数据框单独拿出的一列是向量，视为一个整体；-矩阵二维数据；同一列同一行都只允许一种数据类型...跟我念三遍：row是横排成行；colum是纵队为列；rownames(df1) #看所有行名colnames(df1) #看所有列名3.数据框取子集-（1）按列名取列——【最重要】df1$score...df1[,2] #取出来的列是向量df1[2] #不加逗号，可以取出列，并保留其数据框属性df1[c(1,3),1:2] #取第一行第三行的前两个数（会继承行名、列名）#小tips：读懂error...-（4）按条件（逻辑值）取子集【理解！！！】

1.4K0 0

7步搞定数据清洗－Python数据清洗指南

字段分别代表什么意义字段之间的关系是什么？可以用做什么分析？或者说能否满足了对分析的要求？ 有没有缺失值；如果有的话，缺失值多不多？现有数据里面有没有脏数据？...日期调整前（为求简便这里用已经剔除分秒，剔除的办法后面在格式一致化的空格分割再详细说） #数据类型转换:字符串转换为日期 #errors='coerce' 如果原始数据不符合日期的格式，转换后的值为空值...修改后四、选择部分子集这是一个8列*541909行的数据集。 ? ? #选择子集，选择其中一列 subDataDF1=DataDF["InvoiceDate"] ?...2、填充缺失内容：某些缺失值可以进行填充，方法有以下四种： 1) 以业务知识或经验推测（默认值）填充缺失值 2) 以同一指标的计算结果（均值、中位数、众数等）填充缺失值 3) 用相邻值填充缺失值 4)...如果想了解更多 fillna() 的详细信息参考 pandas.DataFrame.fillna pandas.pydata.org 2）以同一指标的计算结果（均值、中位数、众数等）填充缺失值平均值

4.5K2 0

R语言学习笔记-Day 2

数据结构：向量3/x==3(4) 初级统计：max(x) #最大值min(x) #最小值mean(x) #平均值median...y中存在吗y %in% x #y中的每个元素在x中存在吗向量筛选（取子集）x <- 8:12;xx==10 10xx<12 8 9 10 11xx%in%c(9:12) 9 10 11 12#以上均根据逻辑值筛选...b" "b" "b" "c" "c" "c" "d" "d" "d"boxplot(k1~k2) #k1作纵坐标，k2作横坐标，自动生成中位数（箱线图）向量（Vector）——一维数据框（“表格”）——...二维：matrix：矩阵，二维，只允许一种数据类型；data.frame：数据框，二维，每列只允许一种数据类型列表（list）判断数据结构：(1)根据生成的函数判断；(2)利用class或is函数判断。

1380 0

《Scikit-Learn与TensorFlow机器学习实用指南》第2章一个完整的机器学习项目

街区组是美国调查局发布样本数据的最小地理单位（一个街区通常有 600 到 3000 人）。我们将其简称为“街区”。你的模型要利用这个数据进行学习，然后根据其它指标，预测任何街区的的房价中位数。...X是包含数据集中所有实例的所有特征值（不包含标签）的矩阵。每一行是一个实例，第i行是的转置，标记为。 ? 例如，仍然是前面的第一区，矩阵X就是： ?...快速查看数据结构使用DataFrame的head()方法查看该数据集的顶部 5 行（见图 2-5）。 ? 图 2-5 数据集的顶部五行每一行都表示一个街区。...在机器学习中对数据进行预处理很正常，不一定是问题，但你要明白数据是如何计算出来的。房屋年龄中位数和房屋价值中位数也被设了上限。后者可能是个严重的问题，因为它是你的目标属性（你的标签）。...组合（集成）之后的性能通常要比单独的模型要好（就像随机森林要比单独的决策树要好），特别是当单独模型的误差类型不同时。我们会在第7章更深入地讲解这点。

2.8K21 0

在Python中进行探索式数据分析（EDA）

导入库数据加载导入库后，下一步是将数据加载到数据框中。要将数据加载到数据框中，我们将使用pandas库。它支持各种文件格式，例如逗号分隔值（.csv），excel（.xlsx，.xls）等。...根据以上结果，我们可以看到python中的索引从0开始。底部5行 ? 要检查数据框的维数，让我们检查数据集中存在的行数和列数。...有许多方法可以处理这些缺失的值。 1. 删除 2. 插补我们可以删除存在缺失值的行，也可以将缺失值替换为平均值，中位数或众数等值。由于丢失的数据百分比非常少，我们可以从数据集中删除那些行。 ?...原来的行数是11914，现在剩下的行数是11813。统计摘要现在，让我们找出数据集的统计总结或五点总结。五点总结给出描述性总结，包括每个变量的均值、中位数、众数、编号、行数、最大值和最小值。 ?...如果数据集中存在大量异常值，则必须对异常值进行处理。像地板，封盖之类的方法可用于估算离群值。相关图计算相关系数，找出两个变量之间的关系强度。相关范围从-1到1。

3.2K3 0

《Scikit-Learn与TensorFlow机器学习实用指南》第2章一个完整的机器学习项目使用真实数据项目概览获取数据数据探索和可视化、发现规律为机器学习算法准备数据选择并训练模型模型微调启动

你的模型要利用这个数据进行学习，然后根据其它指标，预测任何分区的的房价中位数。提示：你是一个有条理的数据科学家，你要做的第一件事是拿出你的机器学习项目清单。...X是包含数据集中所有实例的所有特征值（不包含标签）的矩阵。每一行是一个实例，第ith行是x(i)的转置，标记为(x(i))T。例如，仍然是前面的第一区，矩阵X就是： ?...快速查看数据结构使用DataFrame的head()方法查看该数据集的顶部5行（见图2-5）。 ? 图2-5 数据集的顶部五行每一行都表示一个分区。...在机器学习中对数据进行预处理很正常，不一定是问题，但你要明白数据是如何计算出来的。房屋年龄中位数和房屋价值中位数也被设了上线。后者可能是个严重的问题，因为它是你的目标属性（你的标签）。...组合（集成）之后的性能通常要比单独的模型要好（就像随机森林要比单独的决策树要好），特别是当单独模型的误差类型不同时。我们会在第7章更深入地讲解这点。

3K15 0

R语言函数

1.初级统计（R_01） x<-(1,2,3,4,5,6) max(x) #最大值 min(x) #最小值 mean(x) #均值 median(x) #中位数 range(x)#返回最小值和最大值 var...(x) #方差 sd(x) #标准差 sum(x) #总和 abs(x)#绝对值 sqrt(x)#平方根 log(16,base=2)# >4 计算16的log值，底数为2 exp(x)#计算向量x中每一个元素的指数...#根据逻辑值取子集 x[x==10]#[]即将TRUE的值挑选出来，FALSE丢弃（x[FALSE,FALSE,TRUE,FALSE,FALSE]） x[x<12] x[x %in% c(9,13)]...将这些元素筛选出来 7.隐式循环——apply(R_04) apply 处理矩阵或数据框: #apply(X, MARGIN, FUN, …) #其中X是数据框/矩阵名； #MARGIN为1表示行，...随机取30个数 sample(x,30,replace = T)#可替代（即可重复抽样） sample(x,60,replace = F) 15.t/rev sractm <- t(mtcars)#翻转数据框的行与列

2412 0

单细胞专题 | 8.单细胞类型注释之SingleR包详解

主要分2 步： 1.1 计算差异倍数以计算参考集A类细胞的Marker基因为例，先计算得到参考集中各个基因在A类细胞和其他细胞中表达量的中位数（因为参考集，每种细胞都有大量重复，所以可以计算中位数），...然后根据中位数将参考集中细胞类型进行两两比较，计算表达差异倍数。...MRD参考包含从基因表达综合库下载的小鼠大体积rna序列数据集(Benayoun等人，2019年)。有各种各样的细胞类型，同样主要来自血液，但也包括其他一些组织。...Step4:注释结果诊断 4.1 基于细胞得分进行诊断最明显的诊断方法是根据每个待注释细胞的得分，该得分就是我们之前计算的相关性值。...---- 4.2 基于细胞delta值进行诊断我们使用待注释细胞的delta值识别低质量注释结果或者模棱两可的注释结果。Delta值的定义是每个细胞的注释标签的得分与所有标签得分的中位数的差值。

8.1K6 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭