文章/答案/技术大牛

发布

有没有一种方法可以在一列中group_by变量，并在第二列中获得另一个变量的比率？

是的，可以使用SQL语句中的GROUP BY子句和聚合函数来实现在一列中group_by变量，并在第二列中获得另一个变量的比率。

假设我们有一个名为"table_name"的表，其中包含两列"column1"和"column2"，我们想要按"column1"进行分组，并计算每个组中"column2"的比率。

以下是一个示例SQL查询语句：

SELECT column1, SUM(column2) / (SELECT SUM(column2) FROM table_name) AS ratio
FROM table_name
GROUP BY column1;

在上述查询中，我们使用了SUM函数来计算每个组中"column2"的总和，并使用子查询计算"column2"的总和。然后，我们将每个组中"column2"的总和除以总和，以获得比率，并将其命名为"ratio"。

请注意，这只是一个示例查询语句，具体的语法和函数可能因数据库类型而异。您可以根据自己使用的数据库类型进行相应的调整。

腾讯云提供了多种云计算相关产品，例如云数据库 TencentDB、云服务器 CVM、云原生容器服务 TKE、人工智能平台 AI Lab 等。您可以根据具体需求选择适合的产品。更多产品信息和介绍可以参考腾讯云官方网站：https://cloud.tencent.com/。

相关·内容

35. R 数据整理（七：使用tidyr和dplyr处理数据框 2.0）

这些变量应该是真正的属性，而不是同一属性在不同年、月等时间的值分别放到单独的列。...weight 选项指定数据框中的一列作为抽样权重，进行不等概抽样。...忽略最后一个即表示选择倒数第二个。 2.6 arrange 按照数据框里的某列或某几列，对所有行进行排序。可以使用 desc 产生倒序，或写入多个列使其按照多个列进行排序。...2.10 表格的拆分与合并将同一列中的内容分为两列内容。或将两列内容合并为同一列内容。首先还是可以创建一个数据框。...extract 除了seperate 外，函数 extract() 可以按照某种正则表达式表示的模式从指定列拆分出对应于正则表达式中捕获组的一列或多列内容。

11K3 0

amos中路径p值_输出无向图的路径

递归模型，顾名思义是内生变量间因果关系为单方向的结构方程模型；换句话讲，递归模型中任何一个变量，不能既是另一个变量的起因，且又同时是其效应。 ...再看表格的第一列。...表格第一列“Observation number”是每一个异常值对应的数据编号；“Mahalanobis d-squared”可以视作距离的度量，其越大数据越有可能是异常值。...表格中第一行，“Estimate”为实际估计值；“S.E.”为“近似标准误差”，其不适用于相关性和标准化回归系数，也不适用于ULS或SLS估计方法；“C.R.”为“临界比率”，其是参数估计值除以其标准误差的估计值...修改索引大于指定阈值的每个参数将显示在此处，并在标记为的列中显示： “M.I”：修改索引 “Par Change”：估计参数变化 2.11 Minimization History “

2.2K2 0

基于Amos路径分析的输出结果参数详解

递归模型，顾名思义是内生变量间因果关系为单方向的结构方程模型；换句话讲，递归模型中任何一个变量，不能既是另一个变量的起因，且又同时是其效应。其次，“Sample size”则代表了样本个数。...再看表格的第一列。...表格第一列“Observation number”是每一个异常值对应的数据编号；“Mahalanobis d-squared”可以视作距离的度量，其越大数据越有可能是异常值。 ?...表格中第一行，“Estimate”为实际估计值；“S.E.”为“近似标准误差”，其不适用于相关性和标准化回归系数，也不适用于ULS或SLS估计方法；“C.R.”为“临界比率”，其是参数估计值除以其标准误差的估计值...修改索引大于指定阈值的每个参数将显示在此处，并在标记为的列中显示： “M.I”：修改索引。 “Par Change”：估计参数变化。 ?

4K3 0

dplyr数据处理

一、筛选过滤行 filter() filter()函数用于筛选出一个观测子集，第一个参数是数据库框的名称，第二个参数以及随后的参数是用来筛选数据框的表达式。...() select()函数用于筛选有用的列，第一个参数还是数据库，第二个参数以及后面是需要的列名，列名有多种书写方式，可以使用冒号作为范围，也可以使用 stars_with,ends_with...另外，当想要把几个需要的列移到前面，可以配合使用 everythins()函数，将剩余的列添加到后面。...，会某一列取对数，这样将生成新的变量，这个时候可以使用 mutate 函数。...10) x <- read.xlsx('2015.xlsx') x %>% dplyr::mutate(avg = Income/People) 七、统计使用 summarise()可以对每一列单独进行计算

1.6K1 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...在data.table行操作跟data.frame很像，可以data[1,]就可以获得第一行的数据，同时也可以用，data[1]来获得行信息，这个是data.table特有的。...(get(names(data)[i]))] } 这个是我目前在遍历时候用到的代码，不知道观众有没有更好的呢？...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

9.4K4 3

生信代码：数据处理（ tidyverse包）

大家在学习R语言的时候，大多参考《R语言实战》这本书，但这本书年代过于久远（中文第二版是2016年），主要着力点也是在R base上，R语言可视化的ggplot2包也只是简要介绍，而对于tidyverse...在Rstudio中加载tidyverse包，可以看到该包下有8个子包，著名的ggplot2包即是其中的一个子集，我们先着重讲一下数据处理有关的包——dplyr包。...1 mutate() mutate（）与基础函数transform（）相似，都可以添加新的一列，但是允许引用刚刚创建的列： mydata 可以使用-(变量)或者desc(变量)。...() group_by可以对原数据框进行分组计算，例如对于我们本文中的数据框，我们如果对个人或者科目感兴趣的话，可以使用group_by（name或者type），然后利用summarize函数就可以求出分类之后的各个统计值

2.1K1 0

数据清洗与管理之dplyr、tidyr

本期回顾 R语言 | 第一部分：数据预处理 R语言|第2讲：生成数据 R语言常用的数据输入与输出方法 | 第三讲本期目录 0 二维数组行列引用 1 创建新变量 2 变量重新编码 3 变量重新命名 4...，以便获得可以应用于建模或者可视化的数据集（变量）。...例如：引用第一行数据，引用第一列数据，引用第一行第一列的数据。...通过变量名引用（多用于二维数组中）：数据集$变量名 > head(iris$Petal.Length,5) [1] 1.4 1.4 1.3 1.5 1.4 1 创建新变量在R语言中，可以通过变量计算/...key #value：将原数据框中的所有值赋给一个新变量value #…：可以指定哪些列聚到同一列中 #na.rm：是否删除缺失值 widedata <- data.frame(person=c('Alex

1.9K4 0

R语言基于dplyr实现数据快捷操作

R语言在处理大数据方面一直是被人诟病的地方，那么有人就为R语言打造了一个dplyr包可以实现高效的数据预处理，减少内存的消耗，提升处理效率。今天就给大家详细看下这个包的具体功能。...5. mutate 为数据集增加新的变量。实例： df %>% mutate(z = x + y, z2 = z ^ 2) ? 6. pull 输出单个变量。 7. relocate改变列之间排序。...可以直接填入变量名，也可以直接用列号，或者更深一层添加功能函数：start_with(以什么开头的变量)，where（什么要求的变量）实例： iris %>%select(starts_with("Petal...16. across 针对某一列进行操作，两个参数：第一个为列名，第二个为操作函数。...最后我们看下更高级的应用实例： ###自定义函数在通道中的应用 var_summary <- function(data, var) { data %>% summarise(n = n(),

1.5K4 0

生信学习-Day6-学习R包

在 iris 数据集中，Petal.Length 和 Petal.Width 分别代表花瓣的长度和宽度。因此，当你使用 vars 变量时，你实际上是在引用那些具有这些名称的列。...在dplyr包的filter()函数中使用时，它可以用于筛选数据框中匹配给定集合中任一值的行。这行代码的作用如下： filter(test, ...): 在test数据框中筛选行。...数据框是R语言中类似于表格的二维数组结构，每一列包含了一个变量的值，每一行包含了每个变量的一个值集。...这意味着函数将查找 test1 和 test2 中列名为 "x" 的列，并基于这两列中的匹配值来合并行。只有当两个数据框中都存在列 "x" 且某些行在这一列的值相等时，这些行才会出现在最终的结果中。...结果将是一个新的数据框，其中包含了test1中那些在test2中找到匹配项的行，而不包含在test2中找不到匹配项的行。这种操作通常用于数据集的筛选，以保留与另一个数据集相关的数据。

2331 0

R 数据整理（六：根据分类新增列的种种方法 1.0）

也就回到了开始创建的数据框test。 separate&&unite 将同一列中的内容分为两列内容。或将两列内容合并为同一列内容。首先还是可以创建一个数据框。...> test <- data.frame(x = c( "a,b", "a,d", "b,c"));test x 1 a,b 2 a,d 3 b,c 使用separate，便可以对一列中的数据达到...忽略最后一个即表示选择倒数第二个。 everything 可以实现对列的自定义排序。其语法逻辑为，去掉指定的列后，筛选其他的列。...在基础包中， merge 及 bind 可以帮助我们连接表格。...x所有的在y中存在的记录。

2.1K2 0

「R」dplyr 列式计算

❝在近期使用「dplyr」进行多列选择性操作，如 mutate_at() 时，发现文档提示一系列的「dplyr」函数变体已经过期，看来后续要退休了，使用 across() 是它们的统一替代品，所以最近抽时间针对性的学习和翻译下...最后我们将简要介绍一下历史，说明为什么我们更喜欢 across() 而不是后一种方法（即 _if(), _at(), _all() 变体函数）以及如何将你的旧代码转换为新的语法实现。...第二个参数是 .fns，它是应用到数据列上的一个函数或者是一个函数列表，它也可以是像 ~.x/2 这样「purrr」风格的公式语法。..._at() 函数是「dplyr」中唯一你需要手动引用变量名的地方，这让它们比较奇怪且难以记忆。为什么过了这么久才发现 across()？...我们可以使用没有外部名称作为将数据框列解包为单独列的约定。你如何转移已经存在的代码？

2.5K1 0

生信学习小组Day6笔记—Chocolate Ice

安装与加载R包镜像设置目的：加快加载速度方法：应用R的配置文件：Rprofile说起来这个，就必须提到Rstudio最重要的两个配置文件：在刚开始运行Rstudio的时候，程序会查看许多配置内容，其中一个就是....Renviron，它是为了设置R的环境变量（这里先不说它）；而.Rprofile就是一个代码文件，如果启动时找到这个文件，那么就替我们先运行一遍（这个过程就是在启动Rstudio时完成的） -----...-微信公众号：生信星球首先用file.edit('~/.Rprofile')打开.Rprofile文件；然后在.Rprofile文件内添加下列两行代码# options函数就是设置R运行过程中的一些选项设置...newselect(), 按列筛选（1）按列号筛选#筛选一列select(test,1)#筛选多列select(test,c(1,5))（2）按列名筛选#筛选一列select(test,Sepal.Length...)#筛选多列#方法1select(test, Petal.Length, Petal.Width)#方法2vars <- c("Petal.Length", "Petal.Width")select(test

7633 0

Fama French (FF) 三因子模型和CAPM模型分析股票市场投资组合风险收益可视化

公司价值因素在FF中被标记为HML，代表高-低，指的是公司的账面与市场比率。...然而，这些数据已经被转化为字符格式--看看每一列的类别。 map(Gob3s, class) 我们有两个选项可以将这些列强制转换为正确的格式。...如果我们导入不同的 FF 因子集，我们将需要指定不同的列名。作为一种替代方法，下面的代码块在导入后将列转换为数字，但更通用。它可以应用于其他 FF 因子集合。...vars()函数的操作与select()函数类似，我们可以通过在date前面加一个负号来告诉它对所有列进行操作，除了date列。...同样，在处理来自新来源的数据时，日期，任何列都可以有多种格式。

3.9K3 0

tidyverse：R语言中相当于python中pandas+matplotlib的存在

出版有《R for Data Science》（中文版《R数据科学》），这本书详细介绍了tidyverse的使用方法。...data位置管道函数在tidyverse中，管道符号是数据整理的主力，可以把许多功能连在一起，而且简洁好看，比起R的基本代码更加容易阅读！...这些函数允许在长数据格式（long data）和宽数据格式（wide data）之间进行转换（功能类似于reshape包，但是比reshape更好用，并且可以用于管道%>%连接）。...tidyr包的下述四个函数用法 5.1 宽数据转为长数据：gather （excel透视表反向操作） 5.2 长数据转为宽数据：spread （excel透视表功能） 5.3 多列合并为一列：unit...#key：将原数据框中的所有列赋给一个新变量key #value：将原数据框中的所有值赋给一个新变量value #…：可以指定哪些列聚到同一列中 #na.rm：是否删除缺失值 widedata <-

4.3K1 0

【涨姿势】统计名词和数据挖掘术语大盘点

比率变量数据可以进行加、减、乘、除运算【次数分布】一批数据中各个不同数值所出现次数多少的情况，或者是这批数据在数轴上各个区间内所出现的次数多少的情况。...2时，称极低相关或接近零相关【积差相关】是应用最普遍、最基本的一种相关分析方法，尤其适合于对两个连续变量之间的相关情况进行定量分析【等级相关适用的几种情况】①两列观测数据都是顺序变量数据，或一列是顺序变量数据...，另一列是连续变量的数据。...如对学生的绘画、体育测试成绩排名就属顺序变量数据②两个连续变量的观测数据，其中有一列或两列数据的获得主要依靠非测量方法进行粗略评估得到。...点双列相关适用于双变量数据中，有一列数据是连续变量数据，如体重、身高以及许多测验与考试的分数；另一列数据是二分类的称名变量数据，如性别【原始分数；原始分数的意义必须要跟一定的参照物（系统）作比较，

1.5K6 0

Scikit-Learn教程：棒球分析 (一)

打印出每年的平均胜利（W）。您可以使用此mean()方法。在浏览数据时为目标列创建分档非常有用，但您需要确保在训练模型时不包括从目标列生成的任何功能。...在训练集中包含从目标列生成的一列标签，就像为模型提供测试的答案一样。...在一个图的x轴上绘制每场比赛的运行，并在另一个图的x轴上运行。W在每个y轴上绘制列。...您可以添加到数据集的另一个功能是从提供的K-means聚类算法派生的标签sklearn。K-means是一种简单的聚类算法，可根据您指定的k个质心数对数据进行分区。...在第二部分中，您将看到如何使用分类模型来预测哪些球员进入MLB名人堂。

3.5K2 0

Day6 呦呦鹿鸣—学习R包

x + y)2.select(),按列筛选,按名称选择变量(1)按列号筛选select(test,1)# 筛选test数据集的第一列iris %>% select(1:3)# 筛选iris数据集的第一到第三列...按列名筛选select(test, Petal.Length, Petal.Width)iris %>% select(Species, Sepal.Length)3.filter()筛选行/返回具有匹配条件的行可以按照某分类变量的值进行数据筛选...(Sepal.Length), sd(Sepal.Length))R中的管道操作符2：count统计某列的unique值count(test,Species)分类变量每个变量值的频数dplyr处理关系数据将...2个表进行连接1.內连inner_join,取交集inner_join(test1, test2, by = "x")满足两个条件：有相同变量名，相同变量名的列里有相同元素；2.左连left_join列表书写顺序决定了最终合成列表中列的顺序...,每列数值的类型必须相同；以"by"的列为标准，补齐列表，空值为"NA"4.半连接：返回能够与y表匹配的x表所有记录semi_join交集表中test1部分的列semi_join(x = test1,

1851 0

R语言进阶笔记4 | dplyr 汇总统计

，介绍R中编写一个函数，进行汇总统计。效果很不错。今天用tidyverse包实现一下，多角度尝试，然后尝试中学习。 1. 想要达到的效果最近，一个朋友让我帮忙做一个图标，是这个样子的： ?...相关的统计参数：最大值最小值极差平均值标准差变异系数 2. 模拟数据首先，我模拟一个20行5列的数据框，每一列都是数值的数据类型。...然后使用apply函数，对数据框的列进行操作最后返回汇总统计的结果该函数的对象为一个由变量组成的数据框，数据类型都要是数值 3.2 函数测试 > huizong(dat) Max...更简单的方法 5.1 查看数据 tidyverse这个包，要分析的都是长数据，而不是宽数据，所以我们将其转化为长数据进行分析，会更方便快捷。...更上一层楼使用summarise_at函数，然后使用list将函数合并在一起： d1 %>% group_by(Trait) %>% summarise_at(vars(values), list

1.1K1 0

「R」dplyr 行式计算

你可以在 rowwise() 中提供“标识符”变量，这些变量将在你调用 summarise() 的时候保留，因此它的行为类似于将变量传入 group_by()： df <- tibble(name =...按行汇总统计 dplyr::summarise() 让一列多行的统计汇总变得非常简单，当它与 rowwise() 结合时，它也可以简便地操作汇总一行多列。...这可能会让人感到困惑，但我们确信这是最差的解决方案，特别是在错误消息中给出了提示。...这意味着rowwise()和mutate()提供了一种优雅的方式，可以使用不同的参数多次调用函数，并将输出与输入一起存储。...因为输入tibble中的列没有那么规则，所以这种方法更不适合这种方法。

6.3K2 0

手把手教你用 R 语言分析歌词

帕雷莱斯（纽约时报）在本教程中，该系列的第一部分，你将会使用整洁文本框架在一组歌词上使用文本挖掘技术。整洁数据集有一种特定的结构，其中每个变量是一列，每个观察是一行，每个观察单元是一个表。...将 group_by 对象导入到 summarise() 然后使用 n() 来统计歌曲的数量。当你把它存到一个变量中便可以导入到 ggplot() 来绘制一个简单的条形图。 ? ?...文本挖掘文本挖掘也可以被认为文本分析。目标是发掘可能未知的或者被隐藏在字面意思之下的相关信息。自然语言处理是一种用于挖掘文本的方法。...它用经过过滤的数据集作为输入，每一行是一篇文件（歌曲）中的一个表示（词汇）。你会在新的一列看到结果。...在数据科学的各个层面，有很多方法可以获得内在的见解。在此案例的第二部分和第三部分，你将会学习到更多观点希望你和我一样迫不及待想继续接下来的探索分析旅程：情感分析，话题建模和预测见解。

1.8K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云