首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >「R」apply,lapply,sapply用法探索

「R」apply,lapply,sapply用法探索

作者头像
王诗翔呀
发布于 2020-07-06 09:17:33
发布于 2020-07-06 09:17:33
4.9K00
代码可运行
举报
文章被收录于专栏:优雅R优雅R
运行总次数:0
代码可运行

本文节选自张丹的《R的极客理想》系列。

1. apply的家族函数

apply函数族是R语言中数据处理的一组核心函数,通过使用apply函数,我们可以实现对数据的循环、分组、过滤、类型控制等操作。但是,由于在R语言中apply函数与其他语言循环体的处理思路是完全不一样的,所以apply函数族一直是使用者玩不转一类核心函数。

很多R语言新手,写了很多的for循环代码,也不愿意多花点时间把apply函数的使用方法了解清楚,最后把R代码写的跟C似得,我严重鄙视只会写for的R程序员。

apply函数本身就是解决数据循环处理的问题,为了面向不同的数据类型,不同的返回值,apply函数组成了一个函数族,包括了8个功能类似的函数。这其中有些函数很相似,有些也不是太一样的。

我一般最常用的函数为apply和sapply,下面将分别介绍这8个函数的定义和使用方法。

2. apply函数

apply函数是最常用的代替for循环的函数。apply函数可以对矩阵、数据框、数组(二维、多维),按行或列进行循环计算,对子元素进行迭代,并把子元素以参数传递的形式给自定义的FUN函数中,并以返回计算结果。

函数定义:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
apply(X, MARGIN, FUN, ...)

参数列表:

  • X:数组、矩阵、数据框
  • MARGIN: 按行计算或按按列计算,1表示按行,2表示按列
  • FUN: 自定义的调用函数
  • …: 更多参数,可选

比如,对一个矩阵的每一行求和,下面就要用到apply做循环了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> x<-matrix(1:12,ncol=3)
> apply(x,1,sum)
[1] 15 18 21 24

下面计算一个稍微复杂点的例子,按行循环,让数据框的x1列加1,并计算出x1,x2列的均值。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 生成data.frame
> x <- cbind(x1 = 3, x2 = c(4:1, 2:5)); x
     x1 x2
[1,]  3  4
[2,]  3  3
[3,]  3  2
[4,]  3  1
[5,]  3  2
[6,]  3  3
[7,]  3  4
[8,]  3  5

# 自定义函数myFUN,第一个参数x为数据
# 第二、三个参数为自定义参数,可以通过apply的'...'进行传入。
> myFUN<- function(x, c1, c2) {
+   c(sum(x[c1],1), mean(x[c2])) 
+ }

# 把数据框按行做循环,每行分别传递给myFUN函数,设置c1,c2对应myFUN的第二、三个参数
> apply(x,1,myFUN,c1='x1',c2=c('x1','x2'))
     [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8]
[1,]  4.0    4  4.0    4  4.0    4  4.0    4
[2,]  3.5    3  2.5    2  2.5    3  3.5    4

通过这个上面的自定义函数myFUN就实现了,一个常用的循环计算。

如果直接用for循环来实现,那么代码如下:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 定义一个结果的数据框
> df<-data.frame()

# 定义for循环
> for(i in 1:nrow(x)){
+   row<-x[i,]                                         # 每行的值
+   df<-rbind(df,rbind(c(sum(row[1],1), mean(row))))   # 计算,并赋值到结果数据框
+ }

# 打印结果数据框
> df
  V1  V2
1  4 3.5
2  4 3.0
3  4 2.5
4  4 2.0
5  4 2.5
6  4 3.0
7  4 3.5
8  4 4.0

通过for循环的方式,也可以很容易的实现上面计算过程,但是这里还有一些额外的操作需要自己处理,比如构建循环体、定义结果数据集、并合每次循环的结果到结果数据集。

对于上面的需求,还有第三种实现方法,那就是完成利用了R的特性,通过向量化计算来完成的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> data.frame(x1=x[,1]+1,x2=rowMeans(x))
  x1  x2
1  4 3.5
2  4 3.0
3  4 2.5
4  4 2.0
5  4 2.5
6  4 3.0
7  4 3.5
8  4 4.0

那么,一行就可以完成整个计算过程了。

接下来,我们需要再比较一下3种操作上面性能上的消耗。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 清空环境变量
> rm(list=ls())

# 封装fun1
> fun1<-function(x){
+   myFUN<- function(x, c1, c2) {
+     c(sum(x[c1],1), mean(x[c2])) 
+   }
+   apply(x,1,myFUN,c1='x1',c2=c('x1','x2'))
+ }

# 封装fun2
> fun2<-function(x){
+   df<-data.frame()
+   for(i in 1:nrow(x)){
+     row<-x[i,]
+     df<-rbind(df,rbind(c(sum(row[1],1), mean(row))))
+   }
+ }

# 封装fun3
> fun3<-function(x){
+   data.frame(x1=x[,1]+1,x2=rowMeans(x))
+ }

# 生成数据集
> x <- cbind(x1=3, x2 = c(400:1, 2:500))

# 分别统计3种方法的CPU耗时。
> system.time(fun1(x))
用户 系统 流逝 
0.01 0.00 0.02 

> system.time(fun2(x))
用户 系统 流逝 
0.19 0.00 0.18 

> system.time(fun3(x))
用户 系统 流逝 
   0    0    0 

从CPU的耗时来看,用for循环实现的计算是耗时最长的,apply实现的循环耗时很短,而直接使用R语言内置的向量计算的操作几乎不耗时。通过上面的测试,对同一个计算来说,优先考虑R语言内置的向量计算,必须要用到循环时则使用apply函数,应该尽量避免显示的使用for,while等操作方法。

3. lapply函数

lapply函数是一个最基础循环操作函数之一,用来对list、data.frame数据集进行循环,并返回和X长度同样的list结构作为结果集,通过lapply的开头的第一个字母’l’就可以判断返回结果集的类型。

函数定义:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
lapply(X, FUN, ...)

参数列表:

  • X:list、data.frame数据
  • FUN: 自定义的调用函数
  • …: 更多参数,可选

比如,计算list中的每个KEY对应该的数据的分位数。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 构建一个list数据集x,分别包括a,b,c 三个KEY值。
> x <- list(a = 1:10, b = rnorm(6,10,5), c = c(TRUE,FALSE,FALSE,TRUE));x
$a
 [1]  1  2  3  4  5  6  7  8  9 10
$b
[1]  0.7585424 14.3662366 13.3772979 11.6658990  9.7011387 21.5321427
$c
[1]  TRUE FALSE FALSE  TRUE

# 分别计算每个KEY对应该的数据的分位数。
> lapply(x,fivenum)
$a
[1]  1.0  3.0  5.5  8.0 10.0

$b
[1]  0.7585424  9.7011387 12.5215985 14.3662366 21.5321427

$c
[1] 0.0 0.0 0.5 1.0 1.0

lapply就可以很方便地把list数据集进行循环操作了,还可以用data.frame数据集按列进行循环,但如果传入的数据集是一个向量或矩阵对象,那么直接使用lapply就不能达到想要的效果了。

比如,对矩阵的列求和。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# 生成一个矩阵
> x <- cbind(x1=3, x2=c(2:1,4:5))
> x; class(x)
     x1 x2
[1,]  3  2
[2,]  3  1
[3,]  3  4
[4,]  3  5
[1] "matrix"

# 求和
> lapply(x, sum)
[[1]]
[1] 3

[[2]]
[1] 3

[[3]]
[1] 3

[[4]]
[1] 3

[[5]]
[1] 2

[[6]]
[1] 1

[[7]]
[1] 4

[[8]]
[1] 5

lapply会分别循环矩阵中的每个值,而不是按行或按列进行分组计算。

如果对数据框的列求和。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> lapply(data.frame(x), sum)
$x1
[1] 12

$x2
[1] 12

lapply会自动把数据框按列进行分组,再进行计算。

4. sapply函数

sapply函数是一个简化版的lapply,sapply增加了2个参数simplify和USE.NAMES,主要就是让输出看起来更友好,返回值为向量,而不是list对象。

函数定义:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
sapply(X, FUN, ..., simplify=TRUE, USE.NAMES = TRUE)

参数列表:

  • X:数组、矩阵、数据框
  • FUN: 自定义的调用函数
  • …: 更多参数,可选
  • simplify: 是否数组化,当值array时,输出结果按数组进行分组
  • USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置

我们还用上面lapply的计算需求进行说明。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> x <- cbind(x1=3, x2=c(2:1,4:5))

# 对矩阵计算,计算过程同lapply函数
> sapply(x, sum)
[1] 3 3 3 3 2 1 4 5

# 对数据框计算
> sapply(data.frame(x), sum)
x1 x2 
12 12 

# 检查结果类型,sapply返回类型为向量,而lapply的返回类型为list
> class(lapply(x, sum))
[1] "list"
> class(sapply(x, sum))
[1] "numeric"

如果simplify=FALSE和USE.NAMES=FALSE,那么完全sapply函数就等于lapply函数了。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> lapply(data.frame(x), sum)
$x1
[1] 12

$x2
[1] 12

> sapply(data.frame(x), sum, simplify=FALSE, USE.NAMES=FALSE)
$x1
[1] 12

$x2
[1] 12

对于simplify为array时,我们可以参考下面的例子,构建一个三维数组,其中二个维度为方阵。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> a<-1:2

# 按数组分组
> sapply(a,function(x) matrix(x,2,2), simplify='array')
, , 1

     [,1] [,2]
[1,]    1    1
[2,]    1    1

, , 2

     [,1] [,2]
[1,]    2    2
[2,]    2    2

# 默认情况,则自动合并分组
> sapply(a,function(x) matrix(x,2,2))
     [,1] [,2]
[1,]    1    2
[2,]    1    2
[3,]    1    2
[4,]    1    2

对于字符串的向量,还可以自动生成数据名。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
> val<-head(letters)

# 默认设置数据名
> sapply(val,paste,USE.NAMES=TRUE)
  a   b   c   d   e   f 
"a" "b" "c" "d" "e" "f" 

# USE.NAMES=FALSE,则不设置数据名
> sapply(val,paste,USE.NAMES=FALSE)
[1] "a" "b" "c" "d" "e" "f"
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 优雅R 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
75张图带你了解网络设备、网络地址规划、静态路由、实战演练
大刘的电脑 A 和小美的电脑 B 可以通过网线连接起来,组成一个网络。A 发出来数据,B 都能接收到。反之 A 可以接收 B 发出来的所有数据。
ICT售前新说
2021/04/30
1.6K0
75张图带你了解网络设备、网络地址规划、静态路由、实战演练
网络原理(四)——网络层协议
主机: 配有IP地址, 但是不进行路由控制的设备; 路由器: 即配有IP地址, 又能进行路由控制; 节点: 主机和路由器的统称;
海盗船长
2020/08/27
7220
转发表(MAC表)、ARP表、路由表总结
计算机网络中一个关键步骤在于通信路径上不同节点对于流经本节点的数据包转发,常见的交换设备主要是交换机(第二层、三层)和路由器(第三层),在实际运行时,它们各自维护一些表结构帮助完成数据包的正确寻址与转发,本文详细介绍了三张至关重要的表:转发表、ARP表与路由表的在网络数据包转发功能中发挥的作用,以及它们协同工作的原理,顺便也会接着之前的文章继续谈谈交换机和路由器的一些事儿。
我是东东东
2018/08/01
29.4K4
转发表(MAC表)、ARP表、路由表总结
查看路由表,您知道“静态路由、默认路由和动态路由”是啥吗?
学习了ip协议,知道怎么判断两台机器是否在同一个子网。如果它们不在一个子网,不同网段的机器,要如何实现通信呢?
清菡
2021/12/09
4.1K0
查看路由表,您知道“静态路由、默认路由和动态路由”是啥吗?
【愚公系列】2021年12月 网络工程-抓包(IP包头分析与静态路由)
文章目录 前言 一:引言 二:IP数据包格式 三:路由概述 四:路由器的工作原理 五:路由表的形成 六:静态路由 七:默认路由 八:交换与路由对比 九:路由相关命令 ---- 前言 抓包工具推荐科来网络分析系统 ---- 提示:以下是本篇文章正文内容,下面案例可供参考 一:引言 二:IP数据包格式 三:路由概述 路由 跨越从源主机到目标主机的一个互联网络来转发数据包的过程 四:路由器的工作原理 五:路由表的形成 路由表 路由器中维护的路由条目的集合 路由器根据路由表做路径选择 路由表
愚公搬代码
2022/12/01
2400
【愚公系列】2021年12月 网络工程-抓包(IP包头分析与静态路由)
IP协议(网络)
主机: 配有IP地址, 但是不进行路由控制的设备; 路由器: 即配有IP地址, 又能进行路由控制; 节点: 主机和路由器的统称;
ljw695
2025/01/03
2210
IP协议(网络)
linux之路由知识之ip route 命令中的疑惑[通俗易懂]
基于策略的路由比传统路由在功能上更强大,使用更灵活,它使网络管理员不仅能够根据目的地址而且能够根据报文大小、应用或IP源地址等属性来选择转发路径。
全栈程序员站长
2022/09/09
7.6K0
linux之路由知识之ip route 命令中的疑惑[通俗易懂]
Linux网络管理
本文包括: 查看网络接口、配置网络接口、重启网络接口、路由命令 route、主机名称命令 hostname、网络工具
Theo Tsao
2018/09/07
2K0
路由知识大全
假设上面的图例,R3后面还有一个网段,比如192.168.20.0,那么在R1上可以这样写:
玖柒的小窝
2021/09/18
5280
路由知识大全
Linux下路由配置梳理
在日常运维作业中,经常会碰到路由表的操作。下面就linux运维中的路由操作做一梳理: ------------------------------------------------------------------------------ 先说一些关于路由的基础知识: 1)路由概念 路由:   跨越从源主机到目标主机的一个互联网络来转发数据包的过程 路由器:能够将数据包转发到正确的目的地,并在转发过程中选择最佳路径的设备 路由表:在路由器中维护的路由条目,路由器根据路由表做路径选择 直连路由:当在路由器
洗尽了浮华
2018/01/23
7.5K0
Linux下路由配置梳理
路由器详细讲解
路由器是一种网络设备,它在计算机网络中扮演着至关重要的角色,主要用于连接不同的网络,并根据数据包的目的地址选择合适的路径进行转发。以下是对路由器的详细讲解:
久绊A
2025/05/05
4030
TCP/IP 模型中,网络层对 IP 地址的分配与路由选择
TCP/IP 模型 是现代网络通信的基础架构,它由四个层次组成:应用层、传输层、网络层和数据链路层。在这个模型中,网络层 负责 IP 地址的分配、路由选择和数据包的转发。具体来说,网络层负责将数据包从源主机传递到目标主机,并且确定最佳的路径,这一切的核心便是 IP 地址的分配与路由选择。
神的孩子都在歌唱
2025/03/05
3540
TCP/IP 模型中,网络层对 IP 地址的分配与路由选择
【Linux网络#13】:网络层(IP 协议 & 网络通信 & 全球网络 & 路由转发)
🔥个人专栏:Linux—登神长阶 最后的最后,这里送大家一句话,希望大家于2025年一起奋斗,诸君共勉 💫
IsLand1314
2025/06/02
1740
【Linux网络#13】:网络层(IP 协议 & 网络通信 & 全球网络 & 路由转发)
71张图详解IP 地址、IP 路由、分片和重组、三层转发、ARP、ICMP
这要从 TCP/IP 协议说起,互联网使用的是 TCP/IP 协议,其中 IP 协议又是最重要的协议之一。IP 协议是基于 IP 地址将数据包发送给目的主机,能够让互联网上任何两台主机进行通信。
网络工程师笔记
2021/05/17
1.8K0
71张图详解IP 地址、IP 路由、分片和重组、三层转发、ARP、ICMP
linux 路由表设置 之 route 指令详解
2016年08月07日 11:25:58 xingpacer 阅读数:43344更多
拓荒者
2019/06/02
15.7K0
配置静态路由,动态路由,默认路由模式_默认路由为网络和掩码
路由(routing)是指分组从源到目的地时,决定端到端路径的网络范围的进程 [1] 。路由工作在OSI参考模型第三层——网络层的数据包转发设备。路由器通过转发数据包来实现网络互连。虽然路由器可以支持多种协议(如TCP/IP、IPX/SPX、AppleTalk等协议),但是在我国绝大多数路由器运行TCP/IP协议。路由器通常连接两个或多个由IP子网或点到点协议标识的逻辑端口,至少拥有1个物理端口。路由器根据收到数据包中的网络层地址以及路由器内部维护的路由表决定输出端口以及下一跳地址,并且重写链路层数据包头实现转发数据包。路由器通过动态维护路由表来反映当前的网络拓扑,并通过网络上其他路由器交换路由和链路信息来维护路由表。\
全栈程序员站长
2022/10/01
4K0
配置静态路由,动态路由,默认路由模式_默认路由为网络和掩码
TCP/IP第三层--网络层
1)、主要功能:负责点到点(point-to-point)的传输(这里的“点”指主机或路由器)
黄规速
2022/04/14
1.1K0
TCP/IP第三层--网络层
【在Linux世界中追寻伟大的One Piece】网络层
网络层是计算机网络中的一个重要层次,它负责在多个网络之间传输数据包,并通过路由选择算法为分组通过通信子网选择最适当的路径。网络层的核心协议是IP(Internet Protocol),它提供了一种不可靠的端到端数据包传输服务,依赖于IP地址来实现数据的寻址和转发。网络层还包括其他协议,如ICMP(Internet Control Message Protocol)用于传递控制信息,以及IGMP(Internet Group Management Protocol)用于管理多播组成员。网络层使用的中间设备是路由器,它连接不同的网络并根据路由表转发数据包。
枫叶丹
2024/09/07
1570
【在Linux世界中追寻伟大的One Piece】网络层
Linux网络-IP协议
网络层就是为了解决不同网络有不同的规范要求的差异问题,寻找一个不同网络间都能共同遵守的网络通信规范,以便不同网络间能相互识别,并接受对方的网络请求。也就是一个中转站的作用,两个毫无交集的网络通过这个中转站来建立交集
用户9645905
2022/11/15
4.3K0
Linux网络-IP协议
第四章 TCP/IP 网络层设备路由器
路由(routing)是指分组从源到目的地时,决定端到端路径的网络范围的进程  。路由工作在OSI第三层——网络层的数据包转发设备。
网络豆
2022/11/20
3060
第四章 TCP/IP 网络层设备路由器
推荐阅读
相关推荐
75张图带你了解网络设备、网络地址规划、静态路由、实战演练
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验