前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >R语言包_dplyr_2

R语言包_dplyr_2

作者头像
用户1147754
发布于 2019-05-26 04:08:38
发布于 2019-05-26 04:08:38
73700
代码可运行
举报
文章被收录于专栏:YoungGyYoungGy
运行总次数:0
代码可运行
  • Loading dataset
  • Choosing columns select rename
  • Choosing rows filter between slice sample_n top_n distinct
  • Adding new variables mutate transmute add_rownames
  • Grouping and counting summarise tally count group_size n_groups ungroup
  • Creating data frames data_frame
  • Joining merging tables left_join right_join inner_join full_join semi_join anti_join
  • Viewing more output print View
  • 参考资料

Loading dataset

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# remove flights data if you just finished my previous tutorial
rm(flights)
# load packages
suppressMessages(library(dplyr))
library(nycflights13)

# print the flights dataset from nycflights13
flights

Choosing columns: select, rename

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# besides just using select() to pick columns...
flights %>% select(carrier, flight)

# ...you can use the minus sign to hide columns
flights %>% select(-month, -day)
# hide a range of columns
flights %>% select(-(dep_time:arr_delay))

# hide any column with a matching name
flights %>% select(-contains("time"))
# pick columns using a character vector of column names
cols <- c("carrier", "flight", "tailnum")
flights %>% select(one_of(cols))
# select() can be used to rename columns, though all columns not mentioned are dropped
flights %>% select(tail = tailnum)

# rename() does the same thing, except all columns not mentioned are kept
flights %>% rename(tail = tailnum)

Choosing rows: filter, between, slice, sample_n, top_n, distinct

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# filter() supports the use of multiple conditions
flights %>% filter(dep_time >= 600, dep_time <= 605)
# between() is a concise alternative for determing if numeric values fall in a range
flights %>% filter(between(dep_time, 600, 605))

# side note: is.na() can also be useful when filtering
flights %>% filter(!is.na(dep_time))
# slice() filters rows by position
flights %>% slice(1000:1005)

# keep the first three rows within each group
flights %>% group_by(month, day) %>% slice(1:3)

# sample three rows from each group
flights %>% group_by(month, day) %>% sample_n(3)

# keep three rows from each group with the top dep_delay
flights %>% group_by(month, day) %>% top_n(3, dep_delay)

# also sort by dep_delay within each group
flights %>% group_by(month, day) %>% top_n(3, dep_delay) %>% arrange(desc(dep_delay))
# unique rows can be identified using unique() from base R
flights %>% select(origin, dest) %>% unique()
# dplyr provides an alternative that is more "efficient"
flights %>% select(origin, dest) %>% distinct()

# side note: when chaining, you don't have to include the parentheses if there are no arguments
flights %>% select(origin, dest) %>% distinct

Adding new variables: mutate, transmute, add_rownames

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# mutate() creates a new variable (and keeps all existing variables)
flights %>% mutate(speed = distance/air_time*60)

# transmute() only keeps the new variables
flights %>% transmute(speed = distance/air_time*60)
# example data frame with row names
mtcars %>% head()

# add_rownames() turns row names into an explicit variable
mtcars %>% add_rownames("model") %>% head()

# side note: dplyr no longer prints row names (ever) for local data frames
mtcars %>% tbl_df()

Grouping and counting: summarise, tally, count, group_size, n_groups, ungroup

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# summarise() can be used to count the number of rows in each group
flights %>% group_by(month) %>% summarise(cnt = n())
# tally() and count() can do this more concisely
flights %>% group_by(month) %>% tally()
flights %>% count(month)
# you can sort by the count
flights %>% group_by(month) %>% summarise(cnt = n()) %>% arrange(desc(cnt))
# tally() and count() have a sort parameter for this purpose
flights %>% group_by(month) %>% tally(sort=TRUE)
flights %>% count(month, sort=TRUE)
# you can sum over a specific variable instead of simply counting rows
flights %>% group_by(month) %>% summarise(dist = sum(distance))
# tally() and count() have a wt parameter for this purpose
flights %>% group_by(month) %>% tally(wt = distance)
flights %>% count(month, wt = distance)
# group_size() returns the counts as a vector
flights %>% group_by(month) %>% group_size()

# n_groups() simply reports the number of groups
flights %>% group_by(month) %>% n_groups()
# group by two variables, summarise, arrange (output is possibly confusing)
flights %>% group_by(month, day) %>% summarise(cnt = n()) %>% arrange(desc(cnt)) %>% print(n = 40)

# ungroup() before arranging to arrange across all groups
flights %>% group_by(month, day) %>% summarise(cnt = n()) %>% ungroup() %>% arrange(desc(cnt))
flights %>% group_by(month, day) %>% summarise(cnt = n()) %>% arrange(desc(cnt))  %>% filter(month==7)

Creating data frames: data_frame

data_frame() is a better way than data.frame() for creating data frames. Benefits of data_frame():

  • You can use previously defined columns to compute new columns.
  • It never coerces column types.
  • It never munges column names.
  • It never adds row names.
  • It only recycles length 1 input.
  • It returns a local data frame (a tbl_df).
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# data_frame() example
x = data_frame(a = 1:6, b = a*2, c = 'string', 'd+e' = 1) %>% glimpse()
# data.frame() example
x1 = data.frame(a = 1:6, c = 'string', 'd+e' = 1) %>% glimpse()

Joining (merging) tables: left_join, right_join, inner_join, full_join, semi_join, anti_join

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# create two simple data frames
(a <- data_frame(color = c("green","yellow","red"), num = 1:3))
(b <- data_frame(color = c("green","yellow","pink"), size = c("S","M","L")))

# only include observations found in both "a" and "b" (automatically joins on variables that appear in both tables)
inner_join(a, b)

# include observations found in either "a" or "b"
full_join(a, b)

# include all observations found in "a"
left_join(a, b)

# include all observations found in "b"
right_join(a, b)

# right_join(a, b) is identical to left_join(b, a) except for column ordering
left_join(b, a)

# filter "a" to only show observations that match "b"
semi_join(a, b)

# filter "a" to only show observations that don't match "b"
anti_join(a, b)
# sometimes matching variables don't have identical names
b <- b %>% rename(col = color)

# specify that the join should occur by matching "color" in "a" with "col" in "b"
inner_join(a, b, by=c("color" = "col"))

Viewing more output: print, View

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# specify that you want to see more rows
flights %>% print(n = 15)
# specify that you want to see ALL rows (don't run this!)
flights %>% print(n = Inf)
# specify that you want to see all columns
flights %>% print(width = Inf)
# show up to 1000 rows and all columns
flights %>% View()

# set option to see all columns and fewer rows
options(dplyr.width = Inf, dplyr.print_min = 6)

# reset options (or just close R)
options(dplyr.width = NULL, dplyr.print_min = 10)

参考资料

justmarkham的github

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2015年09月03日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
图解YU12、I420、YV12、NV12、NV21、YUV420P、YUV420SP、YUV422P、YUV444P的区别
YUV模型是根据一个亮度(Y分量)和两个色度(UV分量)来定义颜色空间,常见的YUV格式有YUY2、YUYV、YVYU、UYVY、AYUV、Y41P、Y411、Y211、IF09、IYUV、YV12、YVU9、YUV411、YUV420等,其中比较常见的YUV420分为两种:YUV420P和YUV420SP。
全栈程序员站长
2022/09/13
3.3K0
图解YU12、I420、YV12、NV12、NV21、YUV420P、YUV420SP、YUV422P、YUV444P的区别
【音视频原理】图像相关概念 ⑤ ( YUV 数据存储 | I444 格式说明 | I422 格式说明 | I420 格式说明 | NV12 格式说明 | NV21 格式说明 )
YUV 4:4:4 采样格式 , Y 亮度分量 与 UV 色度分量 的比例是 1:1 ;
韩曙亮
2024/01/21
1.3K0
【音视频原理】图像相关概念 ⑤ ( YUV 数据存储 | I444 格式说明 | I422 格式说明 | I420 格式说明 | NV12 格式说明 | NV21 格式说明 )
针对 YUV420 颜色空间的深度图像压缩研究
目前,大多数深度图像压缩方法被设计用来压缩 RGB 颜色空间的图像。然而传统的视频编码标准,则主要设计来压缩 YUV420 色彩空间的图像。在这个研究中,作者首先研究如何调整 RGB 图像的深度压缩框架,以压缩 YUV420 图像。然后研究了调整 YUV 通道的训练失真权重时对编码性能的影响,并将实验结果与 HEVC 和 VVC AI 配置进行比较。提出的方法适用于图像压缩和视频压缩的帧内编码。
用户1324186
2022/02/18
1.3K0
针对 YUV420 颜色空间的深度图像压缩研究
YUV数据格式
最近在做直播视频通话、自定义采集应用,恶补了YUV格式相关的问题,这篇文章就记录一下。
ppchao
2020/11/13
1.5K0
YUV数据格式
详解YUV数据格式
我们在讲 FFmpeg 系列的时候,有提到 YUV 的。其中包括YUV播放器、简单的YUV格式介绍。
233333
2019/08/02
2K0
安卓Camera2 YUV_420_888
Image类在API 19中引入,但真正开始发挥作用还是在API 21引入CameraDevice和MediaCodec的增强后。API 21引入了Camera2,deprecated掉了Camera,确立Image作为相机得到的原始帧数据的载体;硬件编解码的MediaCodec类加入了对Image和Image的封装ImageReader的全面支持。可以预见,Image将会用来统一Android内部混乱的中间图片数据(这里中间图片数据指如各式YUV格式数据,在处理过程中产生和销毁)管理。
ppchao
2020/11/13
2.7K0
安卓Camera2  YUV_420_888
音视频技术基础(三)--音视频数据格式
后面会讲关于音视频处理及渲染的内容,渲染和处理都是对音视频raw数据的操作,所以我们先来学习一下音视频的数据格式。
黑眼圈云豆
2020/07/09
1.5K0
深度解析视频颜色空间YUV420P和YUV420SP的异同
本文重点介绍Planar平面模式的存储形式,YUV420P和YUV420SP的差异从名字上就可以看出一二,主要看S的含义。S是Semi(半的)的缩写,SP就是Semi-Planar,意思是半平面存储形式。前者是Y、U、V分量分别存储在三个平面中,总共占用三个平面;后者是Y分量单独存储在一个平面中,UV分量共同存储在另一个平面中,总共占用两个平面。
liuzhen007
2025/03/27
1540
深度解析视频颜色空间YUV420P和YUV420SP的异同
图像传感器-RAW格式辨析
图像传感器数据手册里面经常会出现RAW格式,我以前一直在找RAW格式的标准是啥,但是找不到,今天应该算是解惑了。
云深无际
2024/08/21
4610
图像传感器-RAW格式辨析
音视频平凡之路之YUV像素介绍
了解过计算机图形图像学的同学应该知道,有两种方式表示图像,RGB和YUV,视频由一帧一帧的图像组成,每一张图片是由一个一个的像素点组成,既然有两种表示像素的方法,那肯定要了解一下两种表示方式的异同以及优缺点。
马上就说
2020/11/11
1.2K0
YUV420 YUV420sp 图像格式「建议收藏」
YUV定义:分为三个分量,“Y”表示明亮度(Luminance或Luma),也就是灰度值;而“U”和“V” 表示的则是色度(Chrominance或Chroma),作用是描述影像色彩及饱和度,用于指定像素的颜色。
全栈程序员站长
2022/07/25
1K0
详解YUV系列(三)-------YUV420
YUV420格式的采样,对于每个2*2的像素块中,采样4次Y,采样1次U和1次V。与YUV422相同,不同的存储方式同样也形成了不同的格式,详见存储示意图喽。
视界音你而不同
2020/04/10
3.3K0
详解YUV系列(三)-------YUV420
音视频知识体系(基础篇3)----图像颜色空间
我们从视频的信号表示方法开始讲起,逐步深入到视频压缩编码的原理。我们主要从下面几个要点来讲解或者加深记忆。
jerrypxiao
2021/02/04
2K0
深入探索视频帧中的颜色空间—— RGB 和 YUV
接触前端音视频之后,需要掌握大量音视频和多媒体相关的基础知识。在使用 FFmpeg + WASM 进行视频帧提取时,涉及到视频帧和颜色编码等相关概念。本文将对视频帧中的颜色空间进行介绍。 一、视频帧 对于视频,我们都知道是由一系列的画面在一个较短的时间内(通常是 1/24 或 1/30 秒)不停地下一个画面替换上一个画面形成连贯的画面变化。这些画面称之为视频帧。 对于视频帧,在现代视频技术里面,通常都是用 RGB 颜色空间或者 YUV 颜色空间的像素矩阵来表示。在 ffmpeg 里面,我们可以看到源码 li
用户1097444
2022/06/29
1.9K0
深入探索视频帧中的颜色空间—— RGB 和 YUV
图像基础知识之YUV
YUV是编译true-color颜色空间(color space)的种类,Y’UV, YUV, YCbCr,YPbPr等专有名词都可以称为YUV,彼此有重叠。“Y”表示明亮度(Luminance、Luma),“U”和“V”则是色度与浓度(Chrominance、Chroma)
全栈程序员站长
2022/09/07
1.2K0
图像基础知识之YUV
YUV文件格式[通俗易懂]
转:https://blog.csdn.net/armwind/article/details/52190123,文章不错特转载过来备忘
全栈程序员站长
2022/09/13
2.3K0
YUV文件格式[通俗易懂]
YUV图像合成原理[通俗易懂]
引言:在视频监控中最常用的就是图像拼接和字符叠加,25FPS的视频流,如果每隔40MS就从各个通道中取一幅图像来合成,则可以看到一个实时的合成视频。合成的过程也就是原始图像的拼接、缩放的过程,本文主要阐述UV分开存储的YUV420图像拼接的过程,实现下图的效果。
全栈程序员站长
2022/09/13
1.2K0
YUV图像合成原理[通俗易懂]
音视频面试题集锦 2022.10
我们在知识星球上创建的音视频技术社群关键帧的音视频开发圈已经运营了一段时间了,在这里群友们会一起做一些打卡任务。比如:周期性地整理音视频相关的面试题,汇集一份音视频面试题集锦,你可以看看这个合集:音视频面试题集锦。再比如:循序渐进地归纳总结音视频技术知识,绘制一幅音视频知识图谱,你可以看看这个合集:音视频知识图谱。
关键帧
2022/11/29
1.5K0
手机广告常见的10bit是什么?YUV444、YUV422、YUV420、YUV411是什么?
2)如何理解YUV444、YUV422、YUV420、YUV411?YUV420为何不命名为“更合理的YUV411”?
微帧Visionular
2024/11/18
5550
手机广告常见的10bit是什么?YUV444、YUV422、YUV420、YUV411是什么?
播放器基础--YUV色彩模型
做过camera, 播放器,图片处理的对YUV都不会陌生,但是关于YUV有很多的格式YUV420, NV21, YUV420sp, YV12等等往往令人混乱
小蚂蚁与大象
2020/06/09
1.1K0
相关推荐
图解YU12、I420、YV12、NV12、NV21、YUV420P、YUV420SP、YUV422P、YUV444P的区别
更多 >
LV.3
架构师流媒体音视频研发
目录
  • Loading dataset
  • Choosing columns: select, rename
  • Choosing rows: filter, between, slice, sample_n, top_n, distinct
  • Adding new variables: mutate, transmute, add_rownames
  • Grouping and counting: summarise, tally, count, group_size, n_groups, ungroup
  • Creating data frames: data_frame
  • Joining (merging) tables: left_join, right_join, inner_join, full_join, semi_join, anti_join
  • Viewing more output: print, View
  • 参考资料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档