最近在研究excel透视图,想到好像自己在R-分组操作并不是很流畅,顺便学习分享一下。R自带数据集比较多,今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算(操作)。
R语言与Python的Pandas中具有非常丰富的数据聚合功能,今天就跟大家盘点一下这些函数的用法。 R语言: transform mutate aggregate grouy_by+summar
t检验相信大家应该都不陌生。不管是大学里面的数理与统计,还是研究生阶段的生物统计学,里面都会提到t检验。
不再是循环,而是向量操作,这个包的目的是简化apply类函数。 其相当于split和apply函数的整合。
经过这张图,我们可以初步得到的信息是:(1)T1到T4各个分期的患者总数(2)T1期男性患者的数目,T1女性患者的数目(3)其他分期男性或者女性的患者数目。
马赛克图(mosaic plot),显示分类数据中一对变量之间的关系,原理类似双向的100%堆叠式条形图,但其中所有条形在数值/标尺轴上具有相等长度,并会被划分成段。可以通过这两个变量来检测类别与其子类别之间的关系。
有三种方法描述基于一些特定变量的分组数据,然后对每一组使用总结函数(像均值、标准差等等)。
RTCGA是一系列根据数据类型分离的包,相当于要先下载这些离线数据R包之后再直接从离线数据包里面获取TCGA的所有数据。最新的版本可以加载下图所有的包,可谓是非常强大了。
最近在画UMAP的时候发现有的时候细胞亚群的注释与点重合颜色上不是很搭配,同事提出让注释“支棱”起来,首先想到的是ggforce中的geom_mark_ellipse,实践中遇到一些问题(比如,ggforce会受outlier影响,看起来比较乱),于是有了这一篇Single cell的记录。
数据集下载链接 http://userweb.eng.gla.ac.uk/umer.ijaz/bioinformatics/ecological/SPE_pitlatrine.csv
整理数据的本质可以归纳为:对数据进行分割(Split),然后应用(Apply)某些处理函数,最后将结果重新组合(Combine)成所需的格式返回,简单描述为:Split - Apply - Combine。plyr包是Hadley Wickham为解决split – apply – combine问题而写的一个包。使用plyr包可以针对不同的数据类型,在一个函数内同时完成split – apply – combine三个步骤。plyr包的主函数是**ply形式的,函数名的第一个字符代表输入数据的类型,第二个字符代表输出数据的类型,其中第一个字符可以是(d、l、a),第二个字母可以是(d、l、a、_ ),不同的字母表示不同的数据格式,d表示数据框格式,l表示列表,a表示数组,_则表示没有输出。
新媒体管家 大约3年前我开始使用R,起初进展很慢,与我习惯的语言相比,语法更加直观也比较简单,而且需要一段时间才能习惯于细微的差别。我还不清楚语言的力量与社区和各种包的密切关系。 和其他语言(比如Py
数据处理在数据分析流程中的地位相信大家都有目共睹,也是每一个数据从业者面临的最为繁重的工作任务。 在实际应用场景下,虽然SQL(SQL类专业的etl语言)是数据处理的首选明星语言,性能佳、效率高、容易培养数据思维,但是SQL没法处理构建全流程的数据任务,之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言,数据处理是其一大特色功能,事实上每一个处理任务在R语言中都有着不止一套解决方案(这通常也是初学者在入门R语言时,感觉内容太多无从下手的原因),当然这些不同方案确实存在
继续“一图胜千言”系列,直方图(Histogram)又称柱状图,是由一系列高度不等的纵条纹表示数据分布情况,也可以展示数据的概率分布情况。
今天要跟大家分享的是数据地图系列的第八篇——R语言版数据地图(下),分省(市级)热力地图。 步骤与昨天分享的中国热力地图步骤基本一致,只是需要调用的数据文件和需要自定义的指标文件略有本不同。 R语言系统环境配置: R version 3.2.3 RStudio Version 0.99.484 在正式开始之前,必须确保你的R语言环境中已经安装以下包: ggplot2 plyr maptools 如果还未安装,需要先安装:install.packages("ggplot2","plyr","maptools
最近几天推送频率之所以下降了,不是因为偷懒,是在攻克一个难题~ 还记得前一篇推送,关于山东省财政数据可视化那一篇,因为没有精准、最新的山东省县级市边界地图素材数据,花了好多冤枉功夫,搜地图素材各种碰壁,最后的得到的地图数据并不尽如人意。 现在shp的素材相比json整体都不太流行了,无论是制作成本上还是占用内存上以及与实际行政区划的更新速度上,json地图素材轻便、时效、易获取,很多网站都提供这种轻量级的数据文件。 可是json文件遵循的JS语法,导入R中之后,全部被强制转化为各种嵌套的list、data.
通常我们在政治新闻或者财经日报中看到的数据可视化图表中,美国地图中的两个海外州——阿拉斯加和夏威夷都是被平移过的,主要因为这两个海外州偏离本土太远,使用原始位置会使得美国地图的整体比例尺偏大,局部内容
https://www.nature.com/articles/s41467-022-29144-4#code-availability
为体现组间差异,可能大部分人都会第一个想到箱图(boxplot)来展示;但是当审稿人看到满屏Figure都是箱图的时候,肯定会觉得作者团队数据可视化能力还有待提高,如何给审稿人美好的第一印象,科研数据的可视化非常重要,相同的数据,除了箱图,我们还可以使用小提琴图或者密度分布图来展示结果,而且尽量让一些统计学结果体现在图里。
1、引子 朴素贝叶斯方法是一种使用先验概率去计算后验概率的方法,其中 朴素 的意思实际上指的是一个假设条件,后面在举例中说明。本人以为,纯粹的数学推导固然有其严密性、逻辑性的特点,但对我等非数学专业的人来说,对每一推导步骤的并非能透彻理解,我将从一个例子入手,类似于应用题的方式,解释朴素贝叶斯分类器,希望能对公式的理解增加形象化的场景。 2、实例 最近“小苹果”很火,我们就以苹果来举例说,假设可以用三个特征来描述一个苹果,分别为“尺寸”、“重量”和“颜色”;其中“尺寸”的取值为小、大,“重量”的取值为轻、
要使Name列中的每个字符串都变为小写,选择Name列(参见数据选择教程),添加str访问器并应用lower方法。因此,每个字符串都被逐个转换。
柱形图 简介 英文:histogram或者column diagram 排列在工作表的列或行中的数据可以绘制到柱形图中。在柱形图中,通常沿水平轴组织类别,而沿垂直轴组织数值。 柱形图具有下列图表子类型
引子: 我们常常会遇到这样的问题,数据量很大,并不需要依顺序来依次处理。合理分块处理,并最终整合起来是一个不错的选择。这也就是所谓的Split-Apply-Combine Strategy策略。这在速度上会有比做一个loop有优势,因为它可以并行处理数据。 什么时候我们需要使用到化整为零的策略呢?有以下三种情况: 数据需要分组处理 数据需要按照每行或者每列来处理 数据需要分级处理,和分组很类似,但是分级时需要考虑分级之间的关系。 化整为零策略有点类似于由Google推广的map-reduce策略。当然ma
本教程介绍如何使用R软件和ggplot2包创建带有误差棒的图形。 可以使用以下函数创建不同类型的错误栏:
该点子来源于一个小作业,作业要求是使用R平台相关绘图工具绘制中国疫情热力图(10分),参考效果如下图:
R语言里的dplyr这个包group_by()函数加上summarise()函数分组计算方差均值等非常好用。比如一组数据
今天只给大家讲一个知识点,是属于ggplot2高阶用法中的分面与多图层关系如何对应,这个用法之前困扰我很久,也是最近帮朋友做东西才发现这个漏洞,于是感觉分享给大家。 ggplot2的多维分面系统非常完美,可以让我们非常方便的将一个多维度的复杂图形按照某个维度的类别进行矩阵化,使得单个类别的信息更加清晰明了,数据呈现直观易懂。 通常我们可以通过如下步骤做出一个基于地理位置的分面图来。 library(ggplot2) library(plyr) library(maptool
paste函数可以将多个字符型向量连接成一个向量,默认向量的值是用空格分隔的,我们可以通过sep参数指定分隔符号,而collapse参数可以用来指定这些值之间的连接符号。
这里使用ToothGrowth 数据集。它描述了维他命C对Guinea猪牙齿的生长影响。包含了三种不同的剂量(Vitamin C (0.5, 1, and 2 mg))和相应的两种不同使用方法( [orange juice (OJ) or ascorbic acid (VC)])。
这个周末刷微信的时候,偶然看到一篇关于R语言12月更新包的介绍,翻到底部看了一眼,刚好看到一个关于ggplot2的一个图层插件——geom_scatterpie。 这个包安装之后,可以提供给ggplot新的图层函数,并制作出气泡状饼图,饼图可以分类填色,饼图大小可以映射数值变量,特别是将这种图表形式引入地图之中,那么最终呈现的地图上的气泡饼图非常炫酷。 今天刚好整理了下完整思路,顺便分享。 library(ggplot2) library(plyr) library("maptools") library(
R是一种语法非常简单的表达式语言(expression language),大小写敏感。 可以在R 环境下使用的命名字符集依赖于R 所运行的系统和国家(系统的locale 设置),允许数字,字母,“.”,“_”
箱线图一般用于可视化基因的表达情况,常化用统计学方法计算组间基因的表达差异情况。以下主要是用boxplot和geom_boxplot
今天跟大家分享如何以百分比形式填充离散分段数据地图。 案例用环渤海三省二市的地理数据。 library(ggplot2) library(maptools) library(plyr) 数据导入、转换、抽取 CHN_adm2 <- readShapePoly("c:/rstudy/CHN_adm/CHN_adm2.shp") CHN_adm2_1 <- fortify(CHN_adm2) data1 <- CHN_adm2@data data2 <- data.frame(id=
我对ddply()这个函数是不熟悉的,只知道hadley一个过时的包plyr里有一系列这样的函数。所以我首先想到的是这位朋友用错了。不过我马上就排除了,这种问题是非常容易发现和处理的。
在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building),也就是B型数据科学。 从工具上来看,按由业务到工程的顺序,这个两条是:EXCEL >> R >> Python >> Scala 在实际工作中,对于小数据集的简单分析来说,使用EXCEL绝对是最佳选择。当我们需要更多复杂的统计分析和数据处理时,我们就需要转移到 Python和R上。在确定工程实施和大数据集操作时,我们就需要依赖Scala 的静态类型等工程方法构建完整的数据分析系统。 Scala和Excel是两个极端,对于大多数创业公司而言,我们没有足够多的人手来实现专业化的分工,更多情况下,我们会在Python和R上花费更多的时间同时完成数据分析(A型)和数据构建(B型)的工作。而许多人也对 Python和R的交叉使用存在疑惑,所以本文将从实践角度对Python和R中做了一个详细的比较。
本文由知乎著名答主黄宝臣原创,CDA数据分析师已获得授权 学R主要在于5点三阶段: 第一阶段有一点:基础的文件操作(read.*,write.*)、数据结构知识,认识什么是数据框(data.frame)、列表(list)、矩阵(matrix)、向量(vector),如何提取(包括which, []等)、置换(t, matrix等)、删除(-, which等)、运算(+, -, *, / , %%, %/%等)、转换(as.*)、修改(edit, fix等)数据(包括单个数、行、列、表、变量),安装包、调用
之前写过两篇关于使用animation包来制作时间维度动态可视化GIF图,效果还是很棒的,最近又发现了一个好玩的包——gganimate,它也是主打制作时间维度动态可视化的,不过该包将动态展示的技术通过一个参数封装到了aes()函数里面,这就意味着我们省去了写繁琐的循环,直接可以通过ggplot函数一步搞定复杂的动态图表制作。 但是方便 至于必然存在缺陷,由于该包给我们的自由调整空间太小,我甚至无法调整输出图表的质量、尺寸,导致最终的成图看起来非常的怪异,无奈每一个案例效果我都用animation包又从新实
熟悉R的朋友都会知道, dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。对于这个问题,今天即将需要介绍的 dplyr-cli就能很好的解决这个问题。
2017年元旦,中国政府开始正式启动CRS,听起来好高端哦,但是管我屁事! 先别着急,如果你有大量的资产或者收入配置在海外,这个真的就关你的事儿了,那么具体CRS会对中国的高收入群体产生怎样的影响呢,下面就让小编来给大家讲讲! 首先告诉大家CRS是个什么鬼? CRS全称COMMON REPORTING STANDARD,中文即“共同申报准则”。2014年,亚太经合组织(OECD)发布了《金融账户涉税信息自动交换标准》,其中CRS就是标准之一(说明还有其他的标准哦),这个法案主要是通过签署国相互披露对方国家公
可以使用函数geom_line()、geom_step()或geom_path()。
本文讲述了数据准备和数据管理的重要性,以及使用dplyr和reshape2包进行数据操作的具体例子。数据管理包括数据准备、数据操作和数据可视化,而数据准备又包括数据清洗、数据转换和数据合并等。通过使用这些工具,可以更好地处理和分析数据,从而得出有用的结论。
笔者寄语:本文中大多内容来自《数据挖掘之道》,本文为读书笔记。在刚刚接触机器学习的时候,觉得在监督学习之后,做一个混淆矩阵就已经足够,但是完整的机器学习解决方案并不会如此草率。需要完整的评价模型的方式。
本文主要表达如何使用ggplot2绘制线图。线图一般表达的目的是:某个因变量随着自变量改变而变化的趋势。因变量可以为数值型变量或者分类变量。可供选的函数有: geom_line(), geom_step(), geom_path() 举例来说:因变量可以是
今天是一个案例应用,采用东北三省地图进行离散颜色映射,让大家感受下R语言在地理信息空间可视化方面的强大功能,同时也会对之前强调过的地图配色技巧进行应用。 加载工具包: library(ggplot2) ###绘图函数 library(plyr) ###数据合并工具 library(maptools) ###地图素材导入 library(sp) library(Cairo) #图片高清导出 library(RColorBrewer) ###有一些高质量
这是「进击的Coder」的第 571 篇技术分享作者:崔庆才 最近在开发一个前端项目,用到播放视频的功能,所以就查了下有什么前端的视频播放器库可以使用,今天来分享一下给大家。 这个库的名字叫做 Plyr,顾名思义其实就是 Player 的缩写,整体的预览效果如下: 官方网站:https://plyr.io/ GitHub 地址是:https://github.com/sampotts/plyr 看来一圈,发现这个库不仅美观优雅,而且功能十分丰富。 下面我们来介绍下它的一些内置功能。 总体概览 首先我们来
随机森林(random forest)是一种组成式的有监督学习方法,可视为决策树的扩展。
R语言作为一门统计计算和数据可视化为核心特色的工具性语言,其在可视化领域或者说数据呈现方面有着非常成熟和系统的解决方案。
(1)在分析过程中,难免会产生很多中间变量,它们会占用大量内存。书中提到通常会将所有的临时中间变量命名为temp,只需要保证下一个temp出现之前,临时变量不会再延用就可以了。
1、merge(a,b),纯粹地把两个数据集合在一起,没有沟通a、b数据集的by,这样出现的数据很多,相当于a*b条数据;
领取专属 10元无门槛券
手把手带您无忧上云