首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Day4:R语言课程(向量和因子取子集)

,用函数head()查看data.frame的前6行: head(metadata) 之前已经提到data.frame默认使用字符值转换为因子。...str显示每列的具体信息: str(metadata) 'data.frame': 12 obs. of 3 variables: $ genotype : Factor w/ 2 levels...:返回数据集中的列名称 3.使用索引和序列选择数据 在分析数据时,我们经常要对数据进行分区,以便只处理选定的列或行。...仍以age向量为例: age 想知道age向量中的每个元素是否大于50,可以使用: age > 50 返回的是具有与age相同长度的逻辑值的向量,其中TRUE和FALSE值指示向量中的每个元素是否大于...虽然逻辑表达式将返回相同长度的TRUE和FALSE值的向量,但我们可以使用该which()函数输出值为TRUE的索引。

5.6K21

R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)

完全禁用引用,使用quote = ""。看到scan引号中嵌入引号的行为。只考虑读的性格,这是所有这些,除非colClasses指定的列引用。 参数:dec 字符用于在小数点文件。...空白领域也被认为是缺少逻辑,整数,数字和复杂的领域中的价值。 参数:colClasses 字符。须承担一个班的向量为列。必要时,回收或如果被命名为特征向量,未指定的值是NA。...可能的值是NA(默认情况下,当type.convert)"NULL"(列时跳过),一个原子的向量类(逻辑,整数,数字,复杂的,性格,原材料),或"factor","Date"或"POSIXct"。...参数:fileEncoding 字符串:如果非空的声明文件(未连接)上使用这样的字符数据可以被重新编码的编码。看到“编码”部分,帮助file“R数据导入/导出手册”和“注意”。...它是用来作为已知的Latin-1或UTF-8(见标记字符串Encoding):不使用它来重新编码输入,但允许R在他们的本地编码处理编码的字符串(如果这两个标准之一)。看到“价值”。

8.2K102
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)

    完全禁用引用,使用quote = ""。看到scan引号中嵌入引号的行为。只考虑读的性格,这是所有这些,除非colClasses指定的列引用。 参数:dec 字符用于在小数点文件。...空白领域也被认为是缺少逻辑,整数,数字和复杂的领域中的价值。 参数:colClasses 字符。须承担一个班的向量为列。必要时,回收或如果被命名为特征向量,未指定的值是NA。...可能的值是NA(默认情况下,当type.convert)"NULL"(列时跳过),一个原子的向量类(逻辑,整数,数字,复杂的,性格,原材料),或"factor","Date"或"POSIXct"。...参数:fileEncoding 字符串:如果非空的声明文件(未连接)上使用这样的字符数据可以被重新编码的编码。看到“编码”部分,帮助file“R数据导入/导出手册”和“注意”。...它是用来作为已知的Latin-1或UTF-8(见标记字符串Encoding):不使用它来重新编码输入,但允许R在他们的本地编码处理编码的字符串(如果这两个标准之一)。看到“价值”。

    2.7K20

    数据分析必备:掌握这个R语言基础包1%的功能让你事半功倍!(附代码)

    str函数在默认情况下会显示10行数据。使用str函数浏览导入的数据集可以让用户确定读取的数据是否正确、数据中是否有默认的部分、变量的种类等信息,进而确定下一步进行数据处理的方向。...header:设置逻辑值来指定函数是否将数据文件的第一列作为列名。默认为假。 sep:不同变量之间的分隔符,特指分隔列数据的分隔符。默认值为空,可以是“,”、“\t”等。...如果文件中的第一行比数据整体的列数量少一时,则会默认使用第一列来作为行名。 col.names:列名。可以通过指定一组向量来进行列名设置。 na.strings:对默认值的处理。...小提示:上面的演示代码中使用了head函数,该函数可以按照人们习惯的方式将数据框按照自上而下的方式显示出来,而不是像str函数那样从左向右展示。...当数据集行数较多,无法轻易地鉴别出某一列到底有多少个观测值需要赋值为“NA”的时候,可以配合unique函数进行处理。

    3.4K10

    R语言方差分析总结

    “医学和生信笔记,专注R语言在临床医学中的使用、R语言数据分析和可视化。主要分享R语言做医学统计学、临床研究设计、meta分析、网络药理学、临床预测模型、机器学习、生物信息学等。...,给出了统计量和P值,可以非常直观的看出哪两个组之间有差别。...前3列分别是b因素,c因素,a因素,每个因素有不同的水平,第4列是因变量(展示的图有乱码,不影响使用)。...,第2个是麻醉诱导时相及其与诱导方法交互作用的方差分析表。...但实际上这个结果是1型方差分析的结果,和课本上(SPSS默认3型,可参考推文:R语言做方差分析的注意事项)有一些不同之处,如果要完全一样,可以使用car::Anova()转化一下: car::Anova

    2.7K10

    数据分析必备:掌握这个R语言基础包1%的功能,你就很牛了

    str函数在默认情况下会显示10行数据。使用str函数浏览导入的数据集可以让用户确定读取的数据是否正确、数据中是否有默认的部分、变量的种类等信息,进而确定下一步进行数据处理的方向。...默认为假 sep:不同变量之间的分隔符,特指分隔列数据的分隔符。默认值为空,可以是“,”、“\t”等 quote:单双引号规则的设置。...如果文件中的第一行比数据整体的列数量少一时,则会默认使用第一列来作为行名 col.names:列名。...小提示:上面的演示代码中使用了head函数,该函数可以按照人们习惯的方式将数据框按照自上而下的方式显示出来,而不是像str函数那样从左向右展示。...当数据集行数较多,无法轻易地鉴别出某一列到底有多少个观测值需要赋值为“NA”的时候,可以配合unique函数进行处理。

    2.8K50

    ggforce画图

    2.并行图 并行图是显示多维分类数据的一种方式。通过在平行分类轴上的层之间绘制粗斜线,将显示多个类别中的层之间的重叠。泰坦尼克号生存数据集就是一个典型的例证。...需要注意的一点是,通常表示这种类型的数据的方法是在其自己的列中对每个分类级别进行编码,但这不适用于ggplot2,因为它要求同一轴的所有值都在同一列中。...data <- reshape2::melt(Titanic) head(data) ## Class Sex Age Survived value ## 1 1st Male Child...数据整体上的表示仍然很简单,密度分布是显而易见的,并且该图仍然提供有关每个类别中存在多少个数据点以及离群值是否驱动分布尾部的信息。...df$Distribution <- factor(df$Distribution, levels(df$Distribution)[c(3, 1,

    1.5K10

    R 数据分析

    ,随便你用哪个 这种方式的输出结果不是直接显示在命令行中,而是会在r文件相同路径下,自动创建一个xxx.r.Rout文本文件,输出的内容在这个文件里 但是这种方式用commandArgs()函数得不到传递的参数...(2)Rscript xxx.r 这种方式的输出结果直接显示在命令行中,不会生成其他输出文件 这种方式可以用commandArgs()函数得到传递的参数 但是得到参数的索引由函数的trailingOnly...# 创建0行0列的数据框 df_empty = data.frame() # 创建和df有同样多的列,0行的数据框 > df_r = df[, FALSE] data frame with 0 columns...) : 参数值意味着不同的行数: 4, 5 虽然df_n的行数小于df,但df不是df_n行数的整数倍时,也会失败 > cbind(df,data.frame(one=c(5,2,3),two=c...21 3 3 6 34 4 4 0 32 1 5 12 9 当数据框的列名不一致、列数目不一致时,都会失败 > rbind(df, data.frame

    1.4K20

    R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)

    完全禁用引用,使用quote = “”。看到scan引号中嵌入引号的行为。只考虑读的性格,这是所有这些,除非colClasses指定的列引用。...须承担一个班的向量为列。必要时,回收或如果被命名为特征向量,未指定的值是NA。...可能的值是NA(默认情况下,当type.convert)”NULL”(列时跳过),一个原子的向量类(逻辑,整数,数字,复杂的,性格,原材料),或”factor”,”Date”或”POSIXct”。...字符串:如果非空的声明文件(未连接)上使用这样的字符数据可以被重新编码的编码。看到“编码”部分,帮助file“R数据导入/导出手册”和“注意”。...它是用来作为已知的Latin-1或UTF-8(见标记字符串Encoding):不使用它来重新编码输入,但允许R在他们的本地编码处理编码的字符串(如果这两个标准之一)。看到“价值”。

    8.5K60

    R语言读CSV、txt文件方式以及read.table read.csv 和readr(大数据读取包)

    完全禁用引用,使用quote = “”。看到scan引号中嵌入引号的行为。只考虑读的性格,这是所有这些,除非colClasses指定的列引用。...须承担一个班的向量为列。必要时,回收或如果被命名为特征向量,未指定的值是NA。...可能的值是NA(默认情况下,当type.convert)”NULL”(列时跳过),一个原子的向量类(逻辑,整数,数字,复杂的,性格,原材料),或”factor”,”Date”或”POSIXct”。...字符串:如果非空的声明文件(未连接)上使用这样的字符数据可以被重新编码的编码。看到“编码”部分,帮助file“R数据导入/导出手册”和“注意”。...它是用来作为已知的Latin-1或UTF-8(见标记字符串Encoding):不使用它来重新编码输入,但允许R在他们的本地编码处理编码的字符串(如果这两个标准之一)。看到“价值”。

    1.4K20

    生信代码:绘制热图和火山图

    extrems 颜色的极端值 rownames.size 行名的大小 color.levels 设置不同表达水平的颜色(对应的表达水平分别为:low level, middle level, high...矩阵中是否有重复数据。...如0.2,那么阈值为±0.2;如c(-0.3,-0.4),则范围为(-0.3,-0.4) y.cut p值的阈值 height、width 图片的高、宽 highlight 需要突出显示的gene或探针列表...hight.color 突出显示的gene的颜色 name.size 设置为“significant”或highlighted”名称的字体的大小 R中具体示例: #为了做图的需要,突出显示FC≥8的...但在实际过程中应该结合自己的数据,调整一些参数和分组,以得出更有意义的结论,为科研助力......接下来我们将使用TCGAbiolinks包继续演示TCGA数据中甲基化分析,我们一起努力哦~~~ 免责声明

    5.5K53

    R语言数据分析利器data.table包 —— 数据框结构处理精讲

    版权声明:本文为博主原创文章,转载请注明出处     R语言data.table包是自带包data.frame的升级版,用于数据框格式数据的处理,最大的特点快。...DT的属性,setattr(x,name,value) x时data.table,list或者data.frame,而name时属性名,value时属性值,setnames(x,old,new),设置x...)直接修改某个位置的值,rownum行号,colnum,列号,行号列号推荐使用整型,保证最快速度,方法是在数字后面加L,比如1L,value是需要赋予的值。...,是否交互和报告运行时间; autostart,机器可读这个区域任何行号,默认1L,如果这行是空,就读下一行; skip跳过读取的行数,为1则从第二行开始读,设置了这个选项,就会自动忽略autostart...roll 当i中全部行匹配只有某一行不匹配时,填充该行空白,+Inf(或者TRUE)用上一行的值填充,-Inf用下一行的值填充,输入某数字时,表示能够填充的距离,near用最近的行填充 rollends

    5.9K20

    R语言 常见函数知识点梳理与解析 | 精选分析

    ) 5、complete.cases( ) 判断对象中是否数据完全 6、grep()找出所数据框中元素所在的列值(仅数据框中) 7、assign()通过变量名的字符串来赋值 8、 split()根据因子变量拆分数据框.../向量 9、unique()返回 x 但是省去重复的数值 10、round(),floor()和ceiling() 11、sign() 符号函数 12、%in% 检验x是否为集合y中的元素(x%in%y...这一函数在去除数据框中缺失值时很有用。...:数据框 c:连接为向量或列表 length:求长度 subset:求子集 seq,from:to,sequence:等差序列 rep:重复 NA:缺失值 NULL:空对象 sort,order,unique...window:时间窗 说明:本文中前半部分内容为作者自行整理,后半部分内容引自网络,稍作整理(蓝色标记部分是笔者认为比较常见和使用的函数)。

    2.3K21

    手把手教你用R语言读取CSV文件

    read.table函数返回的结果为data.frame。 read.table函数的第一个参数为文件所在路径,可以是本地文件,也可以是网页上的文件。本书主要是从网页读取文件。...将该参数设为FALSE(默认是TRUE)可使字符所在列不被转换成factor列。这样既节省计算时间(当大数据集包含许多字符列,也意味着有许多唯一值),又能保留列为字符。...stringAsFactors参数也可以用在data.frame中。再次创建“Sport”列。...readr包中的所有数据提取函数返回的是tibble,该数据类型是data.frame的扩展。最明显的变化是打印的元数据,比如行列数和每列的数据类型。...注意,数据读取为tbl_df对象,它是tbl的扩展,也是data.frame的扩展。tbl是data.frame的特殊类型,它在dplyr包中定义。每列的数据类型显示在列名的下面,这是个很好的功能。

    22.4K21

    转录组数据去批次方法整理(combat,combat-seq,removeBatchEffect)

    正是因为这些非生物学的因素存在就有可能会导致我们的结果偏离真实的情况,那么实际分析的过程中研究者应当评估是否存在批次效应,并决定是否要进行去批次处理。...值得注意的是,即使使用了所谓的去批次效应的工具,批次效应仍不能被完全消除,只是尽可能的减少了批次带来的干扰!...,列名时探针名,因此此时需要转换exp = t(exprSet)# 将matrix转换为data.frame exp = as.data.frame(exp)dim(exp)exp[1:4, 1:4]#...只调整均值 (mean.only=TRUE):这种调整只考虑批次间的均值差异,不调整方差。适用于批次间方差相似,但均值有偏差的情况。...注:若对内容有疑惑或者有发现明确错误的朋友,请联系后台(欢迎交流)。更多内容可关注公众号:生信方舟 - END -

    59610

    R语言进阶笔记3 | dplyr常用函数介绍

    这里使用learnasreml包中的数据shaw.oats作为演示,如果没有安装这个包,可以运行下面代码进行安装: install.packages("agridat") 下面看一下数据的预览和结构:...select 提取env,year,yield三列 > dat %>% select(env,year,yield) %>% head env year yield 1 Pusa 1932 26.5...c()定义为一个向量,然后还要加引号,没有mutate简洁,R中的base函数操作: > dat[,c("env","year","yield")] %>% head env year yield...B4 A 40.0 5 Karnal 1933 B5 A 40.0 6 Karnal 1933 B1 B 27.5 分组操作group_by 看一下不同年份,不同地点的观测值个数...merge函数,dplyr中是join函数,包括: left_join # 以左边为参考合并 right_join # 以右边为参考合并 inner_join # 以交集合并 full_join #

    1.3K10

    R语言快速入门主线知识点分享|文末有资源

    B C" # > paste0("A","B","C") # [1] "ABC" sample() # 抽样 ## 2、数据类型 vector # 向量(数值型、字符型、逻辑型) #单一向量中必须拥有同一类型...) # 3.1设置工作目录【很重要】 setwd("E:/") #设置当前工作目录为"E:/" getwd() #读取当前工作空间的工作目录(文件读取保存路径) read.table() #读取带分隔符的文本...:12 ############ 引用 ############ x[1,4] # 值引用 x[行索引,列索引] # 行/列引用 x[行索引,] 或x[,列索引] x[1,] # 引用第一行...x[,4] # 引用第一列 x[2:3,2:3] # 行列混合引用(矩阵) x[行初始索引:行终止索引,列初始索引:列终止索引] # > x[1,4] # 值引用 x[行索引,...gather # 宽数据转为长数据:(excel透视表反向操作) spread # 长数据转为宽数据:(excel透视表功能) unit # 多列合并为一列: separat # 将一列分离为多列

    82920

    Day09 生信马拉松-GEO数据挖掘 (中)

    ,三选一,选谁就把第几个逻辑值写成T,另外两个为F。...如果三种办法都不适用,可以继续往后写else if if(F){ # 第一种方法,直接查看data.frame用现成的可以用来分组的列--不一定可以找出 }else if(F){ # 第二种方法...眼睛数,自己生成--仅适用排列有序,每种分组都在一起 Group = rep(c("Disease","Normal"),each = 10) }else if(T){ # ★★第三种方法,使用字符串处理的函数获取分组...=F, #不显示行名 show_rownames = F, #不显示列名 annotation_col=annotation_col #根据分组映射颜色 ) #...) dev.off() 拓展内容:归一化函数—scale() scale函数是按列归一化,对于我们一般习惯基因名为行,样本名为列的数据框,就需要t()转置 cor()函数求相关系数的时候也是按列计算

    32210

    「R」apply,lapply,sapply用法探索

    apply函数可以对矩阵、数据框、数组(二维、多维),按行或列进行循环计算,对子元素进行迭代,并把子元素以参数传递的形式给自定义的FUN函数中,并以返回计算结果。...通过上面的测试,对同一个计算来说,优先考虑R语言内置的向量计算,必须要用到循环时则使用apply函数,应该尽量避免显示的使用for,while等操作方法。...参数列表: X:list、data.frame数据 FUN: 自定义的调用函数 …: 更多参数,可选 比如,计算list中的每个KEY对应该的数据的分位数。...数据集按列进行循环,但如果传入的数据集是一个向量或矩阵对象,那么直接使用lapply就不能达到想要的效果了。...时,输出结果按数组进行分组 USE.NAMES: 如果X为字符串,TRUE设置字符串为数据名,FALSE不设置 我们还用上面lapply的计算需求进行说明。

    4.6K32

    R语言使用merge函数匹配数据(vlookup,join)

    names(y)) 是获取数据集x,y的列名后,提取其公共列名,作为两个数据集的连接列, 当有多个公共列时,需用下标指出公共列,如names(x)[1],指定x数据集的第1列作为公共列 也可以直接写为...# 有多个公共列时,需指出使用哪一列作为连接列 merge(w,q,by = intersect(names(w)[1],names(q)[1])) # 当两个数据集连接列名称同时,直接用 by.x,...# 连接列置于第1列; 有多个公共列,在公共列后加上x,y表示数据来源,.x表示来源于数据集w,.y表示来源于数据集q # 数据集中w中的 name = ‘D’ 不显示,数据集中q中的 name...= ‘F’ 不显示,只显示公有的name行,并且用q数据集A行匹配了w数据集所有的A行 6、outer 模式,将两张表的数据汇总,表中原来没有的数据置为空 merge(w, q, all=TRUE, sort...,sort=TRUE) # 建议使用 指定了连接列 的情况 # 多个公共列,未指定连接列 # 左连接,设置 all.x = TRUE,结果只显示数据w的列及w在q数据集中没有的列 merge(w,

    3K20
    领券