首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R语言:以多列标准筛选特定行

问题提出 在data.table语句中,i是用来进行行选择的重要组成部分,很多情况下我们都需要以很多列的同一个特殊值进行行的选择,大多数情况下,我们可能会针对所有的变量逐一写出条件,例如a==1&b==...外层代码 下面来看外层代码: rowMeans(clinic[, 31:52] == "醛固酮") > 0 这里运用了R语言中非常关键的一个知识点:对逻辑判断值进行四则运算时,TRUE会被当做1,FALSE...= "继发性醛固酮") == 1] 写在结尾 应用好对象格式是R语言编程中的精髓之一,在这个例子中就很好的利用了对象格式里面的格式性质,做了一些适当的变通处理,让数据处理过程变得更加巧妙和方便,这点大家可以在以后的数据处理中做更多的尝试和思考...下期预告 下一期我们将讲述在这一次数据处理中遇到的另外一个问题,问题的内容已经在前文中说明,大家如果自习阅读会发现这个新年彩蛋!!再次恭祝大家新年快乐,万事如意!!!...大猫的R语言课堂 我是大猫,一个高中读文科但却在代码、数学的路上狂奔不止的Finance Ph. D Candidate。 我是村长,一个玩了9年指弹吉他,却被代码深深吸引的博士候选人。

2K40
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    将R与Cloudera Impala集成,以实现Hadoop上的实时查询

    它可以处理各种数据源,从逗号分隔的文件(csv)到由URL引用到关系数据库的网页内容到NoSQL(例如MongoDB或Cassandra)以及Hadoop。...由于通用的Impala ODBC驱动程序,R也可以与Impala集成。该解决方案将提供在Hadoop数据集上运行的快速交互式查询,然后可以在R内进一步处理或使数据可视化。...您可以使用R命令行工具执行此操作: $ R >install.packages("RODBC") 使用R和Impala分析Hadoop数据集 现在我们准备开始使用R和Impala分析我们的Hadoop数据集...我们将演示他们如何使用股票价格信息一起工作。您可以从http://finance.yahoo.com(股票代码:GOOG)下载Google股票价格。...为了在R上运行相同的Impala SELECT语句,我们需要从R执行以下命令: $ R > library("RODBC"); > conn <- odbcConnect("Impala") > result

    4.3K70

    R数据科学整洁之道:使用 tibble 实现简单数据框

    可以在 tibble 中使用在 R 中无效的变量名称(即不符合语法的名称)作为列名称。例如, 列名称可以不以字母开头,也可以包含特殊字符(如空格)。...要想引用这样的变量,需要 使用反引号 ` 将它们括起来: tb tibble( `:)` = "smile", ` ` = "space", `2000` = "number" ) tb #...ggplot2 和 dplyr 等其他 R 包中使用这些变量,也需要使用反引号。...tribble() 是定制化的,可以对数据按行进行编码:列标题由公式(以 ~ 开头) 定义,数据条目以逗号分隔,这样就可以用易读的方式对少量数据进行布局: tribble( ~x, ~y, ~z,...tibble 不能进行部分匹配,如果想要访问的列不存在,它会生成一条警告信息。 tibble 打印时更美观。

    1.9K10

    tidyverse:R语言中相当于python中pandas+matplotlib的存在

    02 — tibble:高级数据框(data.frame升级版) ——数据(列)类型一目了然 tibble是R语言中一个用来替换data.frame类型的扩展的数据框,tibble继承了data.frame...tibble包,也是由Hadley开发的R包。.../ 03 — %>%:管道函数 ——将左侧的值应用到右侧数据data位置 管道函数在tidyverse中,管道符号是数据整理的主力,可以把许多功能连在一起,而且简洁好看,比起R的基本代码更加容易阅读...例如:x %>% f(y) 等价于 f(x,y) Rstudio中快捷键: ctrl+shift+m 以R中自带的iris(鸢尾花数据集)为例: > head(iris,n=3) Sepal.Length...5.4 将一列分离为多列:separat #install.packages("tidyr") #安装tidyr包 library(tidyr) 5.1 宽数据转为长数据:gather() ?

    4.2K10

    数据处理第3部分:选择行的基本和高级的方法

    您必须指定容差“tol”以指示值可以达到多远。...这有两个主要选项:base R的grepl()函数,或stringr包中的str_detect()。 无论何时寻找部分匹配,重要的是要记住R是区分大小写的。...*filter_all()将根据您的进一步说明过滤所有列 *filter_if()需要一个返回布尔值的函数来指示要过滤的列。...或者您只是过滤所有列的字符串“food”。 在下面的示例代码中,我在所有列中搜索字符串“Ca”。我想保留在任何变量中出现字符串“Ca”的行,所以我将条件包装在any_vars()中。...示例:按名称引用列: msleep %>% select(name, sleep_total:sleep_rem, brainwt:bodywt) %>% filter_at(vars(sleep_total

    1.3K10

    R入门?从Tidyverse学起!

    以read_csv为例,把需要分析的数据存为csv文件(逗号分隔的文件,execl文件可以另存为csv文件),然后R读取即可: data <- read.csv("data_for_input.csv...数据整理 tibble格式 R中的对多变量数据的标准保存形式是 dataframe,而tibble是dataframe的进化版,它有如下优点: 1....数据操作速度会更快 如下图,直接查看tibble格式的数据,可以一目了然的看清数据的大小和每列的格式 ? 有两种方式来创建tibble格式的数据 1. 直接创建 ? 2....x %>% f(y) means that x is‘piped’ into the function f(x,y) 以R中自带的iris(鸢尾花数据集)为例: ?...统计:broom broom是一个用于数学建模的包,以回归分析为例,R中的各种回归分析往往不会返回一个整齐的data frame结果,而broom 则帮助我们直接将统计结果转化为data frame格式直接将统计结果转化为

    2.6K30

    「R」dplyr 列式计算

    _if, _at, _all 「dplyr」 以前的版本允许以不同的方式将函数应用到多个列:使用带有_if、_at和_all后缀的函数。这些功能解决了迫切的需求而被许多人使用,但现在被取代了。...例如,你现在可以转换以 x 开头的数值列:across(where(is.numeric) & starts_with("x")). across() 不需要使用 vars()。..._at() 函数是 「dplyr」 中唯一你需要手动引用变量名的地方,这让它们比较奇怪且难以记忆。 为什么过了这么久才发现 across()?...这是由 base R 提供的,但它并没有很好的文档,我们花了一段时间才发现它是有用的,而不仅仅是理论上的好奇。 我们可以使用数据框让汇总函数返回多列。...我们可以使用没有外部名称作为将数据框列解包为单独列的约定。 你如何转移已经存在的代码?

    2.4K10

    R tips:使用enframe和map2优雅的迭代列表

    在R中更易于处理的数据形式是data.frame,list并不是太好处理,常用操作就是对它进行循环迭代。...0 使用for或者lapply迭代 可以使用for循环或者lapply对列表进行迭代,比如要绘图,则可以: for (i in test) plot(i) lapply(test, plot) 都是将列表中的三个元素绘制出三个散点图...先将列表转变为一种特殊的tibble:包含两列name和value,name是列表名,value是相应的值。...同时对name和value两列数据进行迭代,使用map2函数: # 可以使用plot绘制 # name和value的值分别使用.x和.y引用 test_t %$% map2(name, value, ~...上面的图可以继续优化一下,如下: test_t %$% map2(name, value, function(x, y){ df tibble(y) #转换为tibble,列名为value

    1.9K10

    数据清洗与管理之dplyr、tidyr

    本期回顾 R语言 | 第一部分:数据预处理 R语言|第2讲:生成数据 R语言常用的数据输入与输出方法 | 第三讲 本期目录 0 二维数组行列引用 1 创建新变量 2 变量重新编码 3 变量重新命名 4...:unit 6.4 将一列分离为多列:separat 正 文 先前已经讲过R语言生成测试数据、数据预处理和外部数据输入等内容,但这仅仅是第一步,我们还需要对数据集进行筛选、缺失值处理等操作,以便获得可以应用于建模或者可视化的数据集...例如:引用第一行数据,引用第一列数据,引用第一行第一列的数据。...> data(iris) #鸢尾花数据集 > dim(iris) #读取iris数据集的维度数值,以“行数 列数 ”形式展示 [1] 150 5 #说明iris数据集是150 x 5的二维数组...通过行列值引用:数据集[行值,列值] 如行值或列值仅1个数字,表示仅引用该行或列的数据 > iris[1,] #引用第1行数据 Sepal.Length Sepal.Width Petal.Length

    1.9K40

    如何使用TCGAbiolinks下载TCGA数据并整理

    TCGAbiolinks 包是从TCGA数据库官网接口下载数据的R包。它的一些函数能够轻松地帮我们下载数据和整理数据格式。其实就是broad研究所的firehose命令行工具的R包装!...该函数的应用场景是:当需要在R中读取或写入数据时,需要指定存储数据的文件夹路径。但在执行R代码时,可能需要将当前工作目录更改为存储数据的文件夹路径。如果文件夹不存在,需要创建文件夹。..."file_id")] case_names <- json[, "cases"] filedir_in_json <- json[, "file_id"] 选择提取部分 # 提取表达量至一个数据框(以tibble...()方法将gene_name列转换为行名 tibble::column_to_rownames("gene_name") 通过TCGA样本命名规则筛选需求样本并将对照组前置. # 查看去掉01A..."status", "time") ) write.csv(col_survivaldata, paste("Survivalata.csv", sep = "/"), row.names = F) 引用

    7.5K42

    生信代码:数据处理( tidyverse包)

    大家在学习R语言的时候,大多参考《R语言实战》这本书,但这本书年代过于久远(中文第二版是2016年),主要着力点也是在R base上,R语言可视化的ggplot2包也只是简要介绍,而对于tidyverse...包,《R语言实战》并未涉及,这也导致R语言的学习难度增加,今天我们给大家引入tidyverse包的学习。...dplyr包下主要是以下几个操作: select()——选择列 filter/slice()——筛选行 arrange()——对行进行排序 mutate()——修改列/创建列 summarize(...1 mutate() mutate()与基础函数transform()相似,都可以添加新的一列,但是允许引用刚刚创建的列: mydata tibble(x1=c(2,2,6,4),...) ##dplyr mydata %>% mutate(sumx=x1+x2, meanx=sumx/4)##dplyr允许使用管道%>%操作,且meanx可以引用

    2.1K10

    《高效R语言编程》6--高效数据木匠

    R语言运行几个长列比运行一些短列快,所以一般认为宽数据(不整洁),长数据(整洁)。...用法是:gather(data,key,value,-religion),分别是数据框,要转换成分类的列名,单元值的列名和清除收集的变量 使用seperate()分割联合变量 分割是指将一个实际由两个变量组成的变量分割成两个独立列...与基本R中类似函数不同,变量无需使用 $ 操作符就可直接使用,设计与magrittr包的%>%管道操作符一起使用,以允许每个数据阶段写成新的一行。其是一个大型包,本身可以看成一门语言。...列改名 rename(),使用反引号‘`’包裹,允许R使用不规范的列名。...RODBC是一个资深包,提供R与SQL server的接口。DBI包提供了通用接口与驱动程序的类集,如RSQLITE,是访问数据库的统一框架,允许其他驱动程序以模块包添加。

    1.9K20

    R tips:使用!!来增加dplyr的可操作性

    dplyr包在数据变换方面非常的好用,它有很多易用性的体现:比如书写数据内的变量名时不需要引号包裹,也不需要绝对引用,而这在多数baseR函数中都不是这样的,比如: library(tidyverse)...R中代码的运行过程 在介绍!!运算符之前,有必要先了解一下R中的代码是如何运行的。 在R console中输入一个代码,R就会返回代码的结果。...辅助dplyr完成编程工作 上面的例子中,之所以group_var不起作用,是因为dplyr直接将group_var当做变量名,然后去mtcars中寻找名字叫做group_var的列,这肯定是会报错的。...sym是指的将group_var变为Symbol,这是由于上面code的所有操作层面都是上面提到的R代码运行阶段中的语句阶段,对于变量而言,其需要变为Symbol才可以操作。...,各自加1后生成为新列,新列名字为原始名+“_new"。

    2.5K31

    将html_table2结果转化为tibble的最佳实践

    html_table2 是一个非常实用的 R 包,它可以帮助我们将 HTML 表格快速解析为数据框。然而,在实际应用中,数据清洗和转换往往是不可避免的。...本文将分享如何高效地将 html_table2 的结果转化为更适合分析的 tibble 格式,并展示一个以采集汽车之家(https://www.autohome.com.cn/)汽车品牌和价格信息为例的完整实践...转化为 tibble 的原因可读性:tibble 显示时更加紧凑易读。兼容性:许多 tidyverse 包对 tibble 的支持更佳。操作性:tibble 提供了更强的列操作功能。3....最佳实践步骤以下是将 html_table2 结果转化为 tibble 的最佳实践:3.1 加载必要的 R 包library(rvest)library(dplyr)library(tidyr)3.2...爬取目标页面以汽车之家为例,假设我们需要采集汽车品牌和价格信息。

    8310

    玩转数据处理120题|R语言版本

    R解法 # 默认是6行,可指定行数 head(df,5) 23 数据计算 题目:将salary列数据转换为最大值与最小值的平均值 难度:⭐⭐⭐⭐ 期望输出 ?...难度:⭐ R解法 df <- df[,-4] # 提高可读性可采用如下代码 df % select(-c('categories')) 35 数据处理 题目:将df的第一列与第二列合并为新的一列...列设置为索引 难度:⭐⭐ R解法 df %>% tibble::column_to_rownames('createTime') 42 数据创建 题目:生成一个和df长度相同的随机数dataframe...(col3) 99 数据修改 题目:将第一列大于50的数字修改为'高' 难度:⭐⭐ R语言解法 df[df$col1 > 50,1] <- '高' 100 数据计算 题目:计算第一列与第二列之间的欧式距离...列以'数据'开头的行 难度:⭐⭐ R语言解法 df[grep("^数据", df$industryField),] 117 数据计算 题目:以salary score 和 positionID制作数据透视

    8.9K10
    领券