首页
学习
活动
专区
圈层
工具
发布

基础知识 | 踏实做事,不要偷懒,之前偷的懒,以后都是要补回来的

01 表格之间的处理 上一篇文章推出【R语言】基础知识 | 为了偷懒,我不择手段!,想了想,人还是踏实一点比较好,别老想着走捷径,不然有一天会摔的很惨,咱还?️...把基础打扎实~ data1文件夹中有4个表格,表格中存在合并单元格,这种情况该如何合并表格呢?...lxl=lxl %>% pivot_wider(names_from = 区域, values_from = 奖励金额, values_fill = 0) names_from: 指定列名来自哪个变量列...values_from: 指定列“值”来自哪个变量列。 values_fill = 0表示若变宽后单元格值缺失,设置用何值填充。...=TRUE) #查看运行结果: 如何将去掉奖励金额中“0”所在的行?

1.2K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    「R」表格可视化 10+ 指南【正式篇】

    修改后的例子 在下面的修改例子中,我们将表头与内容分开,将数据汇总与单个数据记录分析,并强调有可能会忽略的列。...image-20201104210208623 另外,请注意 pivot_wider() 也可以改进这个表的展示,减少 Crop 和 Top Crop 的重复。...image-20201104210344824 规则 6:用行和列之间的空间引导读者 虽然间隔是一门艺术,但想想你该如何引导读者。你想让它容易地水平或垂直移动阅读取决于表的目的。...image-20201104210408450 规则 7:移除单元重复 这里的目标是消除重复单元,以提高可读性和增加表中的信噪比。对于我们的示例,我们将在第一次出现之后删除 % 号。...我们可以使用 gt::text_transform() 来保存我们数据中的所有观察结果,但不在 gt 表中显示国家的重复。

    1.8K20

    R&Python Data Science 系列:数据处理(4)长宽格式数据转换

    0 前言 在数据分析过程中,不同的软件通常对数据格式有一定的要求,例如R语言中希望导入的数据最好是长格式数据而不是宽格式数据,而SPSS软件经常使用宽格式数据。...平时数据分析的时候,无法保证导入的数据一定是什么格式,因此需要了解长宽格式数据之间如何相互转换。 1 何为长宽格式数据 ?...Python中pivot()、pivot_table()和melt位于pandas库中,pivot_table()是数据透视函数,会对操作对象进行处理,故操作对象不能是字符串型,下面举例中会特别说明;spread...参数columns是长格式数据中的key键对应的列名;参数values是长格式数据中的value对应的列。...参数names_from对应长格式数据key键对应的列;values_from对应长格式数据value值对应的列。

    3.1K11

    R数据科学整洁之道:使用tidyr进行长宽数据转换

    整洁数据(tidy data)是指如下图这样的数据表: 在表中: 每个变量都拥有自己的列 每个观察/样本都拥有自己的行 数据这样组织有两个明显的好处:既方便以向量的形式访问每一个变量,也方便变量之间进行向量化运算...在实际工作中,存在长、宽两种数据格式,宽数据是每个样本的信息在表中只占一行,而长数据每个样本的信息在表中占据多行。 本文简单介绍一下通过tidyr包进行长、宽数据格式转换。...tidyr中的pivot_wider与pivot_longer的操作正好相反,可以将长数据转换为宽数据。...以上一步得到的长数据tb_long为例,我们将它还原成宽数据格式: tb_wide_new = pivot_wider(tb_long, names_from = 'year', values_from...最后总结 tidyr包最重要的两个函数是: pivot_longer,将宽数据转换为长数据,就是将很多列变成两列。 pivot_wider,将长数据转换为宽数据,就是将两列变成很多列。

    4.8K30

    R语言把otu表格的绝对丰度转换为相对丰度

    otu表格的格式是每行是一个微生物,每列是一个样本,如下截图 image.png 相对丰度就是 在这个样本中微生物的绝对丰度除以这个样本中所有微生物绝度丰度的和 用R语言的tidyverse包来实现,代码...% group_by(name) %>% mutate(total=sum(value)) %>% mutate(relative_abun=value/total) %>% pivot_wider...(id_cols=c("otuID"),names_from = name,values_from = relative_abun) new.df 基本的思路是:先把otu表格宽格式转换成长格式,然后根据样本分组求和...,生成一个新的列,然后用绝对丰度值除以求和列得到相对丰度,最后再转换为长格式 导出excel rio::export(new.df,file = "D:/R_4_1_0_working_directory.../env001/2024.data/20240609/example_otu_relativeAbun.xlsx") 这里需要用到R包 rio 如果之前没有用过需要单独安装一下

    95510

    R中重复值、缺失值及空格值的处理

    1、R中重复值的处理 unique函数作用:把数据结构中,行相同的数据去除。...<- unique(data) 重复值处理函数:unique,用于清洗数据中的重复值。...“dplyr”包中的distinct() 函数更强大: distinct(df,V1,V2) 根据V1和V2两个条件来进行去重 unique()是对整个数据框进行去重,而distinct()可以针对某些列进行去重...2、R中缺失值的处理 缺失值的产生 ①有些信息暂时无法获取 ②有些信息被遗漏或者错误处理了 缺失值的处理方式 ①数据补齐(例如用平均值填充) ②删除对应缺失值(如果数据量少的时候慎用) ③不处理 na.omit...<- na.omit(data) 3、R中空格值的处理 trim函数的作用:用于清除字符型数据前后的空格。

    11.4K100

    「R」针对重复ID的处理

    重复,特别是针对一些样本名称的重复问题的处理,是我在进行生信分析时经常遇到的。一种常见的解决策略是先找到重复之处,然后去重。但如果我们想要保留全部的重复ID呢?...一个简单的例子 生成一个非常简单的带重复的序列: r$> data = c("a", "b", "c", "d", "a")...[1] "b" "c" "d" 如何保留信息又能看出重复...解决的思路是对重复ID添加标记,可以是前缀或者后缀,这样既能视觉上识别,也能够通过编程的手段识别或者后续对前后缀裁剪。后缀才容易操作,更为推荐。...如果我们仅想要标记出第二次及以后出现的ID,这样能保留大部分的数据不做改动,怎么操作呢? R自带了make.unique()解决这个问题!

    2.2K10

    如何优化Golang中重复的错误处理

    Golang 错误处理最让人头疼的问题就是代码里充斥着「if err != nil」,它们破坏了代码的可读性,本文收集了几个例子,让大家明白如何优化此类问题。...实际上真正的源头是它们的参数 io.Writer,因为直接调用 io.Writer 的 Writer 方法的话,方法签名中有返回值 error,所以每一步 fmt.Fprint 和 io.Copy 操作都不得不进行重复的错误处理...不再有重复的错误判断,只需要在最后检查一下 error 即可。...通过对以上几个例子的分析,我们可以得出优化重复错误处理的大概套路:通过创建新的类型来封装原本干脏活累活的旧类型,同时在新类型中封装 error,新旧类型的方法签名可以保持兼容,也可以不兼容,这个不是关键的...来完成错误处理。

    3K20

    使用VBA删除工作表多列中的重复行

    标签:VBA 自Excel 2010发布以来,已经具备删除工作表中重复行的功能,如下图1所示,即功能区“数据”选项卡“数据工具——删除重复值”。...图1 使用VBA,可以自动执行这样的操作,删除工作表所有数据列中的重复行,或者指定列的重复行。 下面的Excel VBA代码,用于删除特定工作表所有列中的所有重复行。...如果只想删除指定列(例如第1、2、3列)中的重复项,那么可以使用下面的代码: Sub DeDupeColSpecific() Cells.RemoveDuplicates Columns:=Array...(1, 2, 3), Header:=xlYes End Sub 可以修改代码中代表列的数字,以删除你想要的列中的重复行。...注:本文学习整理自thesmallman.com,略有修改,供有兴趣的朋友参考。

    20.2K30

    问与答63: 如何获取一列数据中重复次数最多的数据?

    学习Excel技术,关注微信公众号: excelperfect Q:如下图1所示,在工作表列A中有很多数据(为方便表述,示例中只放置了9个数据),这些数据中有很多重复数据,我想得到重复次数最多的数据是那个...,示例中可以看出是“完美Excel”重复的次数最多,如何获得这个数据?...在上面的公式中: MATCH($A$1:$A$9,$A$1:$A$9,0) 在单元格区域A1:A9中依次分别查找A1至A9单元格中的数据,得到这些数据第1次出现时所在的行号,从而形成一个由该区域所有数据第一次出现的行号组组成的数字数组...MODE函数从上面的数组中得到出现最多的1个数字,也就是重复次数最多的数据在单元格区域所在的行。将这个数字作为INDEX函数的参数,得到想应的数据值。...如果将单元格区域命名为MyRange,那么上述数组公式可写为: =INDEX(MyRange,MODE(MATCH(MyRange,MyRange,0))) 但是,如果单元格区域中有几个数据重复次数相同且都出现次数最多

    5.3K20

    跟着PNAS学画图:R语言ggplot2分组添加拟合曲线

    今天的推文重复的内容是论文中的Figure1A image.png 分组折线图 用到的数据集是链接里的dat文件夹下的 df4qx.rda文件, 首选是导入数据 load("data/df4qx.rda...df4qx) image.png 这个是一个长格式数据,把它转变成宽格式 #install.packages("tidyverse") library(tidyverse) df4qx %>% pivot_wider...(names_from = sex,values_from = qx) %>% head() image.png 这一步是为了方便计算不同年龄男女死亡率的比例 ggplot2作图 df4qx...%>% pivot_wider(names_from = sex,values_from = qx) -> dftemp 最基本的图 library(ggplot2) dftemp %>%...小明的数据分析笔记本 今天推文的示例数据和代码可以在公众号后台留言 20210829 获取 (精确匹配开头结尾都不能有空格) 小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子

    2.7K30
    领券