首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    数据处理第2节:将列转换为正确的形状

    它涵盖了操纵列以便按照您希望的方式获取它们的工具:这可以是计算新列,将列更改为离散值或拆分/合并列。...mutate中的任何内容都可以是新列(通过赋予mutate新的列名),或者可以替换当前列(通过保持相同的列名)。 最简单的选项之一是基于其他列中的值的计算。...如果我想在几分钟内完成,我可以使用mutate_at()并将包含列的所有'sleep'包装在vars()中。 其次,我在飞行中创建一个函数,将每个值乘以60。...如果要添加另一个数据框的信息,可以使用dplyr中的连接函数。...在这种情况下,我们有3列描述时间度量。 对于某些分析和图表,可能有必要将它们合二为一。 gather函数需要您为新的描述性列指定名称(“key”),并为值列指定另一个名称(“value”)。

    8.1K30

    R tips:使用TCGAbiolinks包下载TCGA数据

    目前有两大类TCGA数据可供下载,一个是Legacy,主要是一些使用 GRCh37 (hg19) 和GRCh36 (hg18)的数据,另一个是harmonized数据,统一使用GRCh38 (hg38)...GDCdownload,由于TCGA的下载不是特别稳定,所以可以使用files.per.chunk定为一个值,几个文件打包为一个压缩文件来下载。...summarizedExperiment对象和ExpressionSet等对象类型类似,核心组件就是三大件:表达量、列注释和行注释。...表达量:一个表达量矩阵,行是基因或者相关特征,列是样本或相关特征; 列注释:样本相关的注释,比如病人信息、生存数据等等; 行注释:基因相关的注释,比如基因名称、长度、位置、ID等等。...生存分析时根据基因的中位数将其分为High和Low,使用log-rank检验显著性,也可以使用cox回归。

    3.4K31

    使用decoupleR一次性实现11种基因集的活性打分(R与Python我都要)

    就是因为考虑到绝大部分小伙伴是Python和R编程语言的二选一,所以为了自己的工具使用更广泛,很多开发者会特意分发不同版本的软件。...在这个笔记本中,我们展示了如何使用decoupleR对一个bulk RNA测序数据集进行通路活性推断,该数据集中胰腺癌细胞系中的转录因子FOXA2被敲除。...::mutate_if(~ any(is.na(.x)), ~ dplyr::if_else(is.na(.x), 0, .x)) %>% tibble::...在这个例子中,我们将使用人类权重(也提供了其他生物体的权重),并且我们将使用按p值排名的前500个responsive genes。...雌激素(Estrogen):促进女性生殖器官的生长和发育。 缺氧(Hypoxia):在氧气水平低时促进血管生成和代谢重编程。 JAK-STAT 信号通路:涉及免疫、细胞分裂、细胞死亡和肿瘤形成。

    56910

    生信马拉松 Day7

    (test, new = Sepal.Length * Sepal.Width) #没赋值的情况下数据实际是不会新增的 #新增列名为new,值为Sepal.Length * Sepal.Width的一列...条件和循环,if,for 碎碎念:这个东西每次好久不用就想不起格式要重新查,脑子是个好东西,就是漏的厉害 rm(list=ls()) #if的格式 if (){ #if后面的括号里只能是一个逻辑值...,不可以是多个逻辑值组成的向量 } #if+else的格式 if (){ }else{ } #ifelse的格式 ifelse( , ,) #第一个逗号前是逻辑值 #for的格式 for(){...(dplyr) i = 0 ifelse(i>0,"+",ifelse(i<0,"-","0")) case_when(i>0 ~ "+", i<0 ~ "-",...2种方法 2.如何把数据框某列的“ ”转换为NA iris$Species[iris$Species=='']=NA 3.如何删除多余的信息 #这里示例数据中,a$tumor_stage.diagnoses

    25300

    生信爱好者周刊(第 2 期):生信的境界与道路

    scArches可推广到多模态参考映射,允许对缺失的模态进行归因。最后,scArches保留了2019冠状病毒病(COVID-19)的疾病变异,当映射到健康参考时,可以发现特定疾病的细胞状态。...文章 1、在ggplot2散点图中自动添加回归系数或回归方程、R2、P值等 有时候使用ggplot2绘制散点图展示两组变量的关系时,同时也做了一些描述二者关系的统计,如相关性分析、回归分析等,并期望将相关系数或回归方程...这包括表头、存根、列标签和跨组列标签、表主体和表脚。 4、gtExtras[15] gtExtras的目标是提供一些额外的辅助函数来帮助使用gt创建漂亮的表。...gtsummary包总结了数据集、回归模型等等,使用了具有高度可定制功能的合理默认值。 6、mathpix[17] - 图片转公式神器 好用的公式提取工具。支持拷贝到Word和LaTex。...从阅读中读者可以学习安装和使用三方包、操作基础的数据类型,学习数据的导入、操作和可视化,学习统计分析和编写脚本等内容。

    1.4K20

    100个GEO基因表达芯片或转录组数据处理GSE25097(018)

    写在前边虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门...R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。...可以筛选一下分组表型信息,只保留自己需要的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)pdata % dplyr::mutate(...`tissue:ch1`=='non_tumor liver'~'NonTumor', TRUE~NA) ) %>% drop_na(Group) %>% dplyr:...= TRUE)na.rm = TRUE)值小于50或者最小值小于0不需要log转化")}else { message

    11810

    Python-matplotlib 散点图绘制02

    ,na_position='last') 这里提一下,后期构建的绘图数据集主要基于上数据集中“season”和“episode”两列数据。...start_x列,结果为 episode_mod 列的最小值减5; 根据 episode_mod 列生成新特征end_x列,结果为 episode_mod 列的最大值加5; 根据 avg 列生成新特征y...列,结果为 avg 列的唯一值。...该操作在多数数据处理操作中经常遇到,如果觉得pandasz这样处理太过麻烦,也可以使用 R的 dplyr 包的mutate()方法结合if_else操作完成。...后期推文会尽可能使用matplotlib绘制。ggplot2的可视化绘制图文后期也会跟上的,希望大家能够喜欢。能力有限,有错误或者不理解的地方可以后台交流或加入 DataCharm交流群进行讨论。

    1K10

    Python-matplotlib 散点图配色设计

    ,na_position='last') 这里提一下,后期构建的绘图数据集主要基于上数据集中“season”和“episode”两列数据。...start_x列,结果为 episode_mod 列的最小值减5; 根据 episode_mod 列生成新特征end_x列,结果为 episode_mod 列的最大值加5; 根据 avg 列生成新特征y...列,结果为 avg 列的唯一值。...该操作在多数数据处理操作中经常遇到,如果觉得pandasz这样处理太过麻烦,也可以使用 R的 dplyr 包的mutate()方法结合if_else操作完成。...后期推文会尽可能使用matplotlib绘制。ggplot2的可视化绘制图文后期也会跟上的,希望大家能够喜欢。能力有限,有错误或者不理解的地方可以后台交流或加入 DataCharm交流群进行讨论。

    1.1K10

    100个GEO基因表达芯片或转录组数据处理之GSE126848(003)

    写在前边虽然现在是高通量测序的时代,但是GEO、ArrayExpress等数据库储存并公开大量的基因表达芯片数据,还是会有大量的需求去处理芯片数据,并且建模或验证自己所研究基因的表达情况,芯片数据的处理也可能是大部分刚学生信的道友入门...R语言数据处理的第一次实战,因此准备更新100个基因表达芯片或转录组高通量数据的处理。...,只保留自己需要的样本,在这里只保留disease:ch1中healthy和NASH的样本,作为后续分析的样本(根据自己的研究目的筛选符合要求的样本)pdata na(Group)) %>% dplyr::select(Sample, Group, Age, Sex)fwrite(pdata, file = str_glue("{geo_accession...}_pdata.csv"))处理表达谱数据原始数据为Count值,需要标准化为TPM,并且基因名是Ensembl ID转换为Symbol基因名,可以使用到我自己写的几个函数genekit、bioquest

    8200

    RNA-seq 保姆教程:差异表达分析(二)

    导入表达矩阵 开始导入文件夹中的 featureCounts 表。本教程将使用 DESeq2 对样本组之间进行归一化和执行统计分析。...统计 获取基因数量的基本统计数据 # 使用 FDR 调整 p-values 从检测中获取结果 results <- results(ddsMat, pAdjustMethod = "fdr", alpha...注释基因symbol 经过比对和总结,我们只有带注释的基因符号。要获得有关基因的更多信息,我们可以使用带注释的数据库将基因符号转换为完整的基因名称和 entrez ID 以进行进一步分析。...Volcano # 从 DESeq2 结果中收集倍数变化和 FDR 校正的 pvalue ## - 将 pvalues 更改为 -log10 (1.3 = 0.05) data 的 EntrezID 和倍数变化 # 删除没有任何 entrez 标识符的基因 results_sig_entrez na(entrez

    1K30

    玩转数据处理120题|R语言版本

    new列的和大于60000的最后3行 难度:⭐⭐⭐⭐ 期望输出 ?...R解法 colSums(is.na(df)) 54 缺失值处理 题目:提取日期列含有空值的行 难度:⭐⭐ 期望结果 ?...:从CSV文件中读取指定数据 难度:⭐⭐ 备注 从数据1中的前10行中读取positionName, salary两列 R语言解法 #一步读取文件的指定列用readr包或者原生函数都没办法 #如果文件特别大又不想全部再选指定列可以用如下办法...#基本思想先读取较少的数据获取列名 #给目标列以外的列打上NULL导致第二次读取文件时NULL列丢失即可 res <- read.csv('数据1.csv',encoding = 'GBK',nrows...难度:⭐⭐ 备注 从数据2中读取数据并在读取数据时将薪资大于10000的为改为高 R语言解法 library(readr) df2 % mutate

    8.9K10

    pseudobulks单细胞差异基因分析

    它使用统计检验方法(如Wilcoxon秩和检验、MAST或t检验)来比较不同细胞群体之间的基因表达差异。优点:● 保留了单细胞数据的分辨率,能够捕捉到细胞群体内的异质性。...● 工具和方法:pseudobulk分析可以使用传统的bulk RNA-seq分析工具,而FindMarkers/FindAllmarkers通常依赖于专门为单细胞数据设计的统计检验方法。...rowSums(as.matrix(scRNA@assays$RNA@layers$counts[, kp])): 对选定的细胞列(不同组)中的基因表达矩阵进行行求和,得到每个基因在该样本中的总表达量。...这里需要思考一下,我们使用的kp,这里的kp其实代表的是bs中的ID,所以按照这个数据而言,分别是对CA组和NL组的数据的基因表达矩阵进行行求和。....]: 这里使用这些位置索引来从 phe 数据框中提取相应行的 tissue.type 列,最终得到的 group_list 是一个向量,包含了 bs 中样本ID对应的组织类型。

    36010
    领券