Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >适合用于FPKM数据求差异基因的ballgown算法

适合用于FPKM数据求差异基因的ballgown算法

作者头像
用户1359560
发布于 2021-12-06 10:12:14
发布于 2021-12-06 10:12:14
1.3K00
代码可运行
举报
文章被收录于专栏:生信小驿站生信小驿站
运行总次数:0
代码可运行

对于FPKM表达数据时,Edger,limma,和deseq等算法并不合适。而ballgown是针对于FPKM数据开发的差异基因算法,可以尝试。 示例数据如下所示:

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# --------------------------------------------------------
# 
# 
# 
# --------------------------------------------------------

setwd("D:\\SCIwork\\F5\\DEG")


library(tidyr)
library('ballgown')
load("mRNA_exprSet.Rda")

mRNA_exprSet[1:4,1:4]

# --------------------------------------------------------
# 
# 
# 
# --------------------------------------------------------

mRNA_exprSet <- mRNA_exprSet %>%
  tidyr::separate(gene_id, c("gene_name",
                             "gene_id",
                             "gene_biotype"), 
                  sep = " \\| ")

mRNA_exprSet <- mRNA_exprSet[,-(2:3)]
index <- duplicated(mRNA_exprSet$gene_name)
mRNA.data <- mRNA_exprSet[!index,]
dim(mRNA.data)


# --------------------------------------------------------
# 
# 
# 
# --------------------------------------------------------

#包含基因名的第一列转为行名
BLCA_fpkm_data = mRNA.data
rownames(BLCA_fpkm_data) = BLCA_fpkm_data[,1]
BLCA_fpkm_data  =  BLCA_fpkm_data[c(-1)]

#生成分组文件
load("mRNA_exprSet.Rda")
metadata <- data.frame(names(mRNA_exprSet)[-1])
for (i in 1:length(metadata[,1])) {
  num <- as.numeric(substring(metadata[i,1],14,15))
  if (num %in% seq(1,9)) {metadata[i,2] <- "T"}
  if (num %in% seq(10,29)) {metadata[i,2] <- "N"}
}

names(metadata) <- c("TCGA_id","group")

metadata$group <- as.factor(metadata$group)


# --------------------------------------------------------
# 
# 
# 
# --------------------------------------------------------


result_diff = stattest(gowntable = BLCA_fpkm_data ,
                       pData = metadata , 
                       covariate = "group" , 
                       getFC = TRUE , 
                       log =TRUE,
                       meas='FPKM',
                       feature="gene")


result_diff$LogFC <- log2(result_diff$fc)

result_diff$LogFC_abs <- abs(result_diff$LogFC)

write.csv (result_diff, "mRNA_BLCA_fpkm_diff.csv", row.names = F)

# --------------------------------------------------------
# 
# 
# 
# --------------------------------------------------------

foldChange =0.5

padj=0.05

diffSig=result_diff[which(result_diff$pval< padj & result_diff$LogFC_abs > foldChange),]

dim(diffSig)

write.csv(diffSig, file="diffSig_mRNA_BLCA.csv")
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2021/7/30 上,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
三阴性乳腺癌提取和分析
三阴性乳腺癌是指癌组织免疫组织化学检查结果为雌激素受体(ER)、孕激素受体(PR)和原癌基因Her-2均为阴性的乳腺癌。这类乳腺癌占所有乳腺癌病理类型的10.0%~20.8%,具有特殊的生物学行为和临床病理特征,预后较其他类型差。
用户1359560
2020/08/13
9980
如何使用TCGAbiolinks下载TCGA数据并整理
一般来讲,我们想要使用TCGA数据,大概有三种方法,一是直接从GDC官网或官方下载工具gdc-client下载文件后自行处理,二是使用数据库如UCSC Xena或Firehouse,三是使用TCGAbiolinks R包自动下载并处理。
叶子Tenney
2023/03/24
7.9K11
如何使用TCGAbiolinks下载TCGA数据并整理
重复一篇3分左右纯生信文章(第三部分)
本文目的:一文解决WGCNA分析问题。 原文章使用了自己识别的五个lncRNA,与mRNA合并做WGCNA分析,目的是为了得到lncRNA相关的mRNA。所以这里,我们做WGCNA,所需要的数据可以推测其包括:lncRNA表达量,mRNA表达矩阵,一些临床参数数据。 代码WGCNA_prepare.R(给WGCNA分析做前期数据准备) # ======================================================= ##########################
用户1359560
2019/07/22
1.5K0
单基因生信分析流程(6)单基因相似性分析
第一步,下载COAD数据 ########################################################################################## ## step1 load package and change Working Directory ########################################################################################### library(
用户1359560
2020/08/13
1K0
单基因生信分析流程(1)一文解决TCGA数据下载整理问题
在平常科研工作中,经常有师兄师姐师弟师妹问我:我现在有一个单基因,我该怎么开展生信研究?出现这个问题的原因是:(1)目前生信研究火热也逐渐受到认可(2)许多医学生在开展实验研究的同时,如果结合生信,则自己的结论和工作量更加吸引到编辑和手审稿人(3)现有的geo、TCGA或者其他免费公开数据库确实是很多研究者的第一选择。
用户1359560
2019/05/14
4.7K0
单基因生信分析流程(1)一文解决TCGA数据下载整理问题
RNA-seq数据差异表达分析
分析转录组测序数据时,通常使用p值/q值和foldchange值来衡量基因的差异的表达水平。目前,大家普遍都认为转录组数据的read counts(即基因的reads数量)符合泊松分布。几个用于差异表达分析的R包如DESeq2和edgeR等,都是基于负二项分布模型设计的,整体而言结果相差不大。Limma包也可以用来分析RNA-seq数据,但主要用于分析芯片数据,现在用的人不多了。当然如果用泊松分布来做差异表达分析的话,也存在缺点,可能会忽视生物学样本间的个体差异。
阿凡亮
2020/04/13
4.4K0
七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步)
提高数据清洗的能力,将会很大程度的提高你做分析数据的速度,可能有的人还是习惯用Excel来清洗数据,但是我建议能用代码的尽量用代码解决,数据清洗思路也很重要,一定要清楚你的目标,然后思考可能实现的途径。
生信技能树
2019/09/03
2.3K0
七步走纯R代码通过数据挖掘复现一篇实验文章(第1到6步)
一起画个圈圈看差异基因
最近朋友看论文,看到了个展示差异基因的好看图,说想给自己的差异基因也来画一个,我研究了下,实现挺简单,现成的R包circlize 就可以做,那我们就一起来画一个圈圈吧!
生信菜鸟团
2022/04/08
1.1K0
一起画个圈圈看差异基因
pseudobulks单细胞差异基因分析
之前绘制过FindMarkers/FindAllmarkers差异分析后的单细胞差异基因火山图,除了FindMarkers/FindAllmarkers这种方法以外,pseudobulks是另一种单细胞差异基因分析的方法,这次就来学习和整理一下。
凑齐六个字吧
2024/08/15
4530
pseudobulks单细胞差异基因分析
使用R语言的clusterProfiler对葡萄做GO富集分析的简单小例子
这一步可以拿到gene_id还有gene_name ,FPKM的表达量,cov对用的应该是reads count吧。
用户7010445
2021/03/26
1.2K0
使用R语言的clusterProfiler对葡萄做GO富集分析的简单小例子
一文解决大批量基因相关性分析
目的是为了找出表达矩阵中有哪些基因与目的基因有相关性。 下载数据 #======================================================= #======================================================= library(GEOquery) rm(list=ls()) library(dplyr) library(tidyr) library(Biobase) library(limma) setwd
用户1359560
2020/08/11
1.6K0
RNA-seq(7): DEseq2筛选差异表达基因并注释(bioMart)
接下来,我们要查看treat versus control的总体结果,并根据p-value进行重新排序。利用summary命令统计显示一共多少个genes上调和下调(FDR0.1)
Y大宽
2018/09/10
3.9K0
RNA-seq(7): DEseq2筛选差异表达基因并注释(bioMart)
RNA-seq入门实战(八):GSVA——基因集变异分析
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
生信技能树
2022/07/26
9.7K0
RNA-seq入门实战(八):GSVA——基因集变异分析
一文解决大量基因的生存分析并作图
这两篇纯生信文章都是对单个基因或者所有单个marker做生存分析,目的是找到其中能够影响患者生存的marker或者基因(包括miRNA,lncRNA,mRNA等等)。这也是目前非常常见的筛选基因或者marker的方法。
用户1359560
2019/06/01
3K0
什么,你一定要基于FPKM标准化表达矩阵做单细胞差异分析
前言:使用GSE81861提供的数据,比较CRC肿瘤上皮细胞与正常上皮细胞的差异。
生信技能树
2020/09/22
7.7K0
housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗?
首先,我们来问一下人工智能大模型kimi:人类 housekeeper基因有哪些,介绍并生成一个R向量
生信技能树
2025/01/19
1160
housekeeper基因在肿瘤与正常样本中会发生显著差异表达吗?
药物预测之差异基因为什么不行
现在可以尝试一下理解药物预测的原理啦,首先呢在前面的教程 药物预测之相关性为什么不行,我们发现简简单单的表达量相关性居然都可以勉勉强强得到还算是合理的结果啊!现在让我们一起看看差异基因能不能进行药物预测!
生信技能树
2021/10/12
1.5K0
一网打尽转录组差异分析!!!
差异分析在转录组数据分析中占据着举足轻重的地位,是揭示基因表达变化的关键步骤。然而,面对众多如DESeq2、limma和edgeR等转录组分析R包,分析人员常常面临选择困境。本文旨在深入探讨这些常用差异分析R包的特点、优劣,以及它们与t检验/Wilcox秩和检验(Wilcox-rank-sum test)在差异分析结果上的异同点。
生信学习者
2024/06/11
4840
一网打尽转录组差异分析!!!
重复一篇Cell文献的PCA图
这天,接到了生信技能树创始人jimmy老师的一个任务,要重复一篇CELL文章中的一个图示:
生信技能树
2019/05/08
2.1K0
重复一篇Cell文献的PCA图
一文解决RNA测序资料的差异
本文目标: (1)使用edger包做TCGA数据库RNA-seq数据差异分析 (2)使用deseq包做TCGA数据库RNA-seq数据差异分析 (3)使用limma包做TCGA数据库RNA-seq数据差异分析 (4)如何在没有生物学重复的情况下(比如说只有两个样本,来求取差异基因)
用户1359560
2019/06/15
1.6K0
推荐阅读
相关推荐
三阴性乳腺癌提取和分析
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
本文部分代码块支持一键运行,欢迎体验
本文部分代码块支持一键运行,欢迎体验