我们的生物信息学在线互动授课的案例数据集一般来说是癌症等疾病相关的, 肿瘤组织和正常对照的差异是很明显的。所以,标准的代码,标准的阈值绰绰有余的,可以拿到合理的差异分析结果。目前简单的差异分析流程,基本上转录组测序技术和芯片技术拿到的表达量矩阵后续分析大同小异
但是学员们在使用相应的代码去处理自己的研究领域的数据集的时候往往是会碰壁,比如这个文献:《Longitudinal expression changes are weak correlates of disease progression in Huntington's disease. Brain Commun 2020 》,对应的数据集是 :
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE135589 可以看到这个分析甚至绕过了我们常见的变化倍数以及差异分析p值 :
We also evaluated the relationship between differential expression attributed to Huntington’s disease and continuous quantitative measures of disease status (UHDRS TMS) using linear correlation. 4273 probesets, out of a total of 54 675, showed a statistically significant correl- ation (P<0.05) 2962 of these showed positive correlation and 1311 an inverse relation- ship. Furthermore, 394 probesets showed very highly sig- nificant correlation (P<0.005). 这个实验设计是TRACK HD研究的一部分,旨在分析亨廷顿病(Huntington's disease, HD)症状进展与血液中基因表达之间的关联。亨廷顿病是一种遗传性神经退行性疾病,目前尚无有效治疗方法。通过研究基因表达与疾病进展之间的关系,科学家们希望能够更好地理解疾病机制,并发现潜在的生物标志物或治疗靶点。
实验设计: 样本收集 :研究对象 :zHD1:亨廷顿病第一阶段。 zHD2:亨廷顿病第二阶段。 Pre-A:症状前远于预测发病时间。 Pre-B:症状前近于预测发病时间。 包括对照组(无亨廷顿病突变)和亨廷顿病突变阳性的受试者,后者根据症状出现的时间预测分为两组: 还包括已经表现出亨廷顿病症状的两个阶段的受试者: 时间点设计 :第一年(Year 1)和第三年(Year 3)的研究对象数量有所不同,反映了可能的样本损失或招募差异。 数据分析方法 :纵向分析(Longitudinal analysis):追踪个体受试者的统一亨廷顿病评定量表(UHDRS TMS)评分与基因表达的变化。 横断面比较(Cross-sectional comparisons):在每个时间点对不同表型组之间的基因表达进行比较。 研究规模 :第一年:24名对照组,17名Pre-A,18名Pre-B,18名zHD1,19名zHD2。 第三年:20名对照组,15名Pre-A,15名Pre-B,16名zHD1,16名zHD2。 预期结果: 研究预期能够揭示与亨廷顿病进展相关的基因表达模式。 可能识别出在疾病早期或症状前阶段就发生变化的基因,这有助于早期诊断和干预。 通过比较不同表型组的基因表达,研究可能发现与疾病进展相关的特定生物标志物。 研究意义: 这项研究有助于增进对亨廷顿病病理机制的理解。 为开发新的治疗策略和药物提供潜在的分子靶点。 通过基因表达分析,可能有助于预测疾病进展和评估治疗效果。 贡献者: 这个实验设计是一个典型的临床研究,结合了纵向追踪和横断面分析,旨在深入理解亨廷顿病的分子机制,并寻找可能的生物标志物。这个实验设计是TRACK HD研究的一部分,旨在分析亨廷顿病(Huntington's disease, HD)症状进展与血液中基因表达之间的关联。亨廷顿病是一种遗传性神经退行性疾病,目前尚无有效治疗方法。通过研究基因表达与疾病进展之间的关系,科学家们希望能够更好地理解疾病机制,并发现潜在的生物标志物或治疗靶点。
In the Year 1 Huntington’s disease versus control analysis, 8 of these showed statistically significant differential expression (P < 0.05, without FDR correction).
无论何种组合去做差异分析都没有结果: 很容易读取geo页面的实验设计和分组情况,如下所示:
> table(pd$`disease stage:ch1`,pd$`year:ch1`)
1 3
Control 24 20
preHD A 17 15
preHD B 18 15
zHD stage1 18 16
zHD stage2 19 16
这样的话,可以做差异分析的组合就非常多!但是我们随意做一下,都可以发现:
三张图
我在生信技能树的教程:《你确定你的差异基因找对了吗?》 提到过,必须要对你的转录水平的全局表达矩阵 做好质量控制,最好是看到标准3张图 :
左边的热图,说明我们实验的两个分组,normal和npc的很多基因表达量是有明显差异的 中间的PCA图,说明我们的normal和npc两个分组非常明显的差异 右边的层次聚类也是如此,说明我们的normal和npc两个分组非常明显的差异 如果分组在3张图里面体现不出来,实际上后续差异分析是有风险的 。这个时候需要根据你自己不合格的3张图,仔细探索哪些样本是离群点,自行查询中间过程可能的问题所在,或者检查是否有其它混杂因素,都是会影响我们的差异分析结果的生物学解释。
因为差异分析虽然可以强行做,但是结果会都没办法达到阈值:
没办法达到阈值
所以我就借助于人工智能大模型给大家答疑:
第1个问题:差异分析的时候到底是p值重要还是变化倍数重要?如何合理的判断统计学显著的上下调基因 在差异分析中,p值和变化倍数(fold change)都是评估基因表达差异的重要指标,但它们代表了不同的生物学意义,并且在不同的情境下可能需要不同的关注点。
p值 :p值用于评估观察到的数据在零假设(通常是指两组之间没有差异)为真的情况下出现的概率。 较小的p值(通常小于0.05)表明观察到的差异不太可能是随机发生的,即差异具有统计学显著性。 p值帮助我们控制第一类错误(错误地拒绝了正确的零假设)。 变化倍数(Fold Change) :变化倍数表示基因表达水平在两个条件下(如实验组与对照组)的相对变化。 它是一个无量纲的指标,可以直观地显示基因表达水平的变化幅度。 变化倍数不考虑数据的统计显著性,只关注生物学变化的大小。 如何合理判断统计学显著的上下调基因 :
设置阈值 :通常,你会为p值和变化倍数设置阈值。例如,p值小于0.05和变化倍数大于2或小于0.5可能是常见的筛选标准。 考虑生物学意义 :即使统计学上显著,也需要考虑变化倍数是否具有生物学意义。微小的变化可能在生物学上不重要。 使用校正方法 :当进行多重比较时,使用如Bonferroni校正或False Discovery Rate (FDR)控制方法来调整p值,以减少I型错误。 查看效应量 :效应量(如Cohen's d)可以提供差异大小的标准化度量,有助于评估差异的实际重要性。 数据分布和样本大小 :检查数据的分布和样本大小。小样本可能导致p值不准确,而偏态分布可能影响变化倍数的解释。 图形表示 :利用箱线图、小提琴图或散点图等可视化手段来检查数据分布和表达差异。 结合文献和背景知识 :结合已有的文献和生物学背景知识,评估基因变化的生物学意义。 使用多种统计方法 :考虑使用非参数方法或健壮的统计方法来评估差异,特别是当数据违反正态分布假设时。 重复实验验证 :如果可能,通过独立的实验重复来验证统计结果的一致性。 综合考虑 :最终的判断应该是综合考虑p值、变化倍数、效应量、生物学背景和数据可视化结果。 总之,没有单一的指标可以完全决定一个基因是否为“统计学显著的上下调基因”,通常需要综合考虑多个方面来做出判断。
第2个问题:什么时候我们只看p值就判断差异基因,什么时候我们只看变化倍数呢 在差异基因表达分析中,选择依赖p值或变化倍数(fold change)通常取决于研究的目的、数据的特性以及研究者希望强调的生物学意义。以下是一些指导原则:
何时主要看p值: 多重比较问题 :当进行大量假设检验时(例如,微阵列或RNA-seq分析中的成千上万个基因),校正p值以控制错误发现率(如使用FDR或Bonferroni校正)非常重要。探索性研究 :在初步研究或探索性分析中,可能更关注统计显著性,以识别可能的候选基因进行后续研究。小样本研究 :当样本量较小,变化倍数可能不够稳定或可靠时,p值可以提供是否观察到统计学差异的依据。严格的统计标准 :在需要严格控制第一类错误(假阳性)的研究中,依赖p值可以确保结果的统计学可靠性。何时主要看变化倍数: 生物学影响 :当研究的焦点是识别那些具有显著生物学影响的基因,即使这些基因的p值没有达到严格的显著性阈值。效应大小 :在效应大小(如Cohen's d)较小的情况下,即使p值显著,实际的生物学效果可能有限,这时变化倍数可以帮助评估效应的实际重要性。大规模效应 :对于已知生物学功能且预期会有大规模表达变化的基因,变化倍数可以直观地显示其表达水平的变化幅度。实验设计 :在实验设计阶段,如果预期效应大小较小但具有生物学意义,可以在实验设计时就设定变化倍数作为筛选标准。综合考虑: 在许多情况下,研究者会同时考虑p值和变化倍数,以及它们的置信区间或效应量,以做出更全面的判断。 当数据集的样本量足够大时,即使是小的效应也可能具有统计学显著性,此时变化倍数可以帮助评估这些效应的生物学意义。 在某些情况下,研究者可能会根据先前的研究或生物学知识设定特定的变化倍数阈值,即使p值没有达到传统意义上的显著性水平。 总之,选择依赖p值或变化倍数应基于研究目的、数据特性、实验设计和生物学背景。理想情况下,两者都应被考虑,以确保结果既具有统计学意义也具有生物学相关性。
第3个问题:p值和变化倍数的优先级 是的,在不同的生物学研究中,p值和变化倍数的优先级确实会有所不同,这取决于研究的目的、研究设计的特定需求、以及研究者希望解答的科学问题。以下是一些具体情况下对p值和变化倍数优先级的考量:
基础研究与应用研究 :在基础研究中,可能更关注于理解生物学过程和机制,因此变化倍数可能更受重视,以展示基因表达的显著变化。 在应用研究,如临床诊断或治疗响应预测中,可能更侧重于统计学上的显著性,因此p值可能更受重视。 探索性研究与验证性研究 :探索性研究可能更侧重于发现潜在的生物标志物或新的科学假设,此时变化倍数可能更有用。 验证性研究通常关注于确认先前研究的发现,此时p值的严格性可能更重要。 小样本研究与大样本研究 :在小样本研究中,变化倍数可能更有用,因为它提供了效应大小的直观信息,而小样本可能不足以提供统计学上的显著性。 大样本研究可能更容易获得统计学上的显著性,此时p值可能更受重视。 多重比较问题 :当研究涉及大量测试时(如基因组学研究),控制错误发现率(FDR)变得非常重要,因此p值和多重比较校正在这种情况下至关重要。 生物学变异性 :如果研究的生物系统预期具有高度的生物学变异性,研究者可能更关注变化倍数来捕捉这种变异性。 效应大小与统计显著性 :如果效应大小(例如,变化倍数)很大,即使p值没有达到传统阈值,研究者也可能认为结果是有意义的。 如果效应大小较小,但p值非常小,研究者可能会怀疑这种差异是否具有实际的生物学意义。 研究领域惯例 :不同的研究领域可能有不同的标准和惯例。例如,某些领域可能更习惯于报告p值,而其他领域可能更倾向于讨论变化倍数。 研究问题的性质 :如果研究问题涉及到确定两个条件之间的显著差异,p值可能更受关注。 如果研究问题更关注于效应的大小和生物学意义,变化倍数可能更受关注。 结果的解释与应用 :如果研究结果将直接应用于临床决策或政策制定,可能需要更严格的统计证据,此时p值可能更受重视。 在实际应用中,最理想的做法是综合考虑p值和变化倍数,以及它们的置信区间和效应量,以获得对数据的全面理解。此外,研究者应该根据研究的具体背景和目标来确定哪些指标更为重要。