如果这里面确实没有你需要的NGS技术,你需要做的仍然是看完我这些视频,搞清楚我是如何学习一个ngs技术的,然后把这个技能迁移到你自己的ngs数据。你会发现,万变不离其宗,本质上都是Linux能力,如何在服务器里面配置和管理软件,如何看各个软件说明书文档。
在NGS的数据分析,尤其是chip_seq类型的数据分析汇总,经常会看到这样一个概念blacklist regions,直译过来就是黑名单区域。什么样的区域称之为blacklist呢,它对数据分析又有什么样的影响,带着这两个问题,我们来了解下这个概念。
之前的教程提供了Cytoscape基础和视频、R igraph包的网络构建方法,那么在我们得到network图之后,还可以进行深一步分析,今天给大家带来基于Cytoscape软件下MCODE增强包的模块化分析。
比如Nextflow、Snakemake等等,这方面的各种教程多如牛毛,我这里就不赘述了,大家根据关键词搜索即可自行学习。
腾讯视频链接:https://v.qq.com/x/page/x3230xgj0x6.html
NGS技术的进步催生了新的实验设计、分析类型和极高通量测序数据的生成。对于这些数据的质量评估,每一步分析结果的评估是后续结果可信度的衡量和保障。不少生信工具都可以给样品生成一个评估结果,如FastQC、Qualimap 和RSeQC等 (39个转录组分析工具,120种组合评估)。但是这时又出现了一个难题,那就是几乎所有的质控工具都是针对单个样本生成一个报告,这就要求用户自己去逐一查找各个QC结果,这无疑是个十分耗时、重复又复杂的事,而且还不能快速看出所有样本的异同。
比如肿瘤异质性研究的标准思路(多组学+多位点取样),发表在 Clin Cancer Res 2021; 的 文章:《Multiomic Analysis Reveals Comprehensive Tumor Heterogeneity and Distinct Immune Subtypes in Multifocal Intrahepatic Cholangiocarcinoma》
轨迹推断(Trajectory Inference,TI),是分析从千上万单细胞的组学数据中推断细胞发育轨迹的重要方法,也被称为伪时序分析 (pseudotime analysis),该方法根据细胞表达模式的相似性对细胞进行排序。这为应用单细胞转录组学、蛋白质组学和表观组学数据研究细胞内的动态过程,如细胞周期、细胞分化和细胞激活等,提供了新的契机。
有感而发,这里简单的整理了一下我们《生信技能树》团队七八年的资源的十分之一推荐给大家。
其实如果你看过我表观组学系列,比如《ChIP-seq数据分析》 和 《ATAC-seq数据分析》 就会知道这些技术都可以被单细胞化, 如果你具备比较好的背景知识,理论上是可以自己根据文档把它们对应的单细胞水平的数据分析摸索成功。那就作为学徒作业吧,摸索scChIPseq数据分析流程!
NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
对于初学者而言,应该从本手开始,本手的功夫扎实了,棋力才会提高。一些初学者热衷于追求妙手,而忽视更为常用的本手。本手是基础,妙手是创造。一般来说,对本手理解深刻,才可能出现妙手;否则,难免下出俗手,水平也不易提升。
实际上你的关注本身就说明了问题,只不过呢你欠缺那临门一脚,人生很长,你的科研生涯可能还有35年之久,你现在学会数据处理,这个技能的掌握其实是最大化受益!现在,哪怕是全新细胞系模型的提出也需要ngs数据支持啦,比如文章:《Establishment and Characterization of a Brca1−/−**, p53**−/− Mouse Mammary Tumor Cell Line》
以NIPT 为代表的NGS临床应用已广泛被大众接受,Panel、临床亚全外和全外显子组测序技术已慢慢被用于遗传病的诊断。肿瘤靶向用药指导和病原微生物测序也已开始慢慢向医院渗透,越来越多的区域中心级医院希望建立自己的NGS临床诊断中心。
NGS系列文章包括NGS基础、高颜值在线绘图和分析、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。
我之所以注意到它,主要是他们做了芯片加上测序再结合qPCR,非常的保险。胞外囊泡的芯片分析共发现了85种差异circRNA分子,癌与癌旁组织的高通量测序分析发现了140种显著差异的circRNA分子。两种分析的结果中发现了3个circRNA变化趋势一致,最后又使用QPCR分析,如下所示:
现在我就分享一下我自己mac电脑的conda等生物信息学环境配置,提高大家的生产力!
这里面的MeDIP-seq指的是DNA,那么MeRIP-seq其实就是RNA水平的又叫做m6a测序,恰好看到了咱们的表观微信交流群我们的生信技能树优秀转录组讲师在分享全套MeRIP-seq文章图表复现代码,我借花献佛整理一下分享给大家:
对单细胞技术感兴趣?点击浅蓝色字 — 中科院的算法开发博士带你真正玩转这项平均每个月都有多篇高IF文章的技术
QIIME(Quantitative Insights Into Microbial Ecology)和MOTHUR是引用最多、应用最广泛的软件。它们都可以用来分析原始测序数据生成OTU/丰度表,并进行不同样本的比较。QIIME2于2018年发布,是一个全新设计和重写的QIIME版本。
我们这里简单介绍一下全基因组测序分区以及表观组学的分区例子,以后大家看文献的时候就需要多留意。
去年,我们的Volume I成功发表40篇论文,获得60000多次阅读和下载量,效果良好,所以Frontier出版社主动联系我们积极筹办Volume II,现已开放在线投稿,欢迎赐稿主题为“计算表观遗传学”,与细胞重编程,人类疾病,细胞分化相关的计算表观遗传学方向的研究者不要错失良机。
肿瘤免疫疗法在多种恶性肿瘤的临床治疗上取得了显著效果,然而还是存在大部分患者对于免疫疗法没有响应的问题。为了更好的理解肿瘤和免疫细胞相互作用,科学家对来自TCGA和其他几个大型肿瘤研究项目,共20种实体瘤的NGS数据进行分析。TCIA研究发表在Cell Rep(1区,IF9.423分)上:
近年来,空间基因表达技术得到了迅速的发展,其中最成熟的商业化平台是来自10X Genomics的Visium,它们允许我们在形态学背景下进行基因表达谱分析。空间转录组被Nature杂志评为2020年度技术,一时间风光无两。其实回顾起来,我们对生物体内空间或原位信息上的痴迷一点也不亚于对宇宙的好奇。技术允许的早期我们就开始这样做了。
随着近年基因数据量爆发式增长,数据分析成为瓶颈,而传统方法计算速度慢,效率低,因此高性能计算势在必行。
记得去年“阿尔法狗”(AlphaGo)的新闻出来后,小编曾下定决心要跨专业学习一下AI,看看它能否在咱们生物领域也掀起热浪。结果当小编刚刚了解到阿尔法狗的命脉乃来自Deep Learning (深度学习)真传时,它的亲兄弟“AlphaFold” 就以迅雷不及掩耳之势(2018年12月初召开新闻发布会,具体见阿尔法狗再下一城 | 蛋白结构预测AlphaFold大胜传统人类模型)在蛋白质折叠预测领域独领风骚。有生物学背景的我们都知道,虽然科学家们破译了基因组,但从DNA到蛋白质翻译过程受各种基因和/或蛋白质的调控、修饰,并且蛋白质从翻译产生到能发挥功能的这一过程也是在细胞内经历了各种修饰、折叠。但人家“AlphaFold”则不畏这些千难万苦,“硬生生”的通过氨基酸序列直接预测蛋白质的3D结构(AlphaFold 的新闻发布链接:https://deepmind.com/blog/alphafold/)。所以当“AlphaFold”一出世,大家都惊呼它是能把诺贝尔奖抱回家的人选之一。
Sentieon 软件忠于BWA、GATK、MuTect、MuTect2、STAR、Minimap2等金标准的数学模型,在保证完全匹配开源分析方案结果的前提下,计算效率提升15倍以上。Sentieon为大群组项目提供一站式Joint Calling解决方案,可同时处理10万个WGS样本的Joint Calling,无需中间步骤。大幅提升WGS/WES/Panel/ctDNA/RNA等基因数据NGS分析效率和计算精度。
但很多粉丝留言表示这些英文教程看不懂,数据也很分散,没有中文解说实在是很难跟下来,希望我们出一个手把手系列教程。
下意识的以为是有人把单细胞数据分析流程总结成为了一个地铁线路图或者公交车线路图,因为我们生信技能树VIP群里这两天有人把一下NGS分析流程整理成为了这样的图,如下所示:
但是读者多了之后我接受到的大家的反馈就是从ncbi的sra数据库里面下载sra文件实在是太慢了,因为我做演示的服务器在境外,所以自己压根就没有意识到这点。但是陆陆续续有小伙伴告诉我应该是使用aspera从ebi的ena数据库直接下载fastq文件即可,高速而且还少了一个sra文件转为fastq的步骤。所以后来我也开始在日常更新的公众号里面推荐这个方法,就是参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:
这不是最好的时代,也不是最坏的时代,这里是单细胞时代。灵活的单细胞系统,高效的组织解离液,开源的数据分析工具,端到端的单细胞解决方案是未来发展的趋势。这里最主要的是开放灵活的单细胞系统,有了这个系统我们就可以自主地设计反应体系,来从不同纬度捕获单个细胞的信息。
当然了,人家院长只是为了吸引人才嘛,玩笑归玩笑,实际上bulk转录组还是有用处了,比如今天组会看到NC的这篇文献 June 2019 题目是Targeting enhancer switching overcomes non-genetic drug resistance in acute myeloid leukaemia 使用了非常多的NGS技术:
细胞以多种方式与其微环境进行交流,包括释放可溶性分子和直接细胞接触,积极改变其转录组以响应外部信号。为了深入了解关键的生物过程,如疾病和发育,了解细胞间交流的各种方式是必不可少的。研究细胞间通讯的实验方法通常需要精心设计和复杂的设置。
医保行业可以通过大数据和高级分析来获得巨大收益。请看下面医保行业里的五个大数据产品案例。以下为译文: 医保的成本推动了对大数据驱动的医保应用系统的需求。医保行业中的技术决策者不会忽略大数据带来的效率提升,经济吸引力和快速的创新步伐,这些都可以用在医保行业中并使行业受益。许多人发现,对医保数据进行数字化和共享的新标准和激励措施–以及商用硬件产品在存储和并行处理方面的改进和价格的下降–正在导致医保行业的的大数据革命,其以更低的成本提供更好的服务为目标。 医保行业可以通过大数据和高级分析来获得巨大收益。本文将介绍
部分工程师其实能力很一般,所以我们开放的数据分析产品线都是比较简单的,很容易掌控项目状态。有一个福建医科大的研究生三年级硕士接了一个TNBC数据集的可变剪切分析,是42个肿瘤样品和21个癌旁的RNA-seq数据,下载了fastq测序数据,然后走salmon流程以及suppa的可变剪切流程。
打开conda官方网站,查看版本和下载链接:https://repo.anaconda.com/miniconda/
发表在Cancer Cell 2019 Sep的文章 PMID: 31474569:《Single-Cell Transcriptomics in Medulloblastoma Reveals Tumor-Initiating Progenitors and Oncogenic Cascades during Tumorigenesis and Relapse. 》
TCGA有自己的一批工具,ICGC也有自己的网站,但好的资源都是要整合起来,整合越多越好(虽然事实不一定如此,但有这个想法的人不少),用着才更方便。这就靠今天介绍的UCSC XENA来实现了。
药物基因组学通过确定与药物个体反应相关的个体特异性遗传因素,已被有效地用于研究药物不良反应。此前《Pharmacogenomics & Personalized Medicine》发表了题为“Review on Databases and Bioinformatic Approaches on Pharmacogenomics of Adverse Drug Reactions”的综述文章,总结了药物不良反应研究的技术、数据库、数据分析方法等,还探讨了临床应用建议。
按照曾老师的推荐,考虑到资金和政策上的倾斜,接下来的工作速递会倾向于(钱比较多的)欧洲。不过本次推介的工作与Horizon Europe 计划并没有直接联系,而是在一家叫做Scionics Computer Innovation 的公司。
我们的转录组数据分析流程的脚本当然并不能是每次都对每个项目运行全部的环节的每个步骤,通常情况下就是选择性的跑几个步骤即可。有一些小伙伴也许会把流程里面的每个步骤拆分成为多个脚本,这样就绕过选择了。但如果全部是拆分,我们脚本管理起来难度很大。
其实这些各个技术流程的视频教程好几年前我就全部免费共享在b站,而且我同步分享了视频配套讲义和教辅材料;
这个时候,你无需理会你的服务器的R语言版本或者R包啦,因为你每次都会 conda activate r 激活你自己的R语言环境哦。我们在这个环境里面安装了 bioconductor的 singlecelltk和singlecellsignalr,因为它们本身就会依赖大量的其它R语言包,所以理论上这个时候你的这个 conda activate r 小环境,已经是比较好的可以用来做单细胞转录组数据分析的啦!
高通量测序和成像方法的技术进步确立了空间转录组学在整个组织空间系统地检测所有或大多数基因表达水平的能力。近日,来自美国的科研团队在《Nature》发表综述文章,回顾了常见的空间转录组技术,讨论了这些方法产生的数据的探索原则,检查了空间转录组在不同的实验设计中的效用,并强调了该技术通过与其他模式的整合实现生物学洞察的前景。
好奇之下,我就去看了看这个数据集,蛮有意思的,确实是一个样品,但是有两个不同的ngs组学技术,所以有两个ID,同样的过亿的测序片段,得到的fastq文件大小迥异,大家也可以自己点进去看看:
首先这个阈值就好奇怪,他这个表达量矩阵里面基因数量大概就是两三万,就一万多个基因被判定为统计学显著的差异基因,这个暂且不说它什么了。然后研究者就对着一万多个基因合并去做kegg注释,挑选注释得分最高的Wnt通路为目标:
人类基因组变异协会(HGVS)的主要职责是发现和分类包括人群分布与表型相关联的人类基因组变异,并根据方法学与信息学的发展对数据及相关的临床变异进行更新。目前行业中普遍应用HGVS规则对变异进行命名,统一的命名规则方便了各种各样的交流和解读。
领取专属 10元无门槛券
手把手带您无忧上云