本文转自“生信菜鸟团”,已获授权
背景介绍
目前虽然已经有越来越多的宏基因组数据被上传到公共数据库,但由于种种原因(比如,需要消耗更多计算资源,不同研究之间的表型信息定义或格式不同等等),导致很多数据并没有被充分利用。为了克服这些挑战, 包应运而生(或者说它更是一个数据库)。目前已有来自 46 个数据集的八千多个样本纳入其中,这里所有的原始宏基因组测序数据都使用一套统一的流程进行上游分析(使用 MetaPhlAn2 流程进行菌群丰度注释,使用 HUMAnN2 流程进行功能分析),所有数据集的表型信息都重新使用一套相同的标准进行注释和重新定义,最后将每一个数据集打包为 对象,这样一来就大大降低了挖掘宏基因组公共数据的门槛,即使是从前没接触过宏基因组数据的小伙伴也能进行下游进一步探索。
包含哪些数据:
来自 46 个数据集的 8184 个样本,主要是人类肠道的样本,也包括一些人类微生物组计划(HMP)中其他的身体部位
对于这八千多个样本,包括了所有宏基因组数据(菌群分类谱,Marker 信息,基因家族丰度,通路覆盖度及丰度)和经过统一定义的表型数据,并集成为 Bioconductor 中的 ExpressionSet 对象
包含了大约 80 种 metadata 数据,所有的条目都有标准的注释
这些数据使用 MetaPhlAn2 流程进行菌群丰度注释,使用 HUMAnN2 流程进行功能分析
这项工作需要分析大约 100T 的原始数据
使用教程
安装 curatedMetagenomicData 包
查看所有可用的样本和 metadata
所有样本的 metadata 都已经包含在 这一个表格中:
下载数据集
挑选好自己感兴趣的样本就可以开始下载数据啦~ 使用 函数下载数据集,会返回一个 对象。
下载单个数据集:
同时下载多个数据集:
使用 参数查看所有可用的数据集:
合并多个数据集
接下来的操作会把上面下载的两个口腔微生态的宏基因组数据集合并到一个单独的 对象中。
使用 phyloseq 包进行菌群分析
包是一个集菌群丰度数据导入,存储,分析和可视化于一体的工具。它不但利用了 R 中许多经典的工具进行生态学和系统发育分析(例如:vegan,ade4,ape, picante 等),同时还结合 以轻松生成发表级别的可视化图表,可谓是分析宏基因组数据的利器。所以,对于菌群丰度信息 包十分贴心地提供了从 对象转为 对象的函数 ,这样我们就可以直接使用 包进行菌群多样性下游分析了。
更多关于 包的使用教程可参见我之前的教程~
使用 ExpressionSet 对象
由于 S4 类的集成性及其绑定数据和元数据的能力,因此所有数据集都被表示为 对象。
使用 查看实验设计相关的数据:
使用 查看样本信息数据:
领取专属 10元无门槛券
私享最新 技术干货