Ulisses Nunes da Rocha团队在Nucleic Acids Research连续发表了两篇宏基因组数据库TerrestrialMetagenomeDB和HumanMetagenomeDB。分别针对陆地生态系统和人体宏基因组数据。
TerrestrialMetagenomeDB包括15022个来自SRA和MG-RAST的陆地宏基因组。数据总计68 Tbp。共将199个陆地类型分为14类。这些宏基因组数据包含83个国家,30个生物群落和7个主要来源。
HumanMetagenomeDB包含69822个宏基因组。涵盖了58个国家、9个主要样本点(即身体部位)、58种诊断分析和多个年龄段(从刚出生到91岁)。
两个数据库的构建方法类似:
TerrestrialMetagenomeDB数据库构建步骤:
(A) SRA和MG-RAST中宏基因组数据检索;
(B)属性标准化;
(C)特定宏基因组的鉴定;
(D)合并SRA和MG-RAST数据。
(E) 构建用户友好的使用平台。
Ref:
TerrestrialMetagenomeDB:a public repository of curated and standardized metadata for terrestrial metagenomes, Nucleic Acids Research, Volume 48, IssueD1, 08 January 2020, Pages D626–D632, https://doi.org/10.1093/nar/gkz994
HumanMetagenomeDB: a public repository of curated and standardized metadata for human metagenomes, Nucleic Acids Research, Volume 49, Issue D1, 8 January 2021, Pages D743–D750, https://doi.org/10.1093/nar/gkaa1031