文章导读:近十几年来,随着测序技术的飞速发展与快速应用,生物信息学数据得到大量积累。以往研究多集中于新数据的挖掘,在系统化分析上仍然存在很大不足。接下来很可能会进入“后组学”时代,系统化分析生物数据以解决核心科学问题为大势所趋。本篇文章系统地整理了全球不同生境的微生物组数据,并以此分析基因的生物地理。
Towards the biogeography of prokaryotic genes
原核生物基因的生物地理学研究
作者:Luis Pedro Coelho, RenatoAlves, Álvaro Rodríguez del Río et al.
期刊:Nature | Vol 601
时间:13 January 2022
文章摘要
原核生物的基因编码了地球上生命的大部分功能。然而,尽管对各种生境的宏基因组测序越来越多,人们对全球生物圈内基因的分布情况仍知之甚少,包括其对人类和地球健康的影响。在本文中,作者使用来自14种主要栖息地的13174个公开的宏基因组数据,构建了一个包含3.03亿个物种水平基因(根据核苷酸相似度95%进行聚类)的非冗余基因目录,并基于它来展示大多数基因都是生境特异的。有一小部分基因可以在多种生境中出现,主要包括抗生素抗性基因和移动遗传元件的标记基因。这些物种水平的基因可以进一步被聚类为3200万个蛋白质家族,结果发现这些家族中的小部分即可包含大部分的基因(0.6%的家族占50%的基因)。也就是说,大多数物种水平的基因和蛋白质家族是罕见的。此外,物种水平的基因,特别是稀有的基因,显示出较低的正(适应性)选择率,这支持在每个蛋白家族中观察到的大多数遗传变异都是中性或接近中性。
研究背景
宏基因组鸟枪测序使得定量研究环境样品中的分子功能成为可能,这一般基于基因目录(gene catalogue)或基因集的构建,也即将来自不同样品组装的基因进行信息的整合。这些基因目录被广泛应用于人类肠道、宿主相关或环境的微生物组研究。最近,得益于测序深度的提高,从宏基因组中可以获得更加完整的微生物基因组(一般被称作宏基因组组装的基因组,metagenome-assembled genomes,MAGs),从而获得更多的基因背景信息。然而,尽管基因的信息量激增,包括对它们的跨物种能力和生境限制(这些可能与人类健康有关)的认识,关于全球生物圈内基因分布的综合评估仍有待研究。
主要结果
全球微生物基因目录
本文作者整合宏基因组和完整基因组,调查不同生境的原核生物基因来获得关于其全球分布和分子功能的认识。如图1所示,一共收集了14种生境的数据,创建了一个集成的、处理一致的、非冗余的全球微生物基因目录(Global Microbial Gene Catalogue,GMGCv1)。GMGCv1从13174个公开的、高质量宏基因组数据获得,这些样本都被标注了栖息地类型。作者基于这些宏基因组数据组装了contig序列,并预测了每条序列上的开放阅读框(open reading frame,ORF),一共获得了超过20亿的ORFs。为了增加基因目录的覆盖率,作者同时收录了从84029个高质量基因组中获得的约3亿个ORFs。使用基于图形(graph-based)的去冗余算法对这大约23亿条基因序列进行去冗余,以核苷酸相似度95%为阈值进行聚类(一般认为平均核苷酸相似度90%为物种的阈值),产生了3.03亿个基因簇。每个基因簇选择一条序列作为代表,这个基因被称为unigene。
为了能够对全球基因分布特性进行概括,作者基于同源性对基因进行更广泛的聚类,主要根据序列相似性在统计上的显著性(e-value < 10−³)以及四个额外的氨基酸一致性阈值((>90%、>50%、>30%、>20%)。在蛋白数据库中,90%的氨基酸一致性是一个普遍的、比较严格的阈值,基于此阈值可产生2.1亿个蛋白簇,而基于统计上显著同源且氨基酸一致性不低于20%的标准产生了3.2千万个蛋白家族(图1a)。
图1. 全球微生物基因目录。a. 来自14个不同生境的宏基因组的组装和ORF预测,这些ORFs和来自完整基因组的ORFs被聚类成物种水平unigenes、蛋白簇和蛋白家族。b. 不同生境之间共享的unigenes非常少,而不同哺乳动物的肠道共享unigenes较多。c. unigenes的积累曲线,表明一些生境(海洋和土壤)目前仍然抽样不足,还需要继续测序研究。d. 蛋白家族的unigenes数目呈现出长尾分布,极少数的蛋白家族(0.6%)就包含了一半的unigenes。
当前宏基因组学的一个不可避免的局限性是,大多数组装的contigs都很短,导致许多ORF不完整。更严格的序列质量控制可能对某些分析有益,且GMGCv1中68.5%的unigenes可能都是不完整的ORFs,作者同时创建了一个只包含完整ORFs的基因目录(https://gmgc.embl.de)。不完整的ORFs和不同阈值的蛋白家族都能潜在地影响功能和系统发育分析。因此,尽管本文主要关注最宽泛的蛋白家族定义(统计上显著同源、氨基酸一致性不低于20%、包括进所有的ORFs),作者经过检验发现本文所有的观察结果都是稳健的,跨越了几个测试的阈值,并适用于不完整的ORF。
GMGCv1中大多数物种水平的unigenes都包含在小部分蛋白质家族中(最大的0.6%的蛋白质家族包含了一半的unigenes,图1d)。作为结果的参数稳健性的一个例子,当只考虑完整ORFs时这个比例为0.5%,当选择更严格的蛋白质家族定义(氨基酸一致性不低于50%)时为0.9%,也即不同的参数结果对这个比例的影响是很小的。因此,GMGCv1中可观察到的大量遗传多样性主要是由于蛋白质家族内部的多样化,而不是新基因的产生。
作者进一步试图将这些基因放入基因组的环境,共产生了278629个MAGs。即使不去除低质量的组装,这些MAGs仅包含4千万个unigenes,而全部基因目录有3.03亿个unigenes。不过与之前研究一致的是,因为MAGs主要包含高丰度基因(人类肠道微生物组中,95.3%的reads可以map到MAGs,尽管42.5%的unigenes不被包含进MAGs),这个MAG子集对研究充分的生境中短序列reads的回贴是足够的。
大多数基因是生境特异的
MAGs通常是根据每个样本或每个栖息地构建的(也即宏基因组分箱),而全球微生物基因目录使我们能够识别不同生境之间共享的基因。由于物种水平的unigenes代表多个序列(核苷酸同一性大于95%),因此它们能反映基因的生境分布,确定来自多个生境的基因(多生境基因)。这些基因可能存在于在多种生境中茁壮成长的物种中,也可能是移动元件的一部分。也就是说,基因可以在基因组之间以及栖息地边界之间进行水平转移。结果显示,仅1.8千万个unigenes(占总数的5.8%)是多生境基因(图1b)。这与物种倾向于适应其环境的观点是一致的,在宿主相关的微生物组中,同源物种包含宿主特异的基因。
为了解析基因横跨栖息地边界(与整个物种一起或与移动元件一起)的机制,作者首先寻找与移动元件有关的unigenes,发现确实这些unigenes分布在多个生境的概率超过所有基因均值(5.8%)的两倍(13.3%)。抗生素耐药基因(Antibiotic-resistance genes,ARGs)是移动元件中常见的基因,也如预期的那样,比其他unigenes更有可能存在于多个栖息地(10.3%)。考虑到许多物种尚不为人知,为了量化不同生境间的物种重叠,作者构建了宏基因组物种(metagenomic species,MGSs,MAG聚类而得)。总体而言,共产生了7443个MGSs,其中只有1099个在栖息地之间共享,这与单个unigenes的共享模式一致(图1b)。正如预期的那样,物种更有可能在相似的环境中分布。例如,不同的哺乳动物的肠道栖息地共享许多MGSs(1099个MGSs中有786个是共享的)。
丰富度模式是生境特异的
为了调查同物种基因在不同样品的出现情况,作者使用通用、单拷贝基因的丰富度来表示每个物种的基因丰富度(richness),并将其与总体unigenes的丰富度进行比较。不同生境下同物种基因的丰富度存在差异(图2a)。海洋和土壤为多种子模式的混合。就海洋样本而言,这些子模式对应的是不同的海洋深度,尤其是浅水体样本和那些无法获得阳光的较深水域收集的样本存在差异,而土壤环境的差异则体现在酸度和湿度的差异上。因此,宏基因组中每个物种的unigenes数目作为一个明确界定的栖息地的识别特征出现(也即,不同生境物种的通用单拷贝基因数目不同,也即core genome大小不同)。
图2. 同物种基因(每个物种的基因池)的数目以及宏基因组的功能冗余度表明生境内的变化显著小于生境间的变化。a. 不同生境样品中每个物种的基因的数目的分布(类似于物种core genome大小)。b. 不同生境样品中每个蛋白家族的unigene数目(代表功能冗余度,也即一个样品中检测到的一个蛋白家族的unigene越多,功能越冗余)的分布。
为了分析观察到的unigene丰富度主要是由物种驱动(因为需要特定的物种,而物种包含很多基因,导致基因丰富度变化,这样可能有较高的功能冗余度)还是功能驱动(因为需要特定的功能,从而需要一些蛋白家族,这样功能冗余度较低),作者计算了unigene丰富度和蛋白家族丰富度的比值(也即每个蛋白家族的平均unigene数目)来表征功能冗余,也即假设一个蛋白家族的基因功能是一样的。结果显示不同生境也存在明显差异(图2b)。作者进一步测试了栖息地特异性,通过构建一个分类器来预测每个样本的栖息地,仅使用四个描述符(分类、系统发育、unigene和蛋白质家族丰富度)。通过交叉验证,估计该分类器在14个栖息地的准确率为86.1%,也即不同生境具有不同的丰富度模式。功能冗余,即多种生物编码相同的功能,已经在多种环境中被描述。尽管它推翻了每一个代谢生态位都被单一物种占据的简单模型,但对于解释这一过程或其影响的过程仍没有达成共识。从本文的数据中可以得出结论,每个环境中的功能冗余与群落发展的栖息地紧密相关,这与对泛基因组的观察一致。因此,功能冗余的一般模型将需要纳入特定生境的参数。
大多数基因是罕见的
基于前面建立的认识——功能冗余度和大多数基因都是生境特异的,作者接下来研究unigene在宏基因组中的出现频率。结果显示,unigenes的出现频率遵循一个幂律分布,不同的生境参数不同(图3),明确显示大多数基因出现频率较低。如果将出现在少于10个样品的基因定义为罕见基因(rare genes),那GMGCv1中54.7%的unigene为罕见基因。这些近似幂律的频率分布是在中性(或接近中性)演化的假设下所期望的。因此,观察到的基因的分布模式很可能是中性演化的结果。与这个模型一致的是,绝大多数蛋白质家族由罕见的,低丰度的unigenes组成,没有进一步的同系物(图1d)。没有检测到同源物的基因一般被认为对生物的适应性影响很小。
图3. 大多数基因是罕见的。如图展示了不同生境下不同出现频率的unigene的数目。
由于操纵子的结构特点,一个基因的功能可通过相邻基因的共出现而推断(也即根据上下游基因功能来推断)。因此,作者测量了不同出现频率的基因的顺序和相邻基因的代谢通路的保守情况。稀有物种水平的unigenes确实比普遍存在的unigenes在功能上的交互要少(图4a),也即高频率的基因其上下游基因的功能及顺序也比较保守,这与罕见基因在进化上受到更少的限制一致。
然后,作者通过分析序列变异来研究其结果是否与进化的中性模型兼容。中性意味着大多数观察到的遗传差异不是由于对特定生态位的适应(正选择),因此(几乎)对适应性没有影响,尽管净化(负)选择可能仍然是活跃的。由于蛋白家族之间的选择操作不同,作者测试了每个蛋白质家族的正(适应性)选择压力。我们发现绝大多数的unigenes并没有显示出正选择的证据(图4b),这表明,近缘物种的基因的演化主要是(净化选择控制下的)中性演化。
作者观察到罕见的unigenes(4%)比普遍的unigenes(高达10%)更不可能具有适应性(图4b),但这一结果可能受进化速度和出现频率的物种间差异以及可能出现的技术问题的干扰,因此作者进一步仅使用了作为GMGCv1一部分的5126个注释良好的大肠杆菌基因组中的unigenes进行分析,并获得了非常相似的相关性(图4b)。此外,GMGCv1中大肠杆菌基因组的可用数量足以对每个位点进行选择测试,结果表明,与更普遍的大肠杆菌unigenes相比,罕见的大肠杆菌unigenes中的位点受到的可检测的选择压力更小(图4c)。
图4. 罕见的unigene受到的选择压力较小。a. 操纵子结构更有可能出现在高频率的基因中,如图展示了不同频率的基因其相邻基因的保守度。b. 可检测到正选择(使用HyPHY aBS-REL方法)的基因的比例随着基因出现频率的升高而升高(插图中,由于频率和丰度的相关性,较少丰度的基因比高度丰度的基因受到更低的选择压力)。c. 大肠杆菌收到选择的基因片段的比例随着出现频率的升高而升高。
然而,在单个基因组中,大多数基因既不处于低选择压力下,也不稀有。在5126个大肠杆菌基因组中,每个基因组中只有2.8%的基因是罕见的。而之所以罕见基因数目巨大,这主要是由于大肠杆菌菌株以及栖息地的多样性,这与观察到的大肠杆菌的泛基因组(像大多数其他细菌一样)是一致的,也即由于泛基因组的开放性,大量基因组共同贡献了大量的稀有基因。虽然作者无法量化生态和进化过程对观察到的模式的相对贡献,也无法证明稀有基因的进化接近中性,因为现有数据采样和测序深度对非常罕见的基因存在偏见,但是观察到的相关性指向这样一个模型,并表明我们可能仍然低估了稀有基因的数量。
因此,随着测序成本的不断降低,捕获地球上所有丰富的原核生物物种似乎是可行的,事实上这一目标似乎在一些被充分研究的生境已经实现了,如人类肠道等栖息地。根据本文的数据,这甚至对生物多样性非常高的栖息地来说也是可行的,比如土壤。然而,由于大量稀有的、生境特有的、甚至是区域特有的基因,以及可能发生的基因诞生、修改和灭绝的周转过程,全球基因库中的相当一部分可能永远不会被捕获。