Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Nat. Microbio.l | BacterA I:在没有先验知识的情况下对微生物代谢进行建模

Nat. Microbio.l | BacterA I:在没有先验知识的情况下对微生物代谢进行建模

作者头像
DrugAI
发布于 2023-09-19 06:35:33
发布于 2023-09-19 06:35:33
3230
举报
文章被收录于专栏:DrugAIDrugAI

编译 | 曾全晨 审稿 | 王建民

今天为大家介绍的是来自Paul A. Jensen团队的一篇利用强化学探索微生物知识的论文。训练人工智能(AI)系统进行自主实验可以大大提高微生物学的吞吐量;然而,很少有微生物有足够大的数据集来训练这样的系统。在本研究中,作者引入了一种名为BacterAI的自动化科学平台,它可以对微生物代谢进行建模,不需要任何先前知识。BacterAI通过将科学问题转化为与实验室机器人进行的简单游戏来进行学习。该方法将其发现总结为可以被人类科学家解释的逻辑规则。

微生物组革命已经确定了数千种值得科学研究的细菌物种。科学家们跟不上不断扩张的生命之树的步伐,大多数细菌物种仍未受到研究。人工智能和自动化可以通过用算法代替人类来挖掘科学文献和设计新实验来加速科学发现。未被研究的细菌物种将最受益于自动化研究,但具有讽刺意味的是,由于缺乏数据,难以部署自主代理来研究这些物种。最近,人工智能在一些长期被认为对机器来说过于复杂的游戏中超越了人类的表现。这些惊人的进展是由深度强化学习(RL)驱动的,RL是人工智能的一个分支,在这个分支中,代理通过尝试和错误来解决游戏。RL代理可以从一个空白状态开始学习,无需先前的策略知识甚至游戏规则的了解。简单地奖励代理获胜可以导致最佳策略,并击败人类世界冠军。

将生物学研究问题转化为游戏可以利用强化学习技术研究微生物。作者开发了一个强化学习代理(称为BacterAI),通过“玩”科学实验来解决组合性很大的研究问题。作者要求BacterAI代理学习哪些氨基酸的组合能够支持口腔细菌链球菌(Streptococcus gordonii)的生长。这个看似简单的问题背后隐藏着一个复杂的答案。有1,048,576种可能的20种蛋白质原性氨基酸的子集,BacterAI无法通过蛮力搜索每个组合来解决问题。相反,它必须选择最有信息量的实验,并训练一个计算模型来预测未经测试的组合的结果。

建立BacterAI模型

图 1

强化学习(RL)代理通过反复试错来学习,因此BacterAI需要自由地设计和执行自己的实验。在学习电脑游戏时,两个RL代理可以相互对战以积累经验。对于自动化生物学,BacterAI需要计划和执行物理实验。作者建立了一个实验室自动化流水线,用于执行BacterAI请求的生长测定实验(图1a)。BacterAI每天选择336个实验,但通过复制和对照扩展,每个实验的数量可达到1,152个,每个实验最多需要进行50个液体处理操作。一个定制的调度器接受BacterAI的实验设计,并生成11台实验室仪器和一个人工技术人员的操作指令,负责准备试剂和加载机器。所有数据处理和质量控制都是自动化的,无需人工干预。作者将生物学游戏分为两个阶段:数据收集阶段(第一阶段)和解释阶段(第二阶段)(图1b)。在第一阶段,BacterAI试图找到跨越“生长界面”的培养基 - 这个界面的定义是仅在一个成分上有区别,其他成分均无区别,但是仅靠这一个区别就将样品区分成有生长性的样品和无生长性的样品。BacterAI训练一个内部神经网络来预测细菌在所有2的20次方种培养基中的适应性。(适应性是相对于含有所有20个氨基酸的生长情况来衡量的。)在这个模型的指导下,BacterAI搜索未经测试的生长/无生长对,并每天请求336个实验的批次。培养基的搜索使用一个推演算法,并采用两种策略。第一种策略,利用策略,寻找在生长界面两侧最少成分改变的培养基。第二种搜索策略,探索策略,从含有所有20个氨基酸的培养基开始,随机删除成分,直到代理到达生长界面。无论是利用策略还是探索策略,都会在模型预测的生长界面处结束搜索,而探索策略会进入模型的不确定区域。每天早上,技术人员将前一天实验的最终生长测量结果上传给BacterAI。在重新训练其神经网络之后,BacterAI在模型中搜索未经测试的生长界面上的培养基。一个新的实验设计在一个小时内返回,以便机器人在下午组装实验,进行过夜孵育。学习循环将持续进行,直到神经网络能够在实验执行之前稳定地预测新实验的结果。

图 2

BacterAI学习了一种口腔微生物的氨基酸辅助需求特性

BacterAI在测试中使用了一种被称为S. gordonii的细菌,它是大多数人口的口腔微生物群落中存在的一种共生物种。BacterAI在开始游戏时对S. gordonii没有任何先验信息。它不知道这20个输入是氨基酸,甚至不知道测量输出是生长。关于输入和输出之间的关系,一切都是通过试错学习得到的。在第一天,代理的神经网络未经训练,并且代理请求了336个随机选择的实验。这些实验的结果与代理的预测没有相关性(图2)。第一天之后,由BacterAI请求的实验形成了一个双峰分布(图2a)。当代理采取利用策略规划实验时,所选培养基的氨基酸数量较少;而在探索策略下,所选培养基的氨基酸数量较多。随着代理学习到生长界面的位置,氨基酸的数量发生了变化。当BacterAI过度预测生长时,通过在新数据上对模型进行重新训练,预测的生长界面向更多氨基酸的实验移动。对生长的低估鼓励代理在下一轮中去除更多成分。这些策略的变化并不是预先编程到BacterAI中的,而是在展开搜索过程中更新模型的结果。BacterAI并没有按照设定的方式来分配实验。代理在寻找有信息量的实验时,并没有反映出在给定氨基酸数量下可能的实验分布。BacterAI选择的实验最终分布取决于所研究的细菌的营养缺陷特性,当研究不同的菌株或物种时,这种分布可能会发生变化。BacterAI仅需9天和3,024个实验,就能够使其神经网络对生长/不生长的预测准确度超过90%(图2b)。在获得足够的实验数据后,代理切换到第二阶段:将其发现结果传达给人类科学家。BacterAI的内部神经网络是一个黑盒模型,仅用于规划实验,并不适合直接由人类解释。相反,第二个“解释”代理使用遗传算法构建逻辑规则,这些规则定义了支持生长的氨基酸组合(图1b,绿色)。构建逻辑规则是一个组合优化问题,作者的解释代理使用遗传算法来找到与实验数据匹配的规则。代理通过正则化来强制实施简洁性,对添加逻辑子句但仅在准确性上有轻微提高的过于复杂的规则进行惩罚。

BacterAI注意到其逻辑规则在第13天获得的新数据未改变第12天产生的规则时已经稳定下来。代理终止了游戏,并报告了对于S. gordonii的最终规则:Arg和Leu和Phe和Ser和Tyr和Val和(Gln或Glu)。该规则在用于训练的实验数据上的交叉验证准确率为88.6%,真正阳性/生长率(TPR)为0.906,真正阴性/不生长率(TNR)为0.869。正如预期的那样,逻辑规则的准确性低于BacterAI使用的神经网络的准确性(p < 5 × 10^−8,正态比例检验,单侧)。逻辑规则应该保留用于解释,而更准确的神经网络可以用于预测未经测试的环境中的生长情况。

学习生长规则需要一个具有足够的生长和不生长结果的平衡训练集。BacterAI通过选择沿着生长边界的实验来实现平衡,而对于S. gordonii来说,这是一个困难的任务。代理的最终神经网络预测,在所有的氨基酸组合中,只有1.24%能够支持S. gordonii的生长;然而,在BacterAI选择的介质中,S. gordonii的生长率达到了33%。如果没有BacterAI,很难随机选择包含足够中间条件的训练数据来训练一个预测模型。平衡的数据也对于验证BacterAI的生长规则是必需的。作者随机选择了1,120个之前BacterAI未请求的实验。在这些实验中,S. gordonii的生长规则对98.5%的实验是正确的(TPR = 0.706,TNR = 0.989),但是大量的真负样本(1,091)和较高的TNR使得规则的准确性被夸大了。为了获得更加平衡的测试集,作者使用BacterAI的神经网络选择了1,000个实验,其中有500个预测为生长和500个预测为不生长。在这些数据上,规则的准确率为83.3%(TPR = 0.678,TNR = 0.988),这更接近训练数据上的交叉验证准确率(88.6%)。

结论

BacterAI的游戏化和白板学习的组合为自动化生物学提供了一种可推广的方法。作者使用BacterAI来学习氨基酸和其他营养物质的生长规则,但是相同的算法可以学习任何输入/输出关系。代理的实验搜索仅由数值奖励信号驱动,代理可以自由选择它认为可以最大化奖励的任何输入组合。通过仅基于收集到的数据做决策,BacterAI避免了在实验计划时的人为偏见和先入之见。然而,这种自由要求一个能够处理组合复杂性和每天数万次液体处理操作的自动化平台。BacterAI还依赖于可以在体外在定义的培养基中培养的细菌。在体外培养的口腔细菌的转录组谱与体内数据相似,但实验室的生长测定无法复制口腔微环境的每个特征。BacterAI的方法也可以应用于细菌群落,前提是可以测量个体菌株的生长。

参考资料

Dama, A.C., Kim, K.S., Leyva, D.M. et al. BacterAI maps microbial metabolism without prior knowledge. Nat Microbiol 8, 1018–1025 (2023).

https://doi.org/10.1038/s41564-023-01376-0

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-07-16 20:43,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
Annu. Rev. Phytopathol. (全文翻译)| 宿主植物对细菌生长和行为的调控
2024年6月10日,华中农业大学Kenichi Tsuda团队于Annual Review of Phytopathology发表了题为Regulation of Bacterial Growth and Behavior by Host Plant的综述论文。 综述总结了植物如何利用物理屏障、控制共享资源如水和营养物质、以及产生抗菌分子来调控细菌的生长和行为。论文还强调植物利用专门的代谢物质来支持或抑制特定的细菌,从而选择性地招募与植物相关的细菌群落并调节其功能。在未来进一步解析植物选择促进植物健康的微生物群的确切机制将有助于通过部署定制微生物群或调节局部微生物群来实现可持续农业发展。
小汪Waud
2024/07/12
4120
Annu. Rev. Phytopathol. (全文翻译)| 宿主植物对细菌生长和行为的调控
Nat. Microbiol. | 可解释的深度学习和虚拟进化识别具有抗多药耐药人类病原体活性的抗菌肽
今天介绍一篇发表在Nature Microbiology上的论文:“Explainable deep learning and virtual evolution identifies antimicrobial peptides with activity against multidrug-resistant human pathogens”。随着抗生素耐药性问题的日益严重,计算机辅助抗菌肽(AMPs)设计成为一种重要的研究方向。然而,尽管传统的机器学习模型在预测肽的抗菌活性方面表现出色,但它们通常缺乏对肽序列优化过程的可解释性,导致难以指导实际的肽设计。为了解决这一问题,本文提出了一个集成的计算框架,包括三个主要部分:AMP-CLIP(AMP CLassifier with Improved Precision)、AMP-READ(Antimicrobial Peptide Regression and Analysis for Drug Discovery)和EvoGradient(Evolutionary Gradient-based Optimization for Antimicrobial Peptides)。
DrugAI
2025/02/18
1280
Nat. Microbiol. | 可解释的深度学习和虚拟进化识别具有抗多药耐药人类病原体活性的抗菌肽
万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用
近年来,深度学习技术尤其是大型语言模型(LLM)的发展,为微生物组和宏基因组学研究带来了重大变革。微生物蛋白和基因组序列,如同自然语言一样,构成了生命的“语言”,使得LLMs能够从复杂的微生物生态中提取有价值的信息。
实验盒
2025/02/05
2950
万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用
NRM-生态学理论在微生物生态学中的作用
https://www.nature.com/articles/nrmicro1643#Sec1
Listenlii-生物信息知识分享
2021/01/20
1.1K0
NRM-生态学理论在微生物生态学中的作用
Brief Bioinform|iAMPCN:识别抗菌肽功能活性的深度学习方法
2023年6月27日,澳大利亚莫纳什大学宋江宁教授团队,与日本京都大学Tatsuya Akutsu教授,以及腾讯人工智能实验室姚建华研究员合作,在Briefings in Bioinformatics上发表文章iAMPCN: a deep-learning approach for identifying antimicrobial peptides and their functional activities。
智药邦
2024/03/05
5330
Brief Bioinform|iAMPCN:识别抗菌肽功能活性的深度学习方法
Nat. Biotechnol.|基于深度学习从人体肠道微生物群中识别抗菌肽
本文介绍了中国科学院微生物研究所王军及陈义华共同通讯发表在Nature Biotechnology的文章《Identification of antimicrobial peptides from the human gut microbiome using deep learning》。作者结合了包括LSTM、Attention和BERT在内的多种自然语言处理神经网络模型,形成了一个统一的管道,用于从人类肠道微生物组数据中识别候选抗菌肽(AMP)。在被确定为候选AMP的2349个序列中,化学合成了216个,其中显示出抗菌活性的有181个。并且,在这些多肽中,大多数与训练集中AMP的序列同源性低于40%。对11种最有效的AMP的进一步表征表明,它们对抗生素耐药的革兰氏阴性病原体具有很高的疗效,并且对细菌性肺部感染的小鼠模型显示出了细菌负荷降低10倍的效果。该研究展示了机器学习方法从宏基因组数据中挖掘功能肽并加速发现有前景的AMP候选分子以进行深入研究的潜力。
DrugAI
2022/03/25
6600
Nat. Biotechnol.|基于深度学习从人体肠道微生物群中识别抗菌肽
黑科技 | 为解决汞污染问题,哈佛科学家巧用微生物自生长能力
哈佛研究所采用新型生物方法来实现实时消解环境中的汞。 近日,哈佛大学WYSS生物启发工程研究所的研究团队提出一种可以自我调节的微生物系统,该系统可以实现对汞污染的祛除。 伴随着节能灯近几年的大肆兴起,汞污染问题也逐步加重。其中最为明显的是汞水体污染,它主要来源于氯碱、塑料、电池、电子等工业排放的废水以及废旧医疗器械。 而人类传播的水银,在环境积累中,并通过食物链传播,被称为“汞循环”。它将导致严重的健康问题,包括脑、肾脏和肝脏的损害以及未出生儿童的发育障碍。 目前土壤和水环境中有效隔离汞的能力差,所以研究人
镁客网
2018/05/30
4690
Nat Biotechnol|通过机器学习发现抗生素
2022年5月6日,Nat Biotechnol发表文章,评述了3月份发表在该期刊上的来自中国科学院微生物研究所王军和陈义华等人的研究工作。
智药邦
2022/06/08
3700
Nat Biotechnol|通过机器学习发现抗生素
NC | 肠道微生物研究揭示年轻与老年肠癌共有特征,为年轻肠癌早筛提供新视角
2024年4月,国家基因库生命大数据平台支撑科研成果在《Nature Communications》发表。该研究题为“Consistent signatures in the human gut microbiome of old- and young-onset colorectal cancer”,通过大规模的粪便宏基因组测序以及对已有结直肠癌数据的整合分析,研究团队发现了年轻和老年肠癌共有的肠道微生物特征,尤其是某些特定细菌物种和毒力因子。
尐尐呅
2024/07/26
1280
NC | 肠道微生物研究揭示年轻与老年肠癌共有特征,为年轻肠癌早筛提供新视角
一作解读|Nat. Biotechnol.:水稻NRT1.1B基因调控根系微生物组参与氮利用
https://www.mr-gut.cn/papers/read/1070836774
生信宝典
2019/05/14
4.5K0
Nat. Microbiol丨浙大科研团队解析奶牛瘤胃微生物组功能异质性
瘤胃微生物组一直以来都是研究相对不足但又极其复杂的微生物生态系统之一。瘤胃微生物能够有效降解植物纤维,将其转化为高质量的蛋白质产品,在这一过程中,由于微生物强烈的发酵,还会产生大量气体,其成分主要包括二氧化碳和甲烷等温室气体,还有少量的氮气和微量的氢气、氧气和硫化氢,这些排放的温室气体甚至会对全球环境造成较大的影响。近些年以来,在宏组学技术的推动下,对瘤胃微生态系统功能的认识已取得了显著进展。然而,复杂微生态系统的功能冗余和异质性仍然是实现突破性进展的主要障碍。为了克服这些挑战,我们亟需新的方法来提高微生物组功能研究的分辨率。
生信技能树jimmy
2024/06/25
4240
Nat. Microbiol丨浙大科研团队解析奶牛瘤胃微生物组功能异质性
基因编辑新技术——忘记单个基因:CRISPR现在能切割和拼接整个染色体
想象一下一个文字处理器,它允许你改变字母或单词,但当你试图剪切或重新排列整个段落时却犹豫不决。生物学家几十年来一直面临这样的限制。他们可以在细胞中添加或禁用基因,甚至-使用基因组编辑技术CRISPR-在基因内进行精确的改变。这些能力导致了重组DNA技术,转基因生物和基因疗法。但是,一个长期寻求的目标仍然遥不可及:在大肠杆菌(Escherichia Coli,这是一种主要的细菌)中操纵更大的染色体。现在,研究人员说,他们已经改编了CRISPR,并将其与其他工具结合起来,可以轻松地剪切和拼接大的基因组片段。
DoubleHelix
2019/09/04
9591
基因编辑新技术——忘记单个基因:CRISPR现在能切割和拼接整个染色体
【Nature Biotechnology】四篇好文简读-专题1
Mapping single-cell data to reference atlases by transfer learning 论文摘要:
智能生信
2022/05/23
5110
【Nature Biotechnology】四篇好文简读-专题1
PNAS:大规模并行筛选合成微生物群落
Link: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6600964/
Listenlii-生物信息知识分享
2022/03/31
9930
PNAS:大规模并行筛选合成微生物群落
Advanced Science发表人类皮肤微生物基因组综合目录
2023年8月,国家基因库生命大数据平台支撑科研成果在《Advanced Science》发表。该研究题为“Integrated Human Skin Bacteria Genome Catalog Reveals Extensive Unexplored Habitat-Specific Microbiome Diversity and Function”,通过对450个面部样本进行高深度鸟枪法测序,并结合2069个公开的皮肤宏基因组数据集,构建了一个人类皮肤微生物基因组综合目录(UHSG)。UHSG 提供了一个方便的参考数据库,将有助于更深入地了解皮肤微生物在皮肤中的作用。
尐尐呅
2023/10/10
4520
Advanced Science发表人类皮肤微生物基因组综合目录
翻译--肺微生物组与肺癌之间的相互作用
人类的微生物群通过多种途径向人体提供益处或疾病易感性。在糖尿病、肥胖症和慢性胃病等系统疾病中,常发现人体微生物体共生平衡的破坏。新出现的证据表明,微生物区系的失调也可能在多个层面上发挥重要的致癌作用,例如通过影响代谢、炎症或免疫途径。虽然肠道微生物群对消化道肿瘤的影响已被广泛探讨,但很少有研究表明肠道微生物群与肺癌之间的相互作用。最近的一些研究表明,某些微生物和微生物区系失调与肺癌的发生有关。在这篇小型综述中,我们简要地总结了目前描述肺微生物群与肺癌的关系的研究成果。我们进一步讨论了肺微生物群在肺癌发生中的作用和影响肺癌治疗的潜在机制。更好地了解肺癌与肺微生物组之间的相互作用,可以促进肺癌早期预防和个性化治疗的创新策略的制定。
用户1075469
2020/03/03
7320
Nat. Biotechnol. | 使用深度学习来注释蛋白质宇宙
今天带来的是谷歌与欧洲生物信息学研究所研究小组发表在Nature biotechnology上的Using deep learning to annotate the protein universe。
DrugAI
2022/03/25
4620
Nat. Biotechnol. | 使用深度学习来注释蛋白质宇宙
使用melonnpan通过扩增子或宏基因组测序数据有效预测微生物群落的代谢图谱
热心肠研究院的这个介绍让我对这个软件产生了好奇,我决定学习一下这个软件的使用,看看它和picrust的区别在哪,picrust2刚刚发布,看看是棋逢对手还是略胜一筹呢。后来发现,好吧,最后发现一个实验室开发的。。。区别在于一个是完全基于已知的参考数据库,而这个目标是发现是大多数(>60%)未注释基因家族与代谢物相对丰度的关联。
用户1075469
2020/03/03
1.6K0
Microbial Biotechnology: 微生物学中的随机性
Link: https://sfamjournals.onlinelibrary.wiley.com/doi/full/10.1111/1751-7915.13575
Listenlii-生物信息知识分享
2020/05/31
2.1K0
mBio: 将土壤微生物分解为低复杂度的功能模块
Link: https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7343995/
Listenlii-生物信息知识分享
2020/08/11
5960
mBio: 将土壤微生物分解为低复杂度的功能模块
推荐阅读
Annu. Rev. Phytopathol. (全文翻译)| 宿主植物对细菌生长和行为的调控
4120
Nat. Microbiol. | 可解释的深度学习和虚拟进化识别具有抗多药耐药人类病原体活性的抗菌肽
1280
万字综述|一文掌握深度学习与语言模型在微生物组研究中的应用
2950
NRM-生态学理论在微生物生态学中的作用
1.1K0
Brief Bioinform|iAMPCN:识别抗菌肽功能活性的深度学习方法
5330
Nat. Biotechnol.|基于深度学习从人体肠道微生物群中识别抗菌肽
6600
黑科技 | 为解决汞污染问题,哈佛科学家巧用微生物自生长能力
4690
Nat Biotechnol|通过机器学习发现抗生素
3700
NC | 肠道微生物研究揭示年轻与老年肠癌共有特征,为年轻肠癌早筛提供新视角
1280
一作解读|Nat. Biotechnol.:水稻NRT1.1B基因调控根系微生物组参与氮利用
4.5K0
Nat. Microbiol丨浙大科研团队解析奶牛瘤胃微生物组功能异质性
4240
基因编辑新技术——忘记单个基因:CRISPR现在能切割和拼接整个染色体
9591
【Nature Biotechnology】四篇好文简读-专题1
5110
PNAS:大规模并行筛选合成微生物群落
9930
Advanced Science发表人类皮肤微生物基因组综合目录
4520
翻译--肺微生物组与肺癌之间的相互作用
7320
Nat. Biotechnol. | 使用深度学习来注释蛋白质宇宙
4620
使用melonnpan通过扩增子或宏基因组测序数据有效预测微生物群落的代谢图谱
1.6K0
Microbial Biotechnology: 微生物学中的随机性
2.1K0
mBio: 将土壤微生物分解为低复杂度的功能模块
5960
相关推荐
Annu. Rev. Phytopathol. (全文翻译)| 宿主植物对细菌生长和行为的调控
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档