
编译 | 曾全晨 审稿 | 王建民
今天为大家介绍的是来自康斯坦茨大学的一篇利用深度学习进行斑马鱼信号突变体识别的论文。进化保守的信号通路在早期胚胎发育中起着重要作用,减少或废除它们的活动会导致特定的发育缺陷。通过对表型缺陷进行分类,可以识别潜在的信号传导机制,但这需要专家知识,并且分类方案尚未标准化。在这里,作者使用机器学习方法进行自动表型鉴定,训练了一个深度卷积神经网络 EmbryoNet,以无偏的方式准确识别斑马鱼信号突变体。结合时间依赖的发育轨迹模型,该方法可以高精度地识别和分类由于七个与脊椎动物发育相关的主要信号通路功能丧失而引起的表型缺陷。提出的分类算法在发育生物学中具有广泛应用,并能够可靠地识别远离进化关系的物种中的信号缺陷。此外,通过在高通量药物筛选中使用自动表型鉴定,本文展示了 EmbryoNet 能够解析药物物质的作用机制。作为这项工作的一部分,还提供了用于训练和测试 EmbryoNet 的 200 万多张图像,供大家免费使用。

作者介绍了一种名为 EmbryoNet的深度学习方法,通过自动化表型鉴定可以检测与七个主要的脊椎动物信号通路相关的特定缺陷。EmbryoNet是在超过200万张图像上进行训练的,其中包括正常发育和信号缺陷的斑马鱼胚胎的数千条轨迹。研究发现,EmbryoNet能够比人类评估者更准确地识别表型缺陷,而且通常能够在人类评估者之前较早地检测到这些缺陷。通过在自动化药物筛选中使用 EmbryoNet 的快速表型分类,发现了由美国食品和药物管理局(FDA)批准的物质引起的与发育信号通路调控先前未相关联的新型致畸效应。最后,本文展示了 EmbryoNet 能够识别进化关系较远的物种中的信号缺陷,证明了提出的方法的普适性。

图1
识别斑马鱼胚胎中的信号传导缺陷
为了测试深度学习方法是否可以用于自动分类斑马鱼信号通路缺失引起的复杂表型,作者将高通量成像与特定药物介导的功能缺失方法相结合。模型s能够强大而准确地识别正常和Nodal缺陷的胚胎,无论其方向如何以及使用小分子(SB-505124)还是突变体(母源性双源性oep突变体,MZoep)来创建Nodal功能缺陷的表型。接下来,作者将这种方法扩展到控制早期发育的七个主要信号通路:BMP、RA、Wnt、FGF、Nodal、Shh和PCP。使用具有特定信号通路调节剂的化学遗传学方法,创建了一个包含200多万个具有功能缺失(或在RA的情况下为增强功能)表型的图像数据集。然后训练了一个大规模的卷积神经网络EmbryoNet。这种方法的分类性能达到了89%,能够强大地识别由正交方法引起的功能缺失表型,如注射编码Nodal和BMP信号通路抑制剂Lefty1和Chordin的信使RNA(mRNA)(见图1)。EmbryoNet的算法用于胚胎的检测、跟踪、手动和自动分类,并提供易于使用、模块化和开源的图形用户界面(GUI)软件。
EmbryoNet的优越性能展示
为了评估EmbryoNet的性能,作者测试了它在速度和准确性方面与人类评估者的竞争。在没有用于EmbryoNet的训练,并且没有向评估者透露有关每个胚胎特定处理的信息的图像上。随机猜测的准确率为9%(F分数=0.09)。然后,非专家对这些图像进行分类。这55个团队由两个具有生物学背景的评估者组成,他们接受了生物学培训。平均而言,非专家可以自信地识别Dead类别,但对信号缺陷的准确性仅为53%。即使提供了有关发育阶段的时间信息,准确性仍然为54%。然后,图像由专家评估者进行分类,准确性达到79%。令人惊讶的是,EmbryoNet在这些图像上的表现优于专家和非专家评估者:它在几秒钟内完成任务,总体准确率达到91%。并且在后续上下文相关信息相关的实验中,EmbryoNet在人类注释者能够自信地识别之前,在胚胎早期阶段已经识别到功能丧失的表型。作者又用FDA批准的生物活性化合物进行了大规模斑马鱼筛选(图2)。对于一些小分子,发现了以前没有认识到的对胚胎中信号通路的影响。药物筛选表明,EmbryoNet可用于识别生物活性化合物引起的致畸作用,并将其与信号通路联系起来。

图2
EmbryoNet能识别已知和潜在的缺陷特征和新型信号调节器
为了测试方法的普适性,作者接下来将EmbryoNet应用于识别日本饵鱼(Oryzias latipes)和三刺魚(Gasterosteus aculeatus)这两个进化距离斑马鱼数亿年的物种中的信号缺陷。作者调整了记录的成像长度以适应这两个物种较慢的发育速度并根据需要修改了物种特定的参数。在日本饵鱼和三刺魚中,野生型动物具有良好形成的节块(图2f,g),而Nodal受抑制的胚胎显示出节块缺失(图2f、g,红色箭头),伴随严重的中枢神经系统缺陷和频繁出现的单眼畸形(图2f,红色箭头标记)。在用这些数据集进行训练后,EmbryoNet能够稳健地在这两个物种中识别野生型和Nodal受抑制的个体。这些结果支持了EmbryoNet在识别不同物种中基于信号的复杂表型缺陷方面的广泛适用性。
结论
本文提出了一种基于机器学习辅助的方法EmbryoNe,用于对脊椎动物胚胎发育过程中的发育缺陷进行稳健的表型分析。EmbryoNet在速度、准确性和敏感性方面超过了人类评估者。在评估斑马鱼胚胎时,EmbryoNet能够快速而准确地将表型与主要的信号通路联系起来,包括对不完全穿透表型的分类。作者还能够对分别与斑马鱼相隔数亿年的其他鱼类物种进行EmbryoNet的重新训练,从而使得在不同类群中分析高维表型组数据成为可能。因此,EmbryoNet可能能够加速多个物种中发育突变体的特征化。最后,在使用两个药物库进行概念验证药物筛选时,展示了EmbryoNet能够正确地将化合物与信号功能相关联。因此,可以相信这种方法可以用于理解各种化合物和药物的信号效应,从而开辟了将药物应用于新的治疗环境和应用领域的可能性。
尽管EmbryoNet在识别较早发育阶段的表型方面具有显著优势,但仍然存在一些注意事项和弱点需要考虑。目前尚不确定EmbryoNet能否在检测非常轻微的表型方面超越人类,例如由低浓度药物引起的表型。此外,它依赖于一套手动注释的库,限制了其对新的表型,特别是由信号通路组合扰乱引起的表型的分类能力。深度学习技术的快速发展可以用来增强EmbryoNet的功能,并帮助解决EmbryoNet目前的局限性。通过建立在这些技术突破的基础上,将来可能有可能弥合基因型与表型之间的差距,并解决多样化体型如何在基因水平上编码的长期问题。
EmbryoNet作为开源软件,提供Python软件包、GitHub存储库和用于标记数据和表型分类的图形用户界面(http://github.com/mueller-lab/EmbryoNet)。作者还将训练、测试和药物筛选成像数据提供给社区作为资源(http://embryonet.uni-konstanz.de,http://github.com/mueller-lab/EmbryoNet)。由于其模块化的开源性质,EmbryoNet可以轻松地适应各种目的,包括其他物种和器官样品中的胚胎,其中自动表型分析将加速生物学和药学的发现。
参考资料
Čapek, D., Safroshkin, M., Morales-Navarrete, H. et al. EmbryoNet: using deep learning to link embryonic phenotypes to signaling pathways. Nat Methods (2023).
https://doi.org/10.1038/s41592-023-01873-4