大家好,本周推荐一篇发表在Nature methods上的文章:Deep learning enables de novo peptide sequencing from data-independent-acquisition mass spectrometry,通讯作者是来自滑铁卢大学的李明教授,他们课题组主要致力于深度学习,自然语言处理等方面,也有一些生物信息学方面的工作。
个性化免疫疗法是目前非常有潜力的一种癌症治疗方法。 然而,对于每个个体中引发有效抗肿瘤T细胞应答的新抗原的鉴定和验证方面,目前依然存在挑战。现有的一些技例如外显子组测序,体细胞突变挖掘和主要组织相容性复合体的预测等等,对于新生抗原的鉴定都是冗长的,可靠性较低的,间接的方法。而质谱是一种非常有利的工具可以对该过程补充和验证。 而目前,对于样品中检测低丰度肽的足够灵敏度和发现任何数据库中不存在的新序列的能力限制了质谱的在该领域的应用。
目前快速发展的DIA策略可以将在一定保留时间内一定M/Z的所有母离子进行碎裂,可以产生完整的记录一个样品当中所有肽段的信息,包括那些丰度很低的肽段,但是由于DIA的MS/MS谱图中包含很多母离子的碎片离子信息,失去了原来DDA策略当中母离子和碎片离子之间的联系,导致DIA搜索引擎的鉴定能力比DDA的要差,而这个问题对于从头测序来说更加的严重。本篇文章作者提出了一个利用DIA的数据从头测序的可行的解决办法,他们发展了一种基于深度学习的模型---DeepNovo,关键思想是应用神经网络来更好地学习碎片离子和肽序列的特征:作者提取了母离子的M/Z,电荷,保留时间以及强度信息以及每个母离子,作者收集了所有的MS/MS谱图,这些谱图在保留时间内以及DIA的窗口覆盖到了这个离子,作者进一步选择母离子保留时间距离中心最近的一点的谱得到其最强的碎片离子的峰所在的谱。作者将前体及其相关的MS/MS谱提供给DeepNovo-DIA神经网络,从而对(i)沿m / z和保留时间维度的碎片离子的三维形状,(ii)母离子与其碎片离子之间的相关性,和(iii)肽序列模式。作者进一步观察到,与许多复杂的优化算法相比,DeepNovo的迭代排序框架使得可以扩展到DIA而不会增加复杂性。作者利用原来获得的64名受试者的尿样数据集上训练DeepNovo-DIA。进一步利用DeepNovo-DIA对来自不同受试者的另外两个数据集(被诊断出患有卵巢囊肿:六个受试者或尿路感染:六个受试者),我们还在之前获得的血浆样本数据集上对DeepNovo-DIA进行测试,且在模型开发期间未使用测试数据集。
作者进一步构建了一个内部数据库搜索工具来生成训练数据。他们参考了DIA-Umpire的方法,即从每个母离子的特征以及对应二级谱生成伪谱。然后进一步使用传统的DDA数据库搜索工具PEAKS DB来搜索针对人类数据库的伪谱。他们的训练集一共包括2177667张谱,202114个标记的母离子特征以及14400个肽段。最终显示当作者在内部数据库搜索工具利用标记的特征进行分析,DeepNovo-DIA可以精确预测63.8–68.1%的氨基酸以及37.4–52.4%肽段,当作者将DeepNovo-DIA应用于所有特征时,高置信度预测的肽段提高到90%,进一步作者发现DeepNovo-DIA对于UTI和OC的样品表现比血清要好,可能是前两者与训练集更加相似的原因。进一步作者利用血清的样品对将DeepNovo-DIA与PECAN和Spectronaut相对比,发现1023个在DeepNovo-DIA鉴定到的肽段也可以在PECAN或是Spectronaut中鉴定到。而对于PECAN和Spectronaut都坚定到的肽段可以视为高置信度的数据库搜索结果,DeepNovo-DIA鉴定到了778(37.2%),与现有的利用DDA的从头测序软件的性能相当,进一步也有1730个肽段只在DeepNovo-DIA中被鉴定到。作者进一步将1023个数据库里鉴定到的肽段与只被DeepNovo-DIA鉴定到的肽段,两者进行比较,发现DeepNovo-DIA对低丰度肽段鉴定效果更好。
总的来说,DIA和从头测序的结合的方法DeepNovo-DIA有可能帮助科学家们发现新的多肽,并能够更完整地分析生物样品。
作者:YF
领取专属 10元无门槛券
私享最新 技术干货