大家好。本周分享的文章是发表在Plos one上的Predicting human protein function with multi-task deep neural networks。通讯作者是英国伦敦大学学院计算科学系和Francis crick研究所的David T.Jones教授,课题组的研究方向是机器学习在生物问题上,特别是蛋白结构和基因功能上的应用。
当前蛋白质功能预测采用的最广泛的方法是序列比对,然而,由于存在大量已知序列未被注释,这种基于序列相似性的方法在使用上有着非常大的限制。使用机器学习的方法来预测蛋白质功能是这一领域备受关注的新方向,我们期待可以从序列本身特征出发学得必要信息,克服同源序列迁移的限制。
监督式学习方法在蛋白质功能预测中遇到的挑战之一是蛋白功能的结构化和多标签性质。之前的研究大多使用更容易处理的二分类任务来简化问题,很少有报道使用一个能够同时预测所有标签的分类器。本文作者使用的是多任务深度神经网络(multi-task deep nerual network,MTDNN),使用蛋白质序列提取的258种特征(如二级结构、内在无序片段等)来做训练,最终实现输入序列对其所对应的GO项目做出预测。MTDNN的网络架构包括了共享层和任务特异层,前者用来学习来自所有GO项目所共有的特征,后者则是每个GO项目特异的隐藏层。
他们将使用MTDNN的预测结果与使用多标签深度神经网络(Multi-label DNN, mldnn),单任务深度神经网络(single-task DNN,SLDNN)和功能预测方法FFPred做了比较测试,其F1值相对较高,预测性能较好。作者认为MTDNN是多标签预测的一种有效手段,对其他的多标签生物问题也有很好的应用前景。
URL:http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0198216
DOI:10.1371/journal.pone.0198216
领取专属 10元无门槛券
私享最新 技术干货