作者 | 郁莹莹 编辑 | 臧晨宇 校对 | 李仲深
今天给大家介绍俄勒冈州立大学电气工程和计算机科学学院David A. Hendrix等人在Nucleic Acids Research上发表的文章“A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential”。目前新发现的RNA转录本的泛滥为改进编码潜力的评估、基因组注释的基石和机器驱动生物学知识的发现提供了一个独特的机会。传统的基于特征的RNA分类方法受到当前科学知识的限制,而深度学习方法可以独立地发现数据中复杂的生物规则。该模型mRNA RNN(mRNN),在数据较少,没有事先定义mRNA的概念和特征的情况下,超越了最先进的预测蛋白质编码潜力的方法。并且发现了几个对上下文敏感的密码子,它们对编码潜力具有很高的预测能力。
一、研究背景
现有的将长RNA分类为蛋白质编码RNA(mRNAs)或长非编码RNA(IncRNAs)的最先进方法依赖于人工设计的特征,如覆盖范围和预测开放阅读框架(ORF)。这些特征使这些模型容易把编码小蛋白质的mRNAs和长的,未翻译的ORFs的IncRNAs错分。核苷酸六聚体频率是另一个常用的特征,但虽然它可以捕获密码子对的频率,但它不能从更大的序列上下文中获益。
深度学习模型则能够独立地发现有用的特征,避免由人工设计特征引入的偏见。CNNs擅长学习空间信息,但递归神经网络(RNNs)由于其序列化结构和处理可变长度输入的能力,更适合于学习序列问题。
研究人员最近开始将RNN应用于生物序列,用于识别剪接位点、微RNA靶位点、DNA结合位点和甲基化预测等。虽然由于“消失梯度问题”,基本的RNNs受到最具生物相关性的输入序列长度的挑战,但可以利用RNN的变种(LSTM)RNNs和门控递归单元(GRU) RNNs来管理内存,以提高远程依赖的学习。
本文不仅成功实现GRU网络,并且比现有SOTA表现更好,此外还学习到复杂的生物规则。
二、模型与方法
2.1 数据集
GENCODE Release 25 https://www.gencodegenes.org/human/releases.html
Gencode数据库是ENCODE计划的衍生品,由sanger研究所负责整理和维护,主要记录了基因组的功能注释数据集。本论文使用第release25版本,其中10%的转录本缺乏起始密码子,25%的转录本在注释的CDS中缺乏终止密码子。对于蛋白质编码潜力评估具有挑战性。
2.2.1 GRU模型
先对输入序列进行one-hot编码,随后通过嵌入层将每个输入字符(A、U、G、C或N)线性映射到高维表示。
候选隐藏状态
由输入和前一个隐藏状态
经过reset gate(三角)按比例缩放后的结果计算得到。
隐藏状态由前一个位置的
隐藏状态和当前的候选隐藏状态
都经过update gate(圆形)按照比例缩放后得到。
图1. mRNN Output and Model Schematic
2.2.2 数据增强
通过对每个序列的几个突变拷贝组成的增强数据进行预训练,mRNN的性能得到了显著的提高。当数据集被随机1-nt 点插入增强时,mRNN比随机点突变具有更高的验证精度。并且,长度过滤增强训练数据(200到1000nt长之间的转录本)产生了较低的验证损失。最终,本文对从200到1000nt之间的序列中选择的一组16000个mRNA和16000个IncRNA进行训练和数据增强。
2.2.3 提早停止
训练集上的损失减少,而验证损失不减少,则退出训练。
2.3.1 评估数据集
“人类测试集转录本”:一个由500mRNA和500个IncRNAs组成的人类转录本的无偏随机样本,这些转录本是从完整的GENCODE注释中选择的。
“人类挑战集转录本”(更具挑战性的转录本):包括500 mRNAs与短CDs(≤50个密码子在GENCODE注释)和具有长(未翻译)ORFs的500个IncRNAs(≥50个密码子)
2.3.2 性能评估指标
协同变化分数:对于高度相关的位置来说协同变化分数是很大的负数
突变位置i到核苷酸a分数的变化。
执行两个突变后分数的变化。
补偿变化分数
编码评分轨迹分析:
其中,
是对原始
无权平滑后的平滑编码分数。
三、实验结果
3.1 不同测试集上的测试效果
mRNN ensemble:使用五个最佳的mRNN模型的加权平均值。
图2可以看到单个mRNN优于或与其他几个最好对模型,而mRNN ensemble明显优于其他模型。
图3对挑战集进行性能比较,可以看到mRNN和mRNN集成方法都显著优于其他模型。值得注意的是,其他模型的敏感性较低 ,表明对短ORFs作为蛋白质编码的mRNAs的分类存在偏差,而mRNN集合的灵敏度为79.2%,证明了对这些非典型转录本具有优越的预测能力。
图4通过评估它们在200nt的整套小鼠GENCODE转录本上的性能展现出mRNN有很好的泛化能力。
图2.人类测试集转录本的性能对比
图3.人类挑战集转录本的性能对比
图4.使用人类数据训练的模型对GENCODE小鼠转录本的性能
3.2 Point mutation analysis
图5展示对于相对于以下元素的位置(从上到下):注释的开始密码子,5‘UTR中的AUGs,注释终止密码子以及3’UTRs中的UGA/UAA/UAGs进行shuffle后序列的得分变化。其中,可以看到注释终止密码子的突变显著提高了编码电位分数,表明mRNN对较长的ORF具有偏好。
图5. 转录点突变热度地图
3.3 Pairwise analysis
图7、图8展现一些突变可以加剧或补偿其他ORF突变的影响。由此可得mRNN能够学习生物序列中提取特征之间的远程,复杂关系,这可以解释模型在编码潜力评估任务方面胜过现有最新分类器的能力的原因。此外,也进一步确定了基于深度RNN的方法特别适用于涉及长生物序列建模的任务。
图6. 对于ENST00000449283.1 的编码轨迹
图7.对同一转录本的协同评分变化的配对突变热图
图8.对同一转录本的代偿评分变化的配对突变热图
3.4 Coding trajectory analysis
为了识别最强烈影响mRNN决策的序列区域,本文对编码电位轨迹进行了非加权滑动平均平滑,然后计算了分数的变化。图11显示在起始密码子之后不久,mRNAs的显著尖峰位置的分布在CDS中达到峰值。
图12展示以尖峰为中心的50nt窗口中帧内密码子的频率与在这些尖峰之前的50nt窗口中的密码子频率,发现了11个显著丰富的密码子,被称作翻译指示密码子(TIC)。图14由TIC突变导致尖峰变化幅度更大,表明TIC是mRNN分类过程的重要组成部分。
图9.mRNN对测试集中的每个转录本进行不平滑的编码评分轨迹
图10.记录ENST00000458629.1的编码分数轨迹
图11.相对于真实CDS起始位置,测试集mRNAs中显著尖峰位置的直方图
图12.散点图显示密码子富集在尖峰区域(最显著的尖峰位置±25nt左右)和在尖峰上游的50nt区域
图13.接收机算子特征分析的五种预测方法
图14.由TIC突变引起的mRNN编码分数变化
四、总结
本文证明GRU网络可以成功地模拟全长人类转录本,并且本文利用深度学习可以解释上下文和远程信息依赖关系的特质,与传统限定序列长度方式不同,并没有截断或分割训练序列,也没有以任何方式限制测试集输入的序列长度,而是对整个小鼠转录组,甚至是人类中最长的序列进行评估。相较于人类对mRNA结构的知识整合到其学习过程中,mRNN能够学习mRNAs的真正定义特征。
除了在评估转录编码潜力方面超越最先进的准确性外,本文还证明GRU网络可以用于识别特定的生物属性,比如TIC。许多TICs在编码区有统计学上的富集,可能影响mRNA结构和翻译效率,并且已知一些TIC突变会影响人类疾病背景下的蛋白质表达。未来的工作需要评估TICs是否在mRNA结构和蛋白质表达中发挥更普遍的作用。
本文从两两突变分析中证明了mRNN的递归性质使它能够利用长距离信息依赖来进行分类。这一分析确定了远距离密码子之间的许多补偿和协同关系,这可能分别对蛋白质功能保护和适应很重要。更多的,与先前对原核生物、真核生物和病毒基因内上位性的研究一致,本文观察到大多数代偿突变发生在附近的密码子之间,然而mRNN也能够识别远程代偿突变。
基于GRU的方法将在未来生物信息学分类任务中非常有用,并且有在大量可用的序列数据中发现新的生物洞察力。
参考文献
Steven T. Hill1,†, Rachael Kuintzle2,†, Amy Teegarden2, Erich Merrill, III1, Padideh Danaee1 and David A. Hendrix1,2,*A deep recurrent neural network discovers complex biological rules to decipher RNA protein-coding potential
https://academic.oup.com/nar/article/46/16/8105/5050624#121504764
代码
https://github.com/hendrixlab/mRNN