BIB｜DeepTorrent:基于深度学习的DNA-N4甲基胞嘧啶位点预测方法

智能生信

发布于 2021-03-03 15:55:29

1.3K0

作者 | 蔡建华编辑 | 李仲深

今天为大家介绍的是西北农林科技大学信息工程学院的刘全中教授和蒙纳士大学生物医学发现研究所科研组等人在Briefings in Bioinformatics上发表的文章“DeepTorrent:a deep learning-based approach for predicting DNA N4-methylcytosine sites”。

DNA-N4甲基胞嘧啶(4mC)是一种重要的表观遗传修饰，在DNA复制和表达调控中起着重要作用。然而，用实验方法检测4mC位点是一个具有挑战性的问题，这种方法既耗时又昂贵。因此，能够识别4mC位点的计算工具对于理解这种重要的DNA修饰机制是非常有用的。在过去的3年里，人们提出了几种基于机器学习的4mC预测器，但它们的性能并不理想。在这篇文章中，作者提出了一种基于深度学习的方法，称为DeepTorrent，用于从DNA序列预测4mC位点。

一、研究背景

DNA甲基化是一种表观遗传修饰，在将非编码遗传信息传递到DNA序列中起着重要作用。DNA甲基化与许多生物学过程有关，如基因表达调控、基因组印记和细胞分化。此外，DNA甲基化模式的改变被认为是疾病的一种机制，常常导致癌症和其他疾病。基因组中常见的DNA甲基化类型包括5-甲基胞嘧啶(5mC)、N6-甲基腺嘌呤(6mA)和N4-甲基胞嘧啶(4mC)。这三种类型的DNA甲基化主要在原核生物中发现。在真核生物基因组中，甲基化的主要类型是5mC。6mA在原核生物基因组中比真核生物基因组中更为丰富。4mC在中温细菌中更为常见，使用传统技术很难在真核生物基因组中检测到。因此，前辈科研人员提出了各种基于测序的实验方法来检测甲基化位点。这些实验技术有助于DNA甲基化位点的检测；然而，它们仍然是费力和昂贵的，不适合于高通量DNA甲基化位点的鉴定。因此，预测DNA甲基化位点的计算方法为DNA甲基化位点的大规模识别提供了一种有用的补充策略，可以有效地促进实验研究。

到目前为止，只有少数的4mC预测方法和工具可用。将这些方法按其操作算法简单地分为两大类，第一类方法基于传统的机器学习算法；第二类方法是基于深度学习算法。传统的基于机器学习的方法应用支持向量机或集成多分类器来建立DNA序列4mC位点识别的集成预测模型。这类方法方法采用不同的特征编码方案将DNA序列编码到特征向量上，然后训练预测模型。基于深度学习的方法使用具有若干个卷积层的卷积神经网络，将输入序列编码到矩阵中，作为第一个卷积层的输入。

在这篇论文中，作者提出了DeepTorrent，一个基于深度学习的计算框架，用于从DNA序列数据预测4mC位点。更具体地说，DeepTorrent利用四种不同类型的特征编码方案将原始DNA序列转化为具有起始点的CNN、双向长短时记忆(BLSTM)和注意机制组成的深网络。DeepTorrent使用深度转移学习策略来解决小样本问题。在两个不同数据集上进行的大量基准试验表明，DeepTorrent在所有六个测试物种中的性能达到了最佳。

二、模型与方法

2.1 数据集

在本研究中，所采用的数据集可以从http://DeepTorrent.erc.monash.edu上获得。

2.2 模型构建

图1展示了DeepTorrent的深度学习网络架构。在本研究中，4mC位点预测任务可以看作是一个二元分类问题。为了解决这个问题，DeepTorrent首先使用四种不同的编码方案对样本DNA序列进行编码。将四个编码矩阵并行输入到特征提取模块的输入层，并将每个编码转换为抽象的特征表示。所有这些抽象特征被合并成一个单一的特征向量。然后，利用两层全连通网络和输出层生成最终的预测结果，即4mC位点或非4mC位点。

图1. DeepTorrent的网络框架

2.2.1 特征编码方案

在这项研究中，作者使用了七种不同的DNA序列编码方案对DNA序列进行编码。这些方法分别是：(1) one-hot编码方式；(2) k间隔核酸对组成编码(CKSNAP)；(3)核苷酸化学性质编码(NCP)；(4)核苷酸电子-离子相互作用赝势编码(EIIP)；(5)增强型核酸组成编码(ENAC)；(6)累积核苷酸频率编码(ANF)；(7)基于单链特性的位置特异性三核苷酸倾向性编码(PSTNPss)。在这里，主要考虑了四种类型的核酸（“A”、“C”、“G”和“T”）以及DNA序列中的未知字符“-”。

随后，进一步将上述七种编码方案分组为四种特征编码组合。这四种组合及其维度如表1所示。例如，“ANF+NCP+EIIP+One-hot”结合了ANF、NCP、EIIP和One-hot编码方案，将一个长41bp的DNA序列编码为(41×9)维向量。

表1. 四种编码组合方案

2.2.2 卷积神经网络

DeepTorrent网络框架中有三个卷积层。在第一卷积层，利用三个不同卷积核大小的卷积块并行地从编码矩阵中提取特征。这三个卷积块的核大小分别为1、3和5。在这三个卷积块中有32个滤波器，L2正则化值为0.002，用ReLU作为激活函数。

利用第一卷积层的三个卷积块，可以得到了三种不同的特征表示。对于输入m×n编码矩阵，每种类型的特征由第一卷积层之后的m×32矩阵表示。然后，使用一个丢失值为0.5的合并层将3个m×32矩阵合并为一个m×96矩阵，该矩阵具有更高的维数和更具意义的特征表示。

第二个卷积层也包含三个卷积块。首先利用核尺寸为1的第一卷积块从第一卷积层提取的级联特征映射中提取更高抽象的特征表示。然后，输出特征表示被用作核大小为3的第二卷积块的输入，以及作为核大小为5的第三卷积块的输入。这三个卷积块中的滤波器数目为136个，L2正则化值为0.002，并使用ReLU作为激活函数。因此，通过第二层卷积运算生成三个m×136矩阵。随后，使用合并层将三个m×136矩阵合并成m×408矩阵。在合并层中，丢失值设置为0.5。

类似地，第三卷积层也应用初始模块，遵循与第二卷积层相同的操作来获得更高维的抽象特征。第三卷积层的三个卷积块的核大小分别为1、3和5。这三个卷积块的滤波器个数为48个，L2正则化值为0.002，并使用ReLU作为激活函数。与前两个卷积层一样，第三个卷积层后面还有一个合并层，丢失值为0.5。

2.2.3 注意力层

注意力机制可以自适应地关注重要位置和相关部分，而忽略不相关的部分。在这项研究中，作者的目的是希望在DeepTorrent中实现注意层。注意层从特征维和序列维两个维度选择重要特征。这意味着来自CNN层的输出矩阵及其转置矩阵被输入到注意力层。以这种方式，注意层可以选择两种不同的特征表示。

2.2.4 双向长短时记忆

BLSTM是一种特殊类型的递归神经网络（RNN），由两个反向的单向LSTM网络组成。BLSTM可以捕获序列之间的相互依赖关系，并在序列中集成前向和后向信息。在DeepTorrent中，CNN层连接到另外两个BLSTM，每个BLSTM处理CNN的序列维和特征维输出。通过这种方法，可以得到了四个特征表示，其中来自注意层的两个特征表示和BLSTM的两个特征表示。然后，通过合并层将四种特征表示组合成一个更强大的特征表示。

2.2.5 全连接层和输出层

作者使用四种编码方案的多种组合作为输入，并行训练DeepTorrent模型。通过三个卷积层、一个注意层和两个BLSTM网络，将每个编码组合生成的特征矩阵转化为四个特征向量。结果，总共生成16个特征向量。然后，使用合并层将这16个特征向量合并为一个组合特征向量。

然后，将组合后的特征向量输入到一个全连接网络中。全连接网络的第一层包含64个单元。同样地，激活函数是ReLU，并且丢失值是0.5。第二个全连接层有8个单元，使用ReLU激活。最后输出层采用softmax-loss作为分类器生成预测结果。

三、实验结果

3.1 不同编码方案组合的比较

为了测试DeepTorrent的性能，我们使用表1中列出的四种编码方案的所有可能组合的所有编码输入进行了测试。共有15种可能的编码方式：4种单个编码方式、6种双重编码方式、4种三重编码方式和1种四重编码方式。如图2所示，是从15种编码方式中选出的表现性能最佳的四种，并做了各项指标的比较。从图中可以看出，基于使用1-2-3-4的四重编码方式组合训练的DeepTorrent可以获得最佳的性能。

图2. 不同编码组合的性能比较

3.2 DeepTorrent的特征学习性能

为了说明DeepTorrent如何学习有效的特征表示，作者使用t-SNE图来可视化DeepTorrent自动学习的二维特征表示。原始特征表示如图3A所示，可以直观看出，用原始特征表示很难从视觉上区分每个物种。图3B展示的是基于模型的注意层之后学习的特征表示，我们可以识别出各个不同物种的主要组件。然后，图3C是第二个完全连接层之后的特征表示，这时已经可以很好地识别和分离每个物种。这些结果表明，DeepTorrent能够有效地学习不同物种良好的特征表示。

图3. DeepTorrent不同阶段的6种不同物种的特征t-SNE图

3.3 不同物种上的物种特异性表现

首先在大量数据集的基础上，在六个物种的训练数据集上训练基础网络。然后，使用相应的物种特异性训练数据集对六种物种中的每一种重新训练物种特异性模型。在此基础上，作者进行了10倍交叉验证试验，对DeepTorrent模型的物种特异性进行了评估。实验结果如图4A所示，其ROC曲线如图4B所示。从图4中可以看出，DeepTorrent在所有6个物种中的AUC值均高于0.86，平均AUC值为0.94，平均准确率ACC为0.87。这些结果表明，DeepTorrent为物种特异性4mC预测提供了较好的预测性能。

图4. DeepTorrent在独立测试集上的多物种十折交叉验证性能比较

3.4 与其他4mC预测模型比较

为了评估DeepTorrent的性能，我们进行了十折交叉验证测试，将DeepTorrent与其他几种方法进行了比较，包括iDNA4mC、4mCPred、4mCPred-SVM、Meta-4mCPred和4mCCNN。十折交叉验证结果显示，与其他五种方法相比，DeepTorrent在所有的六个物种上的准确率Acc和特异性Sp都是最高的。同时，图5描述了这六种方法和六种物种的MCC值。如图5所示，DeepTorrent在六个物种中有五个的MCC值最高(除了A.thaliana)。

图5. DeepTorrent和其他预测模型在6种物种上MCC值的物种特异性性能比较

四、总结

在这篇论文中，作者提出了一种新的基于深度学习的方法，称为DeepTorrent，用于4mC位点预测。DeepTorrent基于CNN框架，包含卷积模块和BLSTM，并在序列和特征维度上集成了注意力机制，以识别更重要和相关的特征。此外，DeepTorrent结合多种编码方案来寻找最佳编码输入。最终，四个编码以并行方式输入到深度学习网络中。该模型使用这些编码输入来导出复杂特征，这些特征被连接成一个单一的特征向量，作为全连接层的输入，用于预测4mC位点。通过对特征表示的可视化，这种独特的体系结构被证明是有效的。为了验证DeepTorrent的性能，作者还进行了跨物种验证，并比较了不同方法的性能。结果表明，DeepTorrent提供了具有竞争力的性能和知识转移能力。

代码

http://DeepTorrent.erc.monash.edu/

参考文献

https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbaa124/5865572?searchresult=1#205158427

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-02-05，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络