开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

关于TCGA中的成熟体miRNA

文章来源：企鹅号 - 生信控

距离这个主题的上一篇文章关于TCGA中的成熟体miRNA不知不觉已经两个月了，中间穿插了几篇杂记。这两个月里小编干了些其它的事情，对公众号有些耽搁，深表歉意...

本期承接关于TCGA中的成熟体miRNA中抛出的一个问题，"成熟体miRNA，其标识符都是MIMAT*形式的，所以，如何转换为常用的miRNA名的形式呢？"，下面跟小编一起看看怎么解决吧~

使用UCSC Xena下载TCGA中的miRNA表达数据时，会发现其数据集中的miRNA编号是MIMAT+一串数字的格式，如下：

以MIMAT0000062为例，在miRBase

数据库中可以检索到如下：

可知，MIMAT0000062为Accession number，而其代表的是成熟体miRNA：hsa-let-7a-5p【Accession number在miRBase数据库中是对应每个miRNA的唯一编号】。

所以如果手里有一组Accession number，那如何将其批量转换成miRNA名呢？

方法一：

下载miRBase数据库文件：ftp://mirbase.org/pub/mirbase/CURRENT/miRNA.xls.zip，同样以MIMAT0000062为例，文件格式如下：

注：由上表可知，hsa-let-7a-1、hsa-let-7a-2、hsa-let-7a-3均可以产生hsa-let-7a-5p成熟体（MIMAT0000062），同时可以注意，这三个miRNA前体均可以产生除hsa-let-7a-5p之外的其他成熟体，如hsa-let-7a-1还可以产生hsa-let-7a-3p成熟体。

基于该文件，剩下的交给文本处理工具去实现批量转换就可以了，但是小编觉得下面这个方法更顺手...

方法二：

使用R处理，R的强大之处在于很多时候你只需要知道要实现什么，基本上检索下都会有现成的R包或者函数可以帮你搞定，当然工具很多，找一个好用顺手的常用就行，下面介绍 miRBaseVersions.db：

https://bioconductor.org/packages/release/data/annotation/html/miRBaseVersions.db.html

该包实际上是miRBase到目前为止21个版本成熟体miRNA信息的整合，包介绍如下：

顺便提到两个有意思的点：

1、作者Stefan Haunsberger基于该数据库还开发了一个miRNA名在不同版本间转换的R包，miRNAmeConverter，此处提一下，有需要的话知道它的存在：

2、一般整理在Bioconductor里的数据库都是名称后面加.db的格式，所以针对miRBase数据库也有一个包，mirbase.db，是不是看起来很官方，但是，这个包更新没跟上，慎用！

再回到 miRBaseVersions.db，其所有的数据均来源于miRBase的官方下载，保证了数据的真实可靠，还是以MIMAT0000062为例了，转换方法如下：

library(miRBaseVersions.db)

select(miRBaseVersions.db, keys = "MIMAT0000062", keytype = "MIMAT", columns = "*")

可以看到，通过MIMAT0000062，可以从数据库中得到其在每个版本下的miRNA名、序列及其物种信息。

总结：

给定一组Accession number，如

"MIMAT0000062", "MIMAT0000063","MIMAT0000064","MIMAT0000065","MIMAT0000066"这5个miRNA，为了得到对应的miRNA NAME，可以做如下操作：

items = select(miRBaseVersions.db, keys = c("MIMAT0000062", "MIMAT0000063","MIMAT0000064","MIMAT0000065","MIMAT0000066"), keytype = "MIMAT", columns = "*")

res = items[items$VERSION == 21.0, "NAME"]# 只取miRBase v21的结果

至此，我们可以通过TCGA得到成熟体miRNA的表达值了，根据自己的课题设计开始分析吧！

被咱们粉丝吐槽了排版，小编一定会尽快解决！

发表于: 2017-12-242017-12-24 20:05:40
原文链接：http://kuaibao.qq.com/s/20171224G0JMDH00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯