距离这个主题的上一篇文章关于TCGA中的成熟体miRNA不知不觉已经两个月了,中间穿插了几篇杂记。这两个月里小编干了些其它的事情,对公众号有些耽搁,深表歉意...
本期承接关于TCGA中的成熟体miRNA中抛出的一个问题,"成熟体miRNA,其标识符都是MIMAT*形式的,所以,如何转换为常用的miRNA名的形式呢?",下面跟小编一起看看怎么解决吧~
使用UCSC Xena下载TCGA中的miRNA表达数据时,会发现其数据集中的miRNA编号是MIMAT+一串数字的格式,如下:
以MIMAT0000062为例,在miRBase
数据库中可以检索到如下:
可知,MIMAT0000062为Accession number,而其代表的是成熟体miRNA:hsa-let-7a-5p【Accession number在miRBase数据库中是对应每个miRNA的唯一编号】。
所以如果手里有一组Accession number,那如何将其批量转换成miRNA名呢?
方法一:
下载miRBase数据库文件:ftp://mirbase.org/pub/mirbase/CURRENT/miRNA.xls.zip,同样以MIMAT0000062为例,文件格式如下:
注:由上表可知,hsa-let-7a-1、hsa-let-7a-2、hsa-let-7a-3均可以产生hsa-let-7a-5p成熟体(MIMAT0000062),同时可以注意,这三个miRNA前体均可以产生除hsa-let-7a-5p之外的其他成熟体,如hsa-let-7a-1还可以产生hsa-let-7a-3p成熟体。
基于该文件,剩下的交给文本处理工具去实现批量转换就可以了,但是小编觉得下面这个方法更顺手...
方法二:
使用R处理,R的强大之处在于很多时候你只需要知道要实现什么,基本上检索下都会有现成的R包或者函数可以帮你搞定,当然工具很多,找一个好用顺手的常用就行,下面介绍 miRBaseVersions.db:
https://bioconductor.org/packages/release/data/annotation/html/miRBaseVersions.db.html
该包实际上是miRBase到目前为止21个版本成熟体miRNA信息的整合,包介绍如下:
顺便提到两个有意思的点:
1、作者Stefan Haunsberger基于该数据库还开发了一个miRNA名在不同版本间转换的R包,miRNAmeConverter,此处提一下,有需要的话知道它的存在:
2、一般整理在Bioconductor里的数据库都是名称后面加.db的格式,所以针对miRBase数据库也有一个包,mirbase.db,是不是看起来很官方,但是,这个包更新没跟上,慎用!
再回到 miRBaseVersions.db,其所有的数据均来源于miRBase的官方下载,保证了数据的真实可靠,还是以MIMAT0000062为例了,转换方法如下:
library(miRBaseVersions.db)
select(miRBaseVersions.db, keys = "MIMAT0000062", keytype = "MIMAT", columns = "*")
可以看到,通过MIMAT0000062,可以从数据库中得到其在每个版本下的miRNA名、序列及其物种信息。
总结:
给定一组Accession number,如
"MIMAT0000062", "MIMAT0000063","MIMAT0000064","MIMAT0000065","MIMAT0000066"这5个miRNA,为了得到对应的miRNA NAME,可以做如下操作:
items = select(miRBaseVersions.db, keys = c("MIMAT0000062", "MIMAT0000063","MIMAT0000064","MIMAT0000065","MIMAT0000066"), keytype = "MIMAT", columns = "*")
res = items[items$VERSION == 21.0, "NAME"]# 只取miRBase v21的结果
至此,我们可以通过TCGA得到成熟体miRNA的表达值了,根据自己的课题设计开始分析吧!
被咱们粉丝吐槽了排版,小编一定会尽快解决!
领取专属 10元无门槛券
私享最新 技术干货