我们的生物信息学马拉松授课的一个最重要的环节就是表达量矩阵数据处理,其中让大家练习最频繁的就是传统的表达量芯片的差异分析和富集分析啦。这些分析都是基于基因的,而基因有多种多样的id体系,而且不同的数据分析环节经常是需要进行id的转换!
这样的话,大家就会发现,总是有一些基因的id会转换失败,比如下面的案例 :
library(clusterProfiler)
library(enrichplot)
library(org.Mm.eg.db)
library(org.Hs.eg.db)
tmp = toTable(org.Hs.egSYMBOL2EG)
tmp2 = tmp[grepl('^MT',tmp$symbol),]
x <- c("GIMAP7","NDUFC1","NDUFA3","NAA38","S100A11","GIMAP4","ATP5ME","HIST1H4C","IFITM1","MT-CO1","NEAT1","MT-CO2","ROMO1","MT-ND3","SKP1","ATP5MD","NDUFB1","SLIRP","MT-CYB","MT-ND6","NDUFB2","MT-ND4L","NDUFB3","LINC00861","NDUFS6","MT-ATP6","NDUFA12","HIST1H1D","UBL5","UQCR10","MAT2B","NDUFB4","MT-CO3","SNHG25","POLR2J3","LSM6","RBX1","MRPL51","PET100","MRPL52","AC245297.3","ATP5MF","NDUFV2","NDUFC2","PDCD5","SEC61B","ELOB","BLOC1S1","CSTB","TMEM258","MT-ND4","COX7B","DNAJC8","NDUFA1","NDUFAB1","SNRPG","MRPL41","RBIS","DBI","ATP6V0E1","COX7A2","SERF2","ZNF207","NOP10","ATP5F1E","UQCRQ","POLR2L","HSPE1","RPS27L","DNAJC19","TMA7","RPS17","FTX","COX14","GABARAP","COX5B","MT-ND2","GNG5","AP2S1","S100A6","RPS28","MT-ND5","GABARAPL2","TOMM5","UQCR11","COPS9","EIF2S2","DDT","TSTD1","NDUFS5","SEC62","ATP5MPL","PA2G4","NDUFB10","IFITM2","S100A4","PSMA7","ATP5PF","LSM7","PRMT2")
x
length(x) # 100
y = bitr(x, fromType = "SYMBOL",toType = c("ENTREZID"),OrgDb = "org.Hs.eg.db")
# 16% of input gene IDs are fail to map...
dim(y) # 84
setdiff(x,y$SYMBOL) # 16
# "HIST1H4C" "MT-CO1" "MT-CO2" "MT-ND3" "ATP5MD" "MT-CYB" "MT-ND6"
# "MT-ND4L" "MT-ATP6" "HIST1H1D" "MT-CO3" "AC245297.3" "MT-ND4"
# "MT-ND2" "MT-ND5" "ATP5MPL"
选择了100胆管基因进行转换,就有16个是失败的, 如果看基因名字很容易看到规律, 绝大部分是线粒体基因。
在基因组学和分子生物学研究中,基因的标识符是理解和交流基因信息的关键。关于基因的symbol、人类基因命名委员会(HGNC)、Entrez ID和Ensembl ID的解释:
理解这些标识符的重要性:
在实际研究中,研究人员可能会根据需要使用这些不同的标识符来查找特定基因的信息,或者在比较不同研究结果时进行基因标识符的转换。
基因命名和标识符系统是多样化的,反映了基因的不同类型和功能 :
在基因组学研究中,随着新基因的发现和功能研究的深入,基因的命名和标识符可能会更新。因此,研究人员在查阅文献和数据库时,需要注意这些基因命名的最新状态。同时,生物信息学工具和数据库也在不断更新,以适应基因命名和分类的变化。
关于非编码蛋白的基因,如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类:● 反义 (antisense,AS),BACE1-AS; ● 内含子(intronic,IT),例如,SPRY4-IT1; ● 重叠 (overlapping,OT),例如,OSX2-OT; ● 长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485。
上述命名的基本架构适用于大多数lncRNA,但对于基因密集区域的lncRNA可能就不适用了,这种情况下,你应该与HGNC沟通来解决。
比如这个:https://www.ncbi.nlm.nih.gov/gene/4536 ,可以看到它对应的是 HGNC:HGNC:7456
如果我们是基于 OrgDb = "org.Hs.eg.db" 进行id转换,那么它就没办法成功, 因为 目前它的官方symbol应该是MT-ND2,但是 "org.Hs.eg.db" 记录的是ND2,就冲突了。
如下所示,是 Symbol report for MT-ND2 :

Symbol report for MT-ND2
在理解基因的ID和名字时,有几个关键要素需要了解,这些要素帮助科学家们准确地识别和交流关于特定基因的信息。以下是对您提供的信息的解释:
MT-ND2: 这是基因的官方批准符号,由人类基因命名委员会(HGNC)分配。这个符号是基因的唯一文本标识符。mitochondrially encoded NADH:ubiquinone oxidoreductase core subunit 2: 这是基因的全名,描述了基因编码的蛋白质及其功能。这个名称指出该基因编码的是线粒体基因组中的NADH脱氢酶(复合体I)的第二个核心亚基。gene with protein product: 表示这个基因编码一个蛋白质产品。HGNC:7456: 这是HGNC数据库中分配给该基因的唯一数字ID。Approved: 表示这个符号是官方批准的,并且是当前使用的。MTND2: 这是该基因以前的符号,可能在早期文献中使用。NADH dehydrogenase 2和mitochondrially encoded NADH dehydrogenase 2。ND2, NAD2: 这些是基因的其他别名符号,可能在不同的研究或数据库中使用。complex I ND2 subunit和NADH-ubiquinone oxidoreductase chain 2。mitochondria: 指出该基因位于线粒体基因组中,而不是传统的核染色体上。理解这些信息的重要性:
在研究和临床实践中,准确理解和使用这些基因标识符对于确保信息的准确性和可追溯性非常重要。