首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >那些ID转换失败的基因是哪些呢

那些ID转换失败的基因是哪些呢

作者头像
生信技能树
发布2024-11-21 09:34:46
发布2024-11-21 09:34:46
4320
举报
文章被收录于专栏:生信技能树生信技能树

我们的生物信息学马拉松授课的一个最重要的环节就是表达量矩阵数据处理,其中让大家练习最频繁的就是传统的表达量芯片的差异分析和富集分析啦。这些分析都是基于基因的,而基因有多种多样的id体系,而且不同的数据分析环节经常是需要进行id的转换!

这样的话,大家就会发现,总是有一些基因的id会转换失败,比如下面的案例 :

代码语言:javascript
复制
 library(clusterProfiler)
    library(enrichplot)
    library(org.Mm.eg.db)
    library(org.Hs.eg.db)
    tmp = toTable(org.Hs.egSYMBOL2EG)
    tmp2 = tmp[grepl('^MT',tmp$symbol),]
    
    x <- c("GIMAP7","NDUFC1","NDUFA3","NAA38","S100A11","GIMAP4","ATP5ME","HIST1H4C","IFITM1","MT-CO1","NEAT1","MT-CO2","ROMO1","MT-ND3","SKP1","ATP5MD","NDUFB1","SLIRP","MT-CYB","MT-ND6","NDUFB2","MT-ND4L","NDUFB3","LINC00861","NDUFS6","MT-ATP6","NDUFA12","HIST1H1D","UBL5","UQCR10","MAT2B","NDUFB4","MT-CO3","SNHG25","POLR2J3","LSM6","RBX1","MRPL51","PET100","MRPL52","AC245297.3","ATP5MF","NDUFV2","NDUFC2","PDCD5","SEC61B","ELOB","BLOC1S1","CSTB","TMEM258","MT-ND4","COX7B","DNAJC8","NDUFA1","NDUFAB1","SNRPG","MRPL41","RBIS","DBI","ATP6V0E1","COX7A2","SERF2","ZNF207","NOP10","ATP5F1E","UQCRQ","POLR2L","HSPE1","RPS27L","DNAJC19","TMA7","RPS17","FTX","COX14","GABARAP","COX5B","MT-ND2","GNG5","AP2S1","S100A6","RPS28","MT-ND5","GABARAPL2","TOMM5","UQCR11","COPS9","EIF2S2","DDT","TSTD1","NDUFS5","SEC62","ATP5MPL","PA2G4","NDUFB10","IFITM2","S100A4","PSMA7","ATP5PF","LSM7","PRMT2")
    x
    length(x) # 100
    
    y = bitr(x, fromType = "SYMBOL",toType = c("ENTREZID"),OrgDb = "org.Hs.eg.db")
    # 16% of input gene IDs are fail to map...
    dim(y) # 84
    setdiff(x,y$SYMBOL) # 16
    # "HIST1H4C"   "MT-CO1"     "MT-CO2"     "MT-ND3"     "ATP5MD"     "MT-CYB"     "MT-ND6"     
    # "MT-ND4L"    "MT-ATP6"    "HIST1H1D"   "MT-CO3"     "AC245297.3" "MT-ND4"    
    # "MT-ND2"     "MT-ND5"     "ATP5MPL"   
    

选择了100胆管基因进行转换,就有16个是失败的, 如果看基因名字很容易看到规律, 绝大部分是线粒体基因。

不同数据库的基因的id体系

在基因组学和分子生物学研究中,基因的标识符是理解和交流基因信息的关键。关于基因的symbol、人类基因命名委员会(HGNC)、Entrez ID和Ensembl ID的解释:

  1. 基因的Symbol(基因符号)
    • 基因符号是基因的简短文本名称,通常由大写字母组成,用于代表特定的基因。例如,"BRCA1" 是乳腺癌易感基因1的符号。
    • 这些符号由专业的命名委员会根据基因的功能、结构或其他特性来分配。
  2. 人类基因命名委员会(HGNC)
    • HGNC 是负责为人类基因提供标准化名称的官方机构。
    • 它确保每个基因有一个独特且一致的符号,以避免混淆和错误。
    • HGNC数据库提供了基因符号、名称、染色体位置和其他相关信息。
  3. Entrez ID
    • Entrez ID 是美国国家生物技术信息中心(NCBI)的Entrez数据库系统中用于唯一标识基因的数字标识符。
    • 每个Entrez ID 对应一个特定的基因,可以在NCBI的GenBank、PubMed和其他相关数据库中用于检索信息。
  4. Ensembl ID
    • Ensembl ID 是由Ensembl数据库分配给基因的标识符,Ensembl是一个开放源代码生物信息学项目,旨在为科学研究人员提供基因组数据的详细注释。
    • Ensembl ID 包括稳定的参考序列信息,以及基因的结构和功能注释。

理解这些标识符的重要性

  • 标准化:基因符号和ID提供了一种标准化的方式来引用基因,这对于科学出版物和数据库的一致性至关重要。
  • 数据检索:这些标识符是检索基因相关信息的关键,如序列数据、表达模式、功能注释等。
  • 跨数据库兼容性:不同的数据库可能使用不同的标识符系统,但它们通常可以相互转换,以便于数据的整合和分析。

在实际研究中,研究人员可能会根据需要使用这些不同的标识符来查找特定基因的信息,或者在比较不同研究结果时进行基因标识符的转换。

暂时没有统一的命名体系的基因

基因命名和标识符系统是多样化的,反映了基因的不同类型和功能 :

  1. Corf系列基因
    • 这些通常是“Chromosome X Open Reading Frame Y”的缩写,其中“X”代表染色体号,如12,而“Y”代表特定的基因编号,如44。这些基因编码的蛋白质功能可能尚未完全清楚,但它们是已知的开放阅读框,意味着它们具有编码蛋白质的潜力。
  2. MIR系列基因
    • 这些基因与微小RNA(microRNA, miRNA)相关。miRNA是一类小非编码RNA分子,它们在调控基因表达中发挥重要作用。MIR系列基因编码的miRNA可以通过调节靶mRNA的稳定性或翻译来影响细胞功能。
  3. LINC系列基因
    • 代表“Long Intergenic Non-Protein Coding RNA”。这类基因编码的是长链非编码RNA(lncRNA),它们在基因表达调控、染色质结构调控和多种细胞过程中起作用。LINC系列基因通常位于基因组中的间隔区域,不编码蛋白质。
  4. OC系列基因
    • 这个系列的基因命名可能是临时的,直到它们的功能和特性被更详细地研究和理解。这些基因的命名反映了它们在被发现时的未知状态,未来可能会根据新的研究结果获得更具体的命名。
  5. 没有官方Symbol的RNA基因
    • 有些RNA基因可能还没有被分配一个官方的基因符号。这些基因可能被临时命名为CTA、CTB、CTC、CTD等,这些名称通常是基于它们被发现的顺序或特定的实验条件。随着研究的深入,这些基因可能会获得更正式的命名。
  6. RNA基因的命名
    • RNA基因的命名可能包括它们的种类(如rRNA、tRNA、snRNA等)和它们在基因组中的位置。例如,一些长链非编码RNA可能根据它们的位置被命名为LINC00123,其中“LINC”表示长链间隔非编码RNA,数字表示特定的基因。

在基因组学研究中,随着新基因的发现和功能研究的深入,基因的命名和标识符可能会更新。因此,研究人员在查阅文献和数据库时,需要注意这些基因命名的最新状态。同时,生物信息学工具和数据库也在不断更新,以适应基因命名和分类的变化。

关于非编码蛋白的基因,如果有一个很接近的蛋白编码基因,lncRNA的名字应该以这个编码基因名字开始,然后制定以后后缀,这个后缀可以下方式分类:● 反义 (antisense,AS),BACE1-AS; ● 内含子(intronic,IT),例如,SPRY4-IT1; ● 重叠 (overlapping,OT),例如,OSX2-OT; ● 长链基因间lncRNA(Long intergenic lncRNAs,lincRNAs),以LINC为前缀,数字为后缀,例如LINC00485。

上述命名的基本架构适用于大多数lncRNA,但对于基因密集区域的lncRNA可能就不适用了,这种情况下,你应该与HGNC沟通来解决。

线粒体基因到底是为什么失败呢

比如这个:https://www.ncbi.nlm.nih.gov/gene/4536 ,可以看到它对应的是 HGNC:HGNC:7456

如果我们是基于 OrgDb = "org.Hs.eg.db" 进行id转换,那么它就没办法成功, 因为 目前它的官方symbol应该是MT-ND2,但是 "org.Hs.eg.db" 记录的是ND2,就冲突了。

如下所示,是 Symbol report for MT-ND2 :

Symbol report for MT-ND2

在理解基因的ID和名字时,有几个关键要素需要了解,这些要素帮助科学家们准确地识别和交流关于特定基因的信息。以下是对您提供的信息的解释:

  1. Approved symbol (官方批准的符号):
    • MT-ND2: 这是基因的官方批准符号,由人类基因命名委员会(HGNC)分配。这个符号是基因的唯一文本标识符。
  2. Approved name (官方批准的名称):
    • mitochondrially encoded NADH:ubiquinone oxidoreductase core subunit 2: 这是基因的全名,描述了基因编码的蛋白质及其功能。这个名称指出该基因编码的是线粒体基因组中的NADH脱氢酶(复合体I)的第二个核心亚基。
  3. Locus type (基因座类型):
    • gene with protein product: 表示这个基因编码一个蛋白质产品。
  4. HGNC ID (HGNC标识符):
    • HGNC:7456: 这是HGNC数据库中分配给该基因的唯一数字ID。
  5. Symbol status (符号状态):
    • Approved: 表示这个符号是官方批准的,并且是当前使用的。
  6. Previous symbols (以前的符号):
    • MTND2: 这是该基因以前的符号,可能在早期文献中使用。
  7. Previous names (以前的名字):
    • 列出了该基因以前的名称,如NADH dehydrogenase 2mitochondrially encoded NADH dehydrogenase 2
  8. Alias symbols (别名符号):
    • ND2, NAD2: 这些是基因的其他别名符号,可能在不同的研究或数据库中使用。
  9. Alias names (别名名称):
    • 列出了基因的其他别名名称,如complex I ND2 subunitNADH-ubiquinone oxidoreductase chain 2
  10. Chromosomal location (染色体位置):
    • mitochondria: 指出该基因位于线粒体基因组中,而不是传统的核染色体上。

理解这些信息的重要性

  • 标准化:官方批准的符号和名称提供了一种标准化的方式来引用基因,这对于科学出版物和数据库的一致性至关重要。
  • 历史记录:以前的符号和名称有助于理解基因命名的历史和演变。
  • 功能描述:官方批准的名称通常提供了关于基因功能的重要信息。
  • 非核染色体位置:对于线粒体基因,指出它们位于线粒体基因组中,这对于理解它们的遗传模式和功能至关重要。

在研究和临床实践中,准确理解和使用这些基因标识符对于确保信息的准确性和可追溯性非常重要。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2024-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 不同数据库的基因的id体系
  • 暂时没有统一的命名体系的基因
  • 线粒体基因到底是为什么失败呢
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档