Uniprot (Universal Protein )是包含蛋白质序列,功能信息,研究论文索引的蛋白质数据库,整合了包括EBI( European Bioinformatics Institute),SIB(the Swiss Institute of Bioinformatics),PIR(Protein Information Resource)三大数据库的资源。
对于一个基因而言,我们经常使用的,同时在文章里面能看到的还是基因名。例如: TP53, RNF180。这样的名字,是这个基因功能+编号的简写。例如TP53就是Tumor Protein P53的简写,RNF180是Ring Finger Protein 180的简写。对于很多对基因进行记录的数据库而言,为了他们自己数据库记录的方便,对于每个基因都会进行自己数据库的唯一编号,这样就导致了一个基因形成了很多不同的编号(ID)。例如下图就是一个基因多个数据库的不同ID号。
SMART是蛋白结构域的数据库,该数据库最新版本为v8,收录了1300多个蛋白结构域信息,覆盖了来自uniprot, ensembl等多个数据库的蛋白。官网如下
但是蛋白质组数据库并不是蛋白质数据库,主要是ProteomeXchange联盟,它是一个开放的、公共的数据存储平台,专门用于存储和共享质谱(MS)数据。它由多个蛋白质组学数据存储库组成,包括PRIDE Archive、MassIVE、PeptideAtlas 以及iProX等 。
在微生物测序分析中,常常需要对未知的核酸或蛋白序列进行物种,功能或类别注释。注释方法种类较多,其中最常用的是与一些标准数据库进行相似性搜索,也就是序列比对。因此,数据库的优劣对注释结果至关重要。本期小编为大家带来的是NCBI上的三个重要的数据库—NR/NT,Taxonomy和RefSeq。 NR/NT 数据库 NR(Non-Redundant Protein Sequence Database)非冗余蛋白库,所有GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列,对于所有已知的或可能的编码序列
lncRNA全称为long non-coding RNA, 长链非编码RNA, 指的是长度在200nt以上的非编码RNA。 lncRNA在细胞周期调控, 细胞分化调控,疾病的发生与发展等多种生命活动中发挥着重要作用,是研究的热点之一。
在之前 [[Gene Id二三事]] 中介绍过,每一个基因都在不同的数据库当中都有不同的 ID ,但是每一个基因又都有同样的一个基因名。这个基因名是哪里命名的呢?今天来介绍一下基因命名数据库: HUGO Gene Nomenclature Committee: https://www.genenames.org/
在每个分析开始之前,我们都需要命名一个数据的ID。这个ID可以让我们以后,如果想要继续查看结果的话,直接在Job Queue里面输入ID即可。
对于蛋白质而言,由于编码的氨基酸一个也就那些,所以总会碰到相似的氨基酸组合到一起然后发挥类似功能的这种情况。所以我们经常把那些序列和结构相似的一类蛋白质称为:蛋白家族。对于单一蛋白功能检索的数据库有很多,例如:gene、uniprot这类的。但是有时候我们需要知道一类蛋白家族的功能的话。那该怎么办的呢?所以今天就给大家推荐一个经典的蛋白家族检索数据库:pfam[http://pfam.xfam.org/]。
Cancer3D 2.0: interactive analysis of 3D patterns of cancer mutations in cancer subsets
要想成为一名合格的生物信息工程师,首要条件就是能在各大生信数据库中自由翱翔。目前的生信数据库大体可以分为三类:
在进行基因相关研究的时候,我们经常需要查询了解基因的相关功能,才能知道我们要往哪里进行下一步研究。对于基因功能的查询,我们介绍过ncbi的gene数据库,同样的之前的gene id转换的时候我们也提到过,关于基因信息的汇总除了gene数据库还有ensembl、uniprot等等很多数据库,各个数据库都提供了不同的基因信息。我们在查询的时候,总不能说把各个数据库都查询一遍吧?所以今天就给大家介绍一个汇总了多个数据库的基因信息查询网站: GeneCards (https://www.genecards.org/)
今天给大家介绍的是浙江大学侯廷军教授团队发表在Nucleic Acids Research上的一篇文章“PROTAC-DB:an online database of PROTACs”。蛋白水解靶向嵌合体(PROTACs)是一种通过泛素-蛋白酶体系统选择性降解靶蛋白的新型治疗技术,具有传统抑制策略无法比拟的优势。目前PROTAC的设计仍然是一个巨大的挑战,为了对PROTACs进行合理设计,本文提出了一个基于Web的开放式数据库PROTAC-DB,它集成了PROTACs的结构信息和实验数据。目前,PROTAC-DB已经囊括了1662个PROTAC、202个弹头(靶向目标蛋白质的小分子)、65个E3配体(能够招募E3连接酶的小分子)和806个Linker以及它们的化学结构、生物活性和理化性质。其中,PROTAC-DB详细提供了弹头和E3配体的生物活性以及PROTAC的降解能力、结合亲和力和细胞活性。PROTAC-DB可以通过两种常用的搜索方法进行查询:基于文本的(靶点名称、化合物名称或ID)和基于结构的。
连续两次求贤令:曾经我给你带来了十万用户,但现在祝你倒闭,以及 生信技能树知识整理实习生招募,让我走大运结识了几位优秀小伙伴!大家开始根据我的ngs组学视频进行一系列公共数据集分析实战,其中几个小伙伴让我非常惊喜,不需要怎么沟通和指导,就默默的完成了一个实战!
Contigs/Scaffolds序列经基因预测、ORF开放阅读框识别(Open Reading fr ame)和蛋白翻译之后,就可以进行功能注释分析了。我们将基因/蛋白序列在特定的数据库中搜索比对,从而完成功能注释分析。常用的功能数据库主要包括KEGG、EggNOG、GO、COG和CAZy等。
在基因的相互作用分析预测方面,我们介绍过 [[STRING-蛋白相互作用数据库使用 | STRING]], [[BioGRID-蛋白,化学物质相互作用数据库 V4.4 | BioGRID]] 更加偏向于蛋白之间的相互作用预测。[[IncAct-基因相互作用分析数据库 | IncAct]] 是一个多组学的预测数据库。而 [[ConsensusPathDB-综合性相互作用分析数据库 | ConsensusPathDB]] 则是一个解释蛋白质-蛋白质、遗传、代谢、信号、基因调控和药物-靶标相互作用的数据库。但是对于基因相互作用而言,在不同的组织和疾病当中调控关系肯定也是不一样的。所以在进行相互作用预测的时候也要基于特定的环境来进行预测。今天就介绍一个基于特定环境预测相互作用关系的数据库:IID: http://iid.ophid.utoronto.ca/ 。
人体内的蛋白存在都存在相互作用关系的。通过预测蛋白之间的相互作用关系,可以了解一个蛋白的具体功能机制。之前介绍过 [[STRING-蛋白相互作用数据库使用]] 就是一个。同时也介绍过 [[BioGRID-单个蛋白质相互作用的数据库]] 这个基于单基因蛋白相互作用数据库。在我们介绍 BioGRID 的时候,那个是 3.0 的版本。最近 BioGRID | Database of Protein, Chemical, and Genetic Interactions: https://thebiogrid.org/ 。数据库更新到了 4.4 版本。其中一些界面也发生了变化。所以这里就重新介绍一下。
Gene Ontology是研究基因功能的重要数据库之一,在进行GO的富集分析时,需要提供所有基因对应的GO注释信息,本文介绍几种获取该信息的方式。
2004年,兰德公司发布了一份名为《Collectingthe dots:problem formulation and solution elements》的报告,说明了收集信息点与解决问题的重要性。2005年,乔布斯在斯坦福毕业典礼演讲中,第一个故事是《Connecting the dots》,讲了把这些点串起来成就事业的故事。可见,这些点的搜集与联系是多么重要。
DAVID (the Database for Annotation,Visualization and Integrated Discovery)的网址是http://david.abcc.ncifcrf.gov/。 DAVID是一个生物信息数据库,也是一款在线免费分析软件,其整合了生物学数据和分析工具,为大规模的基因或蛋白列表(成百上千个基因ID或者蛋白ID列表)提供系统综合的生物功能注释信息,帮助用户从中提取生物学信息。目前DAVID数据库主要用于差异基因的功能和通路富集分析,对很多科研工作者来说,是个非常好的工具。
Gene ID 也称Entrez ID,EntrezGene ID ,是 NCBI 使用的能够对众多数据库进行联合搜索的搜索引擎, 其对不同的 Gene 进行了编号, 每个 gene 的编号就是 entrez gene id. ,说白了,就是数字,比如:TP53 ,Gene ID就是: 7157。由于 entrez id 相对稳定, 所以也被众多其他数据库, 如 KEGG 等采用. Entrez Gene ID 就是一系列数字, 也比较容易辨识。R 或网站都有众多的工具可以帮助从不同的 ID 转换为 entrez id 或者反向转换。
GOA全称Gene Ontology Annotation, 是EMBL-EBI构建的一个GO注释信息的数据库。官网如下
由于每个月都会有相关的数据库文章发表,所以我们打算在每个月都会先出一个汇总贴来介绍一下这个月都发表了哪些在线的数据库。之后也会挑选我们自己感兴趣的一些数据库来详细的介绍。所以这次就先看一下五月份都发表了哪些在线的数据库吧!
kegg genes 数据库收录了物种的基因信息。 kegg 使用自己定义的ID 唯一区别每个基因,叫做kegg gene ID。
MINT, 全称molecular interaction Database, 是一个蛋白质相互作用的数据库,该数据库中的蛋白相互作用都是由专家审核过的有实验证据支持的,目前该数据库涵盖了607个物种,共117001个蛋白相互作用关系。网址如下
转录因子(Transcription factor,TF)是一类能够以序列特异性方式结合DNA并对基因转录起关键调控作用的蛋白质,在各种生物过程和疾病发生中起非常关键的作用。鉴定、分类和注释转录因子以及分析转录因子的调控和功能等一直是研究的热点和基础,它们在生物体内形成一套指导基因表达的复杂系统引得众多科学家浓厚的研究兴趣。
目前该数据库中共收录了33种肿瘤,27670个lncRNA转录本的信息,通过Browse按钮,可以按照肿瘤类型查看相关信息,以乳腺癌为例,结果如下
图片来源:RICHARD JONES/SCIENCE PHOTO LIBRARY/GETTY IMAGES
背景 预测得到一个物种的全部基因之后,接下来自然而然的问题就出现了。这些基因都有哪些功能呢?这就需要进行基因功能注释。基因功能注释就是将待查基因与已知数据库进行比对,如果比对上则认为二者
关于蛋白质结构的PDB文件,做分子对接,估计大家都知道PDB这个蛋白质数据库啦。这里简单的介绍一下。
不过,哪怕是对人类来说,kegg注释的也仅仅是蛋白编码基因,但是如果你了解人类gtf文件,就应该是知道,里面有6万左右的基因,如果我们的差异分析,定位到了 lncRNA,假基因,miRNA的基因,其实就不能直接进行功能数据库注释。
在前面的两篇文章KEGG数据库不会下载?了解下API!与KEGG数据库下载加速攻略!中介绍了KEGG数据库蛋白序列数据的下载方法,但是在实际操作中发现两个问题:
DAVID、g:Convert 以及 biomart,但是这个工具内置的数据怎么样并不清楚,所以今天就来评价一下这几个工具吧。
对于DNA甲基化,组蛋白修饰,染色质重塑等表观遗传标记分子的研究迅猛发展,在相关领域已经积累了大量的认知。通过对研究表明的参与这些表观遗传机制的蛋白对应的基因,功能进行整理和归纳,构建了Epifactors数据库,网址如下
点击Add dataset ,粘贴我们的基因。我们也可以导入数据集(基因集),可以是我们差异分析获得的差异表达基因【参考文章:TCGA数据库:GDCRNATools包下载数据、处理数据以及差异分析,一文就会TCGA数据库基因表达差异分析】。这里我们以limma包和edgeR包差异的分析结果为例。
STRING(https://www.string-db.org)是已知和预测的蛋白质-蛋白质相互作用的数据库。交互包括直接(物理)关联和间接(功能)关联。数据库包含来自众多来源的信息,包括实验资料库,计算预测方法和公共文本集。每次互动都与组合的置信度相关综合各种证据的分数。目前,涵盖了来自5090的超过24百万种蛋白质生物。STRING数据库可用于在基因列表中添加含义。STRINGdb R软件包,以方便用户访问STRING中的数据库。在本指南中,以示例说明了该软件包的大多数功能。此外,iGraph包作为代表蛋白质-蛋白质相互作用网络的数据结构。
之前介绍很多基于序列分析的数据库的时候,都会提到FASTA序列。之后也会遇到很多基于序列分析的数据库。所以今天就把基因序列的格式单独拎出来说一下。
KEGG数据库(http://www.kegg.jp/)也即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库,它整合了基因组学、生物化学以及系统功能组学的信息,有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包含其氨基酸序列、到PDB数据库的链接等。
http://current.geneontology.org/products/pages/downloads.html
circBank对circBase数据库中人类的环状RNA数据加以整理,根据序列信息进行了蛋白编码潜能,miRNA相互作用预测分析,并将所有结果整理成了在线数据库,方便检索和浏览,网址如下
今天我们介绍由西安交通大学第一附属医院的Yuesen Li发表在BioRxiv上的工作。该工作提出了一种基于自回归模型GPT的配体设计策略DrugGPT,该模型专注于化学空间的探索和特定蛋白质的配体发现。深度学习语言模型在蛋白质设计和生物医学文本分析等领域展示了显著的潜力,为DrugGPT的提出提供了有力支持。在本文中,研究者采用DrugGPT模型学习了大量的蛋白质-配体结合数据,旨在发现能够与特定蛋白质结合的新型分子。这一策略不仅极大地提高了配体设计的效率,还为药物开发过程提供了快速有效的途径,为制药领域带来了新的可能性。
我们经常在科研文章中看到功能富集分析,包括GO和KEGG富集分析。前面我们也给大家分享过一些GO和KEGG富集分析相关的一些文章
本期介绍2019年3月发表在Nature Communications的研究工作,该工作由哈佛医学院、东北大学和Dana-Farber癌症研究所等机构的研究人员完成。药物组合能够增加治疗功效和降低毒性,在治疗多种复杂疾病中起重要作用。然而,识别和验证有效组合的能力受到药物组合爆炸增长的限制,由大量药物对和剂量组合驱动。本文提出了一种基于网络的方法来识别特定疾病的临床有效药物组合。
之前在介绍一些关于生物学基本知识的时候,提到过[[SNP是什么东西?]]以及[[基因突变需要了解那些内容?]]。这类的变异都是通过改变基因序列来影响基因的功能。除了这样的变异。还有一类变化叫做表观遗传学 (epigenetics) 。简单来说表观遗传学主要就是通过不影响基因序列的改变来影响基因基因的表达。
circRNA是一类新发现的ncRNA, 和线性的pre-mRNA相比,缺少了5’端帽子和3’端polyA等结构,其头尾相连形成一个闭合的环状结构,更加的稳定。
在前两天介绍circBase的时候,我们统计了一下目前circRNA方面相关的数据库。使用最多的前10的数据库的时候。除了circBase之外还有很多是用来预测circRNA功能的数据库。所以今天。我们就来介绍一下这几个相关的数据库吧。
关于非编码RNA的分类,之前在 [[非编码RNA分类总结]] 当中提到过里面的Long-Non Coding RNA是不编码蛋白的。但是随着研究的越来越深入,尤其是质谱技术的发展,也发现有些LncRNA可以编码肽段来发挥作用。这个也进一步丰富了LncRNA的功能。因此今天就来介绍一个用来检索肿瘤相关LncRNA编码肽段的数据库:SPENCER | A comprehensive database for small peptides encoded by ncRNA in cancer patients: http://spencer.renlab.org/#/home
之前对公共测序数据分析的系列贴当中 [[0.最最最基础生信分析总结]] 提到,目前对于高通量测序的结果主要储存在 GEO 数据库当中。其中在 GEO 当中主要保存的还是一些芯片或者 [[RNA-seq相关内容介绍 | 二代测序]] 的数据。这些基本上都是在 RNA 水平的检测。而对于基因表达的检测除了 RNA 水平。还有蛋白水平的检测。所以今天就来介绍两个储存蛋白质谱数据的数据库。
领取专属 10元无门槛券
手把手带您无忧上云