今天小编为大家分享的是全网最全的肿瘤生信分析的数据库合集!
小编为大家爆肝整理了近百个数据库!共分10大类。今天小编先为大家分享前5类。 在整理的过程中,小编发现一些虽然是以前经常被大家推荐使用的数据库,但却已不再维护了,早已不能正常使用了,这种数据库小编也已经贴心的帮大家过滤掉了。那就快来看看有没有你需要的吧!
数据库分类
数据库列表
01
综合性肿瘤数据库
TCGA(The cancer genome atlas):https://portal.gdc.cancer.gov/
TCGA(The cancer genome atlas,癌症基因组图谱)由 National Cancer Institute(NCI,美国国家癌症研究所) 和 National Human Genome Research Institute(NHGRI,美国国家人类基因组研究所)于 2006 年联合启动的项目, TCGA对超过20,000例原发性癌症进行了分子特征分析,并同时存储了33种癌型配对的正常样本。
ICGC全称是International Cancer Genome Consortium。ICGC数据包括50种不同癌症类型/亚型的肿瘤中的基因组异常(体细胞突变,基因异常表达,表观遗传修饰)数据,也包括TCGA中的数据。
COSMIC收录在癌症中体细胞突变的数据,是世界上最大和最全面的癌症突变资源,用于探索人类癌症中体细胞突变的影响。它主要提供肿瘤细胞基因组中的CNA、甲基化、基因融合、SNP及基因表达等数据。
cBioPortal的数据来源于TCGA, ICGC, GEO等数据库,整合的基因组数据类型包括体细胞突变、DNA拷贝数改变(CNAs)、mRNA和miRNA表达量、DNA甲基化,以及临床数据等。cBioPortal可以通过可视化的形式展示癌症样本的基因组数据。
通过促进整合,交互和多功能显示,全面分析癌症基因组和临床数据,该数据库显示全基因组和实验测量的个体和群体样本的基因组热图。
canEvolve功能旨在满足癌症研究人员最频繁的分析需求,以产生新的假设。canEvolve存储多种癌症类型的microRNA (miRNA)、蛋白表达谱、拷贝数改变以及蛋白-蛋白相互作用信息。canEvolve可以对肿瘤基因组数据进行综合分析和网络分析,并对结果进行查询。
CGWB(Cancer Genome Workbench )
https://www.g6g-softwaredirectory.com/bio/genomics/genetic-analysis/20773-CGWB.php
Cancer Genome Workbench (CGWB)是一个基于网络的工具,集成并显示多个项目生成的体细胞突变、拷贝数改变、基因表达和甲基化数据的全基因组集合。
02
肿瘤转录组数据库
GEO(Gene Expression Omnibus database)是由NCBI负责维护的一个数据库,收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据。
ChiTaRS收录了111,582嵌合转录本,种类分别为人类,小鼠,果蝇,大鼠,斑马鱼,牛,猪和酵母。目前更新到5.0版本,并扩展了实验数据证据,并包括了同一基因的反义嵌合转录本,通过RT-PCR、qPCR、rna测序和质谱多肽实验证实。
miRCancer提供了各种人类癌症中microRNA (miRNA)表达谱的全面收集,这些表达谱自动从PubMed发表的文献中提取。它利用文本挖掘技术进行信息收集。自动提取后手动修改,精度100%。用户可以在miRCancer搜索页面通过miRNA和癌症名称进行搜索。
UALCAN:http://ualcan.path.uab.edu/index.html
UALCAN是一个全面的、用户友好的、交互式的癌症组学数据分析网络资源。UALCAN可以访问公开癌症组学数据(TCGA, MET500和CPTAC), 允许用户识别生物标志物或潜在感兴趣的基因,为编码蛋白质的表达谱和患者生存信息,miRNA-coding和lncRNA-coding基因提供图形界面,评估表观遗传调控基因表达的启动子甲基化,执行pan-cancer基因表达分析。
CRN(Cancer RNA-Seq Nexus):http://syslab4.nchu.edu.tw/
CRN有一个用户友好的网页界面,旨在促进癌症研究和个性化医疗。它是一个直观的数据探索的开放资源,提供编码-转录本/lncRNA表达谱,支持研究人员在癌症研究和个性化医学中产生新的假设。
03
肿瘤基因组数据库
ArrayMap是一个参考基因数据库和生物信息学资源,针对人类癌症的拷贝数分析数据。ArrayMap数据库为高分辨率oncogenomic CNA数据的meta分析和系统级数据集成提供了入口点。用户分析感兴趣的基因或基因组片段上的CNA;还可以比较两个样本之间的CNA的差异。
BioMuta是一个单核苷酸变异(SNV)和疾病关联数据库,其中变异被映射到基因组和RefSeq核苷酸输入,并通过UniProtKB/Swiss-Prot位置坐标进行统一。目前版本的BioMuta只包含与癌症相关的非同义单核苷酸变异(nsSNVs)。
Cancer Hotspots数据库由Memorial Sloan Kettering癌症中心的Kravis分子肿瘤学中心维护的肿瘤热点突变数据库。Cancer Hotspots分析了24592例癌症,包括10336例测序的晚期疾病患者,确定了1165个具有统计学意义的热点突变。
Mitelman Database:https://mitelmandatabase.isb-cgc.org/
Mitelman癌症染色体畸变和基因融合数据库中的信息涉及细胞遗传学变化及其基因组,特别是基因融合,以肿瘤特征为基础的个案或关联。所有的数据都是由Felix Mitelman与Bertil Johansson和Fredrik Mertens合作从文献中手工挑选出来的。
SomamiR:http://compbio.uthsc.edu/SomamiR/
SomamiR是一个microrna (miRNA)的癌体细胞突变及其靶点的数据库,该数据库收录了miRNA与竞争性内源性rna (ceRNA)之间的相互作用,包括mrna、环状rna (circRNA)和长非编码rna (lncRNA)。最近的更新扩大了数据库的范围,将影响miRNAs与两类非编码rna (circRNAs和lncRNAs)之间相互作用的体细胞突变纳入其中。
由Sanger 研究所发起的一个项目,收录体细胞突变和肿瘤发生有关的基因,CGP的数据也会在COSMIC数据库更新。
04
遗传变异数据库
ClinVar:https://www.ncbi.nlm.nih.gov/clinvar/
ClinVar是NCBI主办的与疾病相关的人类基因组变异数据库。它整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库在遗传变异和临床表型方面的数据信息,形成一个标准的、可信的遗传变异-临床相关的数据库。ClinVar同时支持在线和下载到本地两种形式。
dbVar:http://www.ncbi.nlm.nih.gov/dbvar
dbVar是NCBI的基因组结构变异数据库——它包含插入、删除、复制、反转、多核苷酸替换、可移动的元素插入、易位和复杂的染色体重排。
DECIPHER:https://decipher.sanger.ac.uk/
DECIPHER被用来储存遗传变异与相关的表型数据库。数据库包含37753名患者的数据,他们已经同意进行广泛的数据共享。
DGV (Database of Genomic Variants):http://dgv.tcag.ca/dgv/app/home
DGV是一个可公开获取的、对照个体基因组中发现的结构变异(SV)的综合数据库。基因组变异体数据库的目的是提供人类基因组结构变异的全面总结。数据库将结构变化定义为包含大于50bp的DNA片段的基因组改变。数据库的内容仅代表健康对照样本中确定的结构变异。
DGVa(The Database of Genomic Variants archive):http://www.ebi.ac.uk/dgva
DGVa是EBI旗下一个提供所有物种中公开可用的基因组结构变异体的存档、附加和分布的知识库。
EGA:(European Genome-phenome Archive):https://ega-archive.org/
EGA是ELIXIR的一部分,它存储了来自生物医学研究项目的所有类型的个人可识别的遗传和表型数据。
gnomAD:https://gnomad.broadinstitute.org/
gnomAD是一个由国际研究人员联盟开发的数据库,其目标是聚合和协调来自各种大规模测序项目的外显子组和基因组测序数据,并为科学界提供汇总数据。本网站提供的v2数据集(GRCh37/hg19)涵盖了125,748个外显子组序列和15,708个全基因组序列,这些序列来自于不相关的个体,是各种疾病特异性和人群遗传研究的一部分。
HMGD : http://www.hgmd.cf.ac.uk/ac/index.php
HGMD,全称Human Gene Mutation Database, 存储了人类疾病相关的突变信息,是一个全面的基因生殖系突变的数据库,这些突变是人类遗传性疾病的基础,或与人类遗传性疾病相关。
MoKCa:Mutations, Oncogenes, Knowledge & Cancer
http://strubiol.icr.ac.uk/extra/mokca/
MOKCa数据库(突变,致癌基因,知识和癌症)已经发展到从结构上和功能上注释,并在可能的情况下预测突变与癌症相关的表型。
RefSeqGene:https://www.ncbi.nlm.nih.gov/refseq/rsg/
RefSeqGene定义了基因组序列,用于作为特征明确的基因的参考标准,是基因座参考基因组(LRG)项目的一部分。
HRC:http://www.haplotype-reference-consortium.org/
The Haplotype Reference Consortium 整合了来自多个项目的数据,构建了一个包含3千多万个SNP位点,以及64976个单倍型的背景参考。HRC将通过将多个队列的测序数据结合在一起,创建一个大型的人类单倍型参考背景。
dbSNP:https://www.ncbi.nlm.nih.gov/SNP/
dbSNP是由国家生物技术信息中心(NCBI)与国家人类基因组研究所(NHGRI)合作开发和托管的不同物种内部和跨物种的遗传变异的免费公共档案。
HGVS:http://www.hgvs.org/
该数据库旨在促进发现和表征基因组变异,包括人口分布和表型关联。促进收集、记录基因组变异信息和相关的临床变异。努力培育必要的方法论和信息学的发展。
05
肿瘤DNA甲基化数据库
MethHC是一个基于web的数据库,专注于人类疾病的DNA甲基化。从TCGA (the Cancer Genome Atlas)中整合DNA甲基化、基因表达、microRNA甲基化、microRNA表达、甲基化与基因表达的相关性等数据。
该数据库是最早期的甲基化数据库之一,目的是为科学界提供存储DNA甲基化数据的资源,并使这些数据随时可供公众使用。该数据库的未来发展将集中于环境对DNA甲基化的影响。
NGSmethDB存储了由亚硫酸氢盐测序(WGBS)技术获得的短读数据集生成的全基因组甲基化组的数据。
PubMeth:http://www.pubmeth.org/
PubMeth 收集和整理了文献中与癌症相关的甲基化数据,并进行了人工校对和注释,提供了一个高质量的癌症相关的发生了甲基化基因的数据库。这个数据库只提供在线检索功能,并不开放下载。也可以提交自己的数据。
SurvivalMeth:http://bio-bigdata.hrbmu.edu.cn/survivalmeth
SurvivalMeth是哈尔滨医科大学李霞教授团队开发的,2020年8月11日发表在Briefings in Bioinformatics上。SurvivalMeth可以识别预后相关 DNA methylation-related functional elements (DMFEs) ,数据库中记录了多种DMFEs,包括309,465个CpG岛相关元件,104,748个转录相关元件,77,634个重复元件,以及细胞类型特异性的1,689,653个超级增强子(SE)和1,304,902个CTCF结合区进行分析。
MethDB数据库: http://www.methdb.de
全称DNA Methylation database,该数据库包含了多种组织多种表型的甲基化模式、甲基化谱和总甲基化内容数据。大约14%的数据没有在其他地方公布。这些数据可以直接检索。并且有在线提交工具,允许科研人员直接将新数据输入到MethDB。
DiseaseMeth2: http://bioinfo.hrbmu.edu.cn/diseasemeth
DiseaseMeth是人类疾病甲基化数据库。该数据库着重于有效收集和统计分析来自各种疾病的DNA甲基化数据。收集了32701个甲基化谱,涉及到88种疾病,甲基化相关的疾病基因关系对有679602个。DiseaseMeth支持包括基因ID和基因名称在内的多种搜索方式。DiseaseMeth提供了基于疾病和正常样品的横向整合的甲基化数据集。这些数据可以被用来深入识别差异的甲基化基因,并调查研究基因与疾病之间的关系。
MethSurv:https://biit.cs.ut.ee/methsurv/
TCGA数据库中收录的主要是450K芯片的数据,也有一些早期27K芯片的数据。本文所述的MethSurv就是基于TCGA数据集中的450K数据构建的可视化分析工具。MethSurv适用于没有特定生物信息学技能(不熟悉编程分析)的研究人员和临床医生,主要用于探索与癌症患者生存相关的甲基化生物标记物。
MethBank:http://bigd.big.ac.cn/methbank
MethBank(The Methylation Bank)是一个集合了多个物种高质量DNA甲基化谱的可视化交互浏览工具。它由中国科学院研发,2014年发布1.0版本,3.0版本添加更多物种的甲基化数据、增强数据注释功能、数据可视化呈现更加友好,用于数据表示、搜索和可视化。MethBank 3.0大规模集成了高质量的甲基化组数据,包括34个来自大量人类样本的一致参考甲基化组,336个来自不同发育阶段和/或5种植物组织的单碱基分解甲基体,以及18个来自两个动物不同发育阶段的配子和早期胚胎的单碱基分解甲基体。此外,它还能够系统地识别与年龄密切相关的甲基化位点、具有恒定甲基化水平的位点。MethBank提供了在线估计人类甲基化年龄和分别识别不同甲基化启动子的工具。
Lnc2Meth:http://www.bio-bigdata.com/Lnc2Meth/
Lnc2Meth是由哈尔滨医科大学李霞课题组开发,是lncRNA与DNA甲基化调控关联数据库,是基于已有发表文献结果,对其中涉及到在特定研究疾病中的lncRNA及其甲基化结果进行了整理归纳。使用数据库时可检索的信息主要有两个,一个是lncRNA,一个是某个疾病。对于每一个lncRNA会提供DNA甲基化区域,类型和调控机制,是否在文献报道中有作为诊断分子,发表文献信息等都有整理。对于某种疾病,显示疾病相关的lncRNA。
MEXPRESS: https://mexpress.be/
MEXPRESS是一个可视化TCGA的DNA甲基化,表达和临床数据,以及它们之间的工具。http://cancergenome.nih.gov/abouttcga/policies/publicationguidelines是使用指南。
表观组关联分析(Epigenome-wide Association Study,EWAS)
网址:https://bigd.big.ac.cn/ewas/datahub/index
EWAS Data Hub由中国科学院开发,整合了来自GEO、TCGA、ArrayExpress和ENCODE数据库的共计75,344个样本的DNA甲基化芯片数据和对应的元数据,并采用了有效的归一化方法来消除不同数据集的批次效应。EWAS Data Hub利用海量高质量DNA甲基化数据和标准化元数据的优势,为485,512个探针和36,397个基因提供了一系列重要的评估值(包括组织特异性、年龄相关性、性别差异和种族特异性)和不同背景下的参考DNA甲基化图谱,涉及81种组织/细胞类型(包含25个脑部和25种血细胞类型),67种疾病(包括39种癌症),不同年龄、性别、种族和BMI。同时,EWAS Data Hub 还提供了高效的查询方式:(1)通过年龄,疾病等信息快速查询感兴趣样本的数据和元数据,并能打包下载。(2)通过基因ID、探针号等信息浏览该探针/基因在不同背景下的参考DNA甲基化图谱。
IHEC Data Portal:https://epigenomesportal.ca/ihec/
网站提供来自七个国际联盟——ENCODE、NIH Roadmap、CEEHRC、Blueprint、DEEP、AMED-CREST和KNIH——的数据,包括来自600多个不同组织的7000多个表观基因组参考数据集。用户可以选择和浏览各种数据集。还可以依靠相关工具来比较所选的数据集。数据也可以下载,但原始数据需要数据访问请求。同时,用户可以共享他们选择的数据集。
Blueprint Data Analysis Portal:http://blueprint-data.bsc.es
Blueprint Data Analysis Portal用于分析来自Blueprint Consortium的数据。该联盟生成了造血细胞谱系的参考表观基因组,其数据集包括ChIP-seq、DNAsel-seq、全基因组重亚硫酸盐测序和RNA-seq数据,涵盖了60多种细胞类型。在该门户网站中,研究人员使用表观基因组学比较网络基础设施(epigenomics comparative cyber-infrastructure,EPICO)平台,该平台包括五个部分:数据模型;数据验证和加载程序;空数据库,用于存储来自数据验证和加载程序的数据和元数据;应用程序界面(API);以及数据分析门户网站。除了EPICO外,这种方法还需要存储空间来创建数据库,获取原始数据的连接,以及接收查询和发送结果的模块。该门户网站允许几乎没有生物信息学背景的用户,可视化和比较感兴趣血细胞类型的表观基因组和转录组数据。
eFORGE:http://eforge.cs.ucl.ac.uk/
eFORGE允许用户从表观基因组关联分析(EWAS)中筛选数据,发现与疾病相关的细胞类型。eFORGE可以估计哪些差异甲基化位点在某些组织或细胞中可能是起作用的。它是通过分析一组差异甲基化位点和DNase I超敏位点参考图谱之间的重叠来实现的。这些参考集包括来自各种组织,原代细胞类型和来自ENCODE、Roadmap Epigenomics和Blueprint consortia的细胞系的454个样品。
iMETHYL:http://imethyl.iwate-megabank.org/index.html
iMETHYL提供了大约100名受试者的CD4+ t淋巴细胞、单核细胞和中性粒细胞的全DNA甲基化(约2400万个常染色体CpG位点)、全基因组(约900万个单核苷酸变异)和全转录组(> 14000个基因)数据。这些数据来自亚硫酸氢盐全基因组测序、全基因组测序和全转录组测序,使iMETHYL成为一个全面的数据库。iMETHYL整合了SNP, DNA甲基化和RNA表达谱的数据,并进行了两两之间的关联分
在STATISTICS页面,提供了两个基本信息。三种组学数据的分布。可以看到志愿者的性别,年龄的基本情况,以及DNA甲基化,基因表达和SNV的汇总信息。
HeteroMeth:http://qianlab.genetics.ac.cn/HeteroMeth
是由中国科学院开发的首个DNA甲基化异质性数据库,用于检索、浏览、可视化和下载多个物种、突变体、发育阶段和组织的DNA甲基化异质性数据库HeteroMeth。
Whistle:http://180.208.58.19/whistle/index.html
WHITSLE实现对转录组m6A RNA甲基化位点预测。通过把测序数据和机器学习的整合来寻找m6A调控的位点。只需要输入想要检索的基因即可,如果我们想要看某一个功能收到m6A甲基化的影响也是可以通过输入功能的名字来查看的。
RMBase v2.0:http://rna.sysu.edu.cn/rmbase/
RMBase v2.0是由中山大学研发的,整合了表观转录组测序数据的综合数据库,用于探索RNA的转录后修饰及其与miRNA结合事件、疾病相关的单核苷酸多态性(SNPs)和RNA结合蛋白(RBPs)的关系。RMBase 2.0扩展了约600个数据集和约1 397 000个修改位点,这些修改位点来自13个物种的47个研究,与上一个版本相比,扩展了大约10倍。它包含大约373000个N6-methyladenosines (m6A),大约5400个N1-methyladenosines (m1A),大约9600个pseudouridine(Ψ)修饰,大约1000个5-methylcytosine (m5C)修饰,大约5100个2’-O-methylations(2'-O-Me),约2800个其他类型的修饰。此外,还构建了一个名为“Motif”的新模块,该模块提供了修饰motifs的可视化logos和位置权重矩阵(PWMs)。还构建了一个新的模块“modRBP”来研究RNA修饰和RBPs之间的关系。此外,开发了一种新的基于网络的工具,名为“modMetagene”,用于沿着转录模型绘制RNA修饰的元基因。这个数据库将帮助研究人员研究RNA修饰的潜在功能和机制。
MeT-DB V2.0:http://www.xjtlu.edu.cn/metdb2
这个数据库收集了8个m6A相关调控因子(FTO, KIAA1429, METTL14, METTL3, WTAP, HNRNPC, YTHDC1, YTHDF1)的 ParCLIP-seq 和 MeRIP-seq 数据来构建的,通过相关的测序数据,我们可以查看具体的调控位置。还提供了和其他类似 miRNA 数据库以及剪切因子数据库交叉分析的结果。
REPIC:https://repicmod.uchicago.edu/repic
REPIC (RNA EPItranscriptome Collection)数据库是20年4月新发的数据库,对于测序数据的纳入的比较多。记录了从公开的m6A-seq和MeRIP-seq数据调用的大约1000万个峰值。这些数据来自49项研究的672份样本,涵盖了11个生物体的61个细胞系或组织。REPIC允许用户通过特定的细胞系或组织类型查询m6A修饰位点。此外,它整合了来自ENCODE项目的1418个组蛋白ChIP-seq和118个DNA -seq数据的m6A/MeRIP-seq数据,呈现了一个完整的m6A甲基化位点图谱。
m6A2Target:http://m6a2target.canceromics.org/#/
m6A2Target是一个完整的 m6A修饰的writers, erasers 和readers (WERs)靶基因的数据库。它将低通量实验验证的高机密性靶标与高通量测序(如CLIP-Seq、RIP-seq和ChIP-seq)显示的证据结合或从m6A应答扰动和随后的高通量测序(如RNA-Seq、m6A-Seq和Ribo-Seq)推断的潜在靶标整合在一起。
小编有话说
今天给大家分享的数据库共有5大类,数据库的功能可能有重叠,大家可以慢慢探索发展!
小编最后再给大家分享一个惊喜数据库——Database Commons。
数据库网站:https://bigd.big.ac.cn/databasecommons/
搜索具体的数据库之后,会有具体的网址和分类,页面下方也有数据库的原始文献,并且会对具体的分类按照引用量对数据库进行排行,方便大家查看。
Database Commons为用户提供了一个全面的公共可用的生物数据库集合,共有5121个数据库,包括不同的数据类型和跨越不同的生物。大家可以根据自己的需求自行搜索。
END
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有