新年伊始,开年热搜大戏“不知知网”主线剧情密集更新。趁着CNKI热度延续,基因研究媛不停介绍“公共数据库和大规模计划笔记”系列第七篇“查生物数据库的数据库Database Commons”。
生物数据现在越来越多,但到底哪些有用?哪些重要且被承认?哪些质量好?根据特定需要找起来往往十分麻烦。目前常用的办法有三种:(1)问人问群,(2)看NSC文献里用什么,(3)查Omics tools/OmicsX,或者找Nucleic Acids Research的database特刊、DATABASE杂志以及其他生物信息学杂志,会有很多很新的数据库。
本文介绍北京基因组所的Database Commons数据库,该数据库几乎每天都在更新,目前已包含有4300+数据库。尝试进行简单检索,发现数据库中有TCPA,但没有GTEx,可能与Database Commons的收集来源仅限于生物信息杂志有关,有一定的限制。现在很多资源可能在Nature methods、 Cell system等一系列Cell子刊以及Natrue comunication等传统生命科学杂志上。
Database Commons集成了所有收集的数据库的相关信息(包括数据库名称,URL,描述,托管机构,相关出版物,联系信息等),并根据数据类型进行编目,能够轻松找到感兴趣的特定数据库集合。
检索的形式包括:数据为动植物、细菌、古细菌。数据类型为3种:DNA、RNA、Protein。由于目前刚上线不久,还没有多少数据库的评价信息,这点上目前常用的生物信息资源检索工具OmicX做的很好,该工具甚至有根据研究目的来自动选择分析流程的功能。
下图是以千人基因组数据库“1000 Genome Project”做一个简单检索示例。从检索结果来看,利用Database Common这类数据库来检索资源有个优点,可能会发现与想找的数据库相关的其他资源。
Database Commons数据库检索起来比较麻烦,但也有两个有价值的字段:Citation和z-index。这两个字段可以用来判断数据库的重要程度。如果平时看到数据库,可以通过引用这条线索来看数据库具体是怎么用在文章中的,是做验证?还是做预测?下图是根据引用次数排序的前50数据库,很多都是基因组研究常用且应该掌握的。
总结:
Database Commons数据库用来查刊登在生信杂志上的数据库有优势,其数据比较详实,容易快速筛选,更新也较及时。但其他的数据库可能还是要像文章开头所说的那样多方查找。
新年祝福,希望大家在“不知知网”时,也可以义正言辞的讲“知Database Commons”鸭!(如需转载文章,请注明出处或在对应文章中留言联系作者,谢谢合作。)
领取专属 10元无门槛券
私享最新 技术干货