最近刚发表在MER上的硫循环功能基因数据库SCycDB。
SCycDB数据库包含细菌/古细菌52个门2684个属的207个基因家族,共585,055条代表序列,并包含20,761个同源序列。
代码参见:
https://github.com/qichao1984/SCycDB
我主要看方法是怎么做的。结果自行阅读原文吧~~
Core database:
首先从Swiss-Prot database下载种子序列;
若是Swiss-Prot数据库中没有的基因,从TrEMBL下载高质量序列;
根据注释及和其他序列的相似度进行质控,从TrEMBL下载的序列若与种子序列的identity高于30%则两者合并。
Full database:
根据公开数据库arCOG, COG, eggNOG, KEGG,将Core database序列与之比对,得到直系同源序列,也添加到数据库中;
NCBI的RefSeq databases也加进来,并得到序列的注释信息。
CD-HIT按照100%的identity对序列进行聚类,得到代表序列。
使用:
加入USEARCH,BLAST和 DIAMOND的perl代码进行序列比对。
Over~~~~~
Yu, X., et al. (2020),SCycDB: A Curated Functional Gene Database for Metagenomic Profiling of Sulfur Cycling Pathways. Mol Ecol Resour. https://doi.org/10.1111/1755-0998.13306