提到蛋白质数据库,大家都很熟悉了,基本上每个数据库都会配备一个网页工具让大家查询或者做一些简单的蛋白质数据分析,以下是一些知名的蛋白质组数据库:
但是蛋白质组数据库并不是蛋白质数据库,主要是ProteomeXchange联盟,它是一个开放的、公共的数据存储平台,专门用于存储和共享质谱(MS)数据。它由多个蛋白质组学数据存储库组成,包括PRIDE Archive、MassIVE、PeptideAtlas 以及iProX等 。
比如我们可以看到一个蛋白质组学文章:https://www.sciencedirect.com/science/article/pii/S0300483X20302912?via%3Dihub
Availability of data and material
The proteomics data have been deposited to the ProteomeXchange Consortium via the PRIDE (Perez-Riverol et al., 2019) partner repository with the dataset identifier PXD020248.
ProteomeXchange的目的是促进数据的标准化、共享和再利用,支持蛋白质组学研究的进一步发展。它遵循FAIR原则(可查找性、可访问性、互操作性和可重用性),以确保数据的质量和可用性。一般来说我们熟悉iProX(国际蛋白质组学交流平台)和PRIDE(蛋白质组学鉴定数据库)即可:
是EMBL-EBI(欧洲生物信息学研究所)维护的一个数据库,可以通过链接:https://www.ebi.ac.uk/pride/archive?sortDirection=DESC&page=2&pageSize=20
查看数据库目前有的数据集数量:List of Datasets (27273)
比如最近的一个公共数据集就是:Neutrophil-derived migrasomes are an essential part of the coagulation system, mouse.
可以很清晰的看到这个pride数据库为这个数据集提供了raw格式的质谱仪器数据,以及蛋白质组表达量矩阵文件:
小鼠-两分组-蛋白质组-差异分析数据集
详细的数据集链接在:https://www.ebi.ac.uk/pride/archive/projects/PXD051229
不过我们一般来说就打开里面的ms220042-dia-20220111.xls
文件进行后续的蛋白质组表达量差异分析即可
在 https://www.iprox.cn/page/BWV016.html 可以看到就 3,676 entries,因为是一个由中国蛋白质组学研究者建立的数据库,所以绝大部分数据集都是中国科研工作者提供的,而且绝大部分都是在PRIDE(蛋白质组学鉴定数据库)也有一个id,如下所示;
3,676 entries,
任意点击一个数据集进去:https://www.iprox.cn/page/ProjectFileList.html?projectId=IPX0006535000
Proteome of Chinese Breast Cancers (FUSCC-Shao Lab)
IPX0006535000
Partial
PXD042886
Jiang YZ, Shao ZM. Molecular features and clinical implications of the heterogeneity in Chinese patients with HER2-low breast cancer. Nature Communications. 2023 Aug 22;14(1):5112-. doi:10.1038/s41467-023-40715-x.
Zhiming Shao
Zhiming Shao
Fudan University Shanghai Cancer Center
1
2023-06-11 08:40:12
也可以看到它的其它id,只需要有id就可以访问它在不同数据库里面的数据记录,比如:
因为本来就是有很多不同的蛋白质组学技术平台,比如 DIA、Label Free和TMT标记,它们的各自的 数据预处理流程 也有点区别哦: