前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >数据库 | 最新版 STRING 数据库都更新了哪些内容?

数据库 | 最新版 STRING 数据库都更新了哪些内容?

作者头像
生信菜鸟团
发布2025-03-06 21:42:13
发布2025-03-06 21:42:13
940
举报
文章被收录于专栏:生信菜鸟团生信菜鸟团

Basic Information

  • 英文标题:The STRING database in 2025: protein networks with directionality of regulation
  • 中文标题:2025年STRING数据库:具有调控方向性的蛋白质网络
  • 发表日期:18 November 2024
  • 文章类型:Database Issue
  • 所属期刊:Nucleic Acids Research
  • 文章作者:Damian Szklarczyk | Christian von Mering
  • 文章链接:https://academic.oup.com/nar/article/53/D1/D730/7903368

Abstract

  1. 蛋白质相互合作、调控和结合以实现其功能。
  2. 理解它们相互作用的复杂网络对于系统水平描述细胞过程至关重要。
  3. STRING数据库汇集、评分并整合了从实验测定、计算预测和已有知识中提取的蛋白质-蛋白质关联信息。
  4. 其目标是创建全面且客观的全局网络,涵盖物理和功能相互作用。
  5. 此外,STRING提供了补充工具,如网络聚类和通路富集分析。
  6. 最新版本STRING 12.5引入了一个新的‘调控网络’,通过使用经过整理的通路数据库和细调的语言模型解析文献来收集关于相互作用类型和方向性的证据。
  7. 这一更新使用户能够单独可视化和访问三种不同的网络类型——功能、物理和调控网络,每种网络适用于不同的研究需求。
  8. 此外,通路富集检测功能已经更新,具有更好的错误发现率校正、冗余过滤和改进的视觉显示。
  9. 该资源现在还提供了对聚类网络的改进注释,并向用户提供可下载的网络嵌入,这有助于在机器学习中使用STRING网络,并允许跨物种转移蛋白质信息。
  10. STRING数据库在线可用,网址为https://string-db.org/。

Introduction

Para_01
  1. 每个活细胞的功能主要由一个复杂的相互作用蛋白质网络所支配,每种蛋白质的作用不仅取决于其分子活动,还取决于它在这个网络中的位置。
  2. 相连的蛋白质通过各种相互作用类型(如物理结合、遗传相互作用和调控影响)协同工作,共同参与常见的生物过程。
  3. 这些相互作用可以被集体分类为功能关联,作为生物系统中的基本操作单元。
  4. 解析蛋白质网络的各种模式仍然是一个重要研究方向。
  5. 因此,多年来开发了众多数据库来满足特定的研究需求。
  6. 这些数据库从精心策划的路径数据库(如Reactome和KEGG)到从文献中整理实验相互作用证据的数据库(如BioGRID、IntAct和MINT),以及专注于特定相互作用模式的数据库(包括用于蛋白质共复合体的Complex Portal和用于调控相互作用的SIGNOR)。
  7. 最后,综合数据库(如STRING、GeneMANIA、FunCoup和HumanNet)不仅整合了来自这些来源的数据,而且还采用了一系列计算方法来预测额外的关联,力求提供最全面的相互作用组视图。
Para_02
  1. 在这些数据库中,STRING 以其众多的证据来源、稳健的评分系统、用户友好的界面和全面的富集功能而著称。
  2. 它致力于汇集来自数千种生物体的完整蛋白质组的广泛蛋白质关联。
  3. STRING 绘制了从高度可信、有充分记录的关联到更具推测性的关联的相互作用,这对于探索性和计算性分析至关重要。
  4. 评分系统确保来自不同来源的数据——包括自动文本挖掘、高通量和低通量实验数据以及计算预测——可以直接比较,并且无论其来源如何都能保持一致的权重。
  5. 此外,STRING 通过预测同源互作扩展并映射物种间的网络,从而扩大了功能关联的范围,涵盖了各种各样的生物。
  6. 这包括源自宏基因组样本的未培养新型细菌物种,甚至包括用户上传的未发表的蛋白质组。
Para_03
  1. 交互数据库的发展迄今为止一直是在详细说明相互作用的确切模式——无论是物理的还是功能的、信号传递的还是结构的、稳定的还是瞬时的——和保持全面的相互作用集之间的一种权衡。
  2. 鉴于可用数据和方法的局限性,STRING 历史上一直关注于广泛定义的功能关联,这为整个蛋白质组分析提供了最有用的一组相互作用。
  3. 虽然这些网络在下游任务中继续表现良好(14,15),但它们通常缺乏精细的分辨率,使得更专业的数据库在需要时更能提供对特定相互作用的详细见解。
  4. 然而,随着数据量的增长和文本挖掘技术的进步,复合型、通用型数据库现在已经能够赶上,提供更详细的相互作用空间图谱。
  5. 最近,STRING 数据库引入了一种共复合(物理)相互作用网络模式,详细描述了多蛋白复合体。
  6. 通过最新的更新,该数据库现在还包括最大数量的调控(有向)相互作用,突出显示了细胞内信息流。
  7. 这一重大改进极大地扩展了数据库的分析能力,使以前无法使用非定向相互作用网络进行的新类型研究成为可能。
Para_04
  1. 交互和途径数据库经常被用来深入了解单个蛋白质的功能背景,或者理解整个蛋白质数据集的生物组织。
  2. 这些数据库中的许多通过整合富集分析工具集,超越了简单的相互作用注释来增强蛋白质数据集的解释。
  3. 这种类型的分析涉及将观察数据与预期分布进行比较,使研究人员能够识别出统计上显著的特征或模式。
  4. 富集工具通常利用已建立的本体论和注释,如基因本体(16)、MSigDB 标志集合(17)或 OMIM(18)。
  5. 一些数据库还利用它们的注解数据集来帮助理解用户输入的功能背景。
  6. 例如,KEGG(4)使用途径和模块抽象将基因组织到数据集中进行过度表示分析,而 Reactome 将相互连接的蛋白质映射到分层嵌套的模块中。
  7. 独特的是,STRING 使用一种无监督过程将整个蛋白质组网络分层预聚类成功能模块。
  8. 将这些从网络推导出的基因集纳入富集分析有助于识别新的模块,尤其是在蛋白质组学领域中,迄今为止手动整理还不太全面的地方。

Database content

Para_05
  1. STRING中的基本交互范围是蛋白质对之间的‘功能关联’。
  2. 功能关联被定义为两种非相同蛋白质对共同功能的贡献(19,20)。
  3. 这种关联可以采取多种形式;功能相关的蛋白质可以彼此物理接近,相互调控,表现出遗传上位性,甚至可以对抗作用(只要这些作用是在共同功能的背景下发生的)。
  4. 为了定义功能关联,共同功能的概念至关重要,但难以定义——它应该大致被理解为对应于‘路径’或‘功能模块’的概念。
  5. 实际上,STRING大体上遵循KEGG数据库中路径图的功能粒度(4)。
Para_06
  1. 从STRING的所有功能关联集合中,衍生出更具体注释的子集,这些子集关于它们的关联机制。
  2. 目前,有两个这样的更具体的子集被实现:'物理'和'调控'。
  3. 物理模式指的是直接结合或至少是同一复合物亚基的蛋白质对。
  4. 调控模式指的是已知在至少一个方向上相互调节活性的关联蛋白对。
  5. 这种模式将在下文进一步详细描述;首次在STRING中,这样的连接不仅被标注了置信度分数,还被标注了方向性。
Para_07
  1. 所有在STRING中的蛋白质-蛋白质关联都被注释了‘置信分数’。
  2. 这些分数是完全预计算的;它们的范围在0到1之间,并描述了根据现有证据推测出的关联被证明正确的估计可能性。
  3. 物理模式和调控模式分别提供了独立的置信分数——这些分数提供了对所提出关联发生的可能性以及确实是所推测类型的可能性的估计。
  4. 两种特定的网络模式与功能网络完全一致,因此如果一个相互作用存在于物理或调控网络中的任何一个,则根据定义,它也会出现在完整的功能关联网络中(具有相等或更高的置信分数)。
  5. 为了计算各种置信分数,首先将支持给定相互作用的现有证据按证据类型分离成‘证据渠道’。
  6. 对于基本的功能关联置信分数,使用了七个这样的渠道。
  7. 这些渠道包括三种基于基因组上下文预测的渠道——邻近性、融合和基因共现——以及专门用于共表达、实验数据、经过整理的数据库和文本挖掘的渠道。
Para_08
  1. 基因组背景通道侧重于仅从基因组序列推断出的关联,检测进化模式如基因邻近性、融合事件和不同生物体中的共存。
  2. 例如,邻近通道为在同一染色体上同向且位置接近的基因对分配一个关联分数(在原核生物基因组中)。
  3. 融合通道识别由基因融合事件产生的开放读码框。
  4. 而共存通道检查基因是否具有非平凡但共享的分布模式跨基因组,这暗示了水平转移、丢失或复制事件的共同历史,因此可能具有相关功能。
  5. 共表达通道收集来自基因表达研究的数据,分析各种条件下的转录和蛋白质丰度。
  6. 通过比较表达谱,它确定具有相似表达模式的基因对,表明功能联系。
  7. 实验通道汇总来自实验室检测的相互作用证据,包括生化、生物物理和遗传检测。
  8. 数据从主要存储库如BioGRID和IMEx联盟导入,置信分数是通过对注释实验技术的准确性进行全球基准测试,以及对于高通量实验的内部数据集性能和一致性来估计的。
  9. 数据库通道基于专家编纂资源中描述良好且经过整理的蛋白质-蛋白质关联,如KEGG、Reactome和Gene Ontology Complexes。
  10. 这些资源提供了已建立的途径、复合物和功能关系,提供了高度的可靠性。
  11. 与其他通道不同,数据库通道为关联分配统一的高置信度分数,反映它们的已确立性质。
  12. 最后,文本挖掘通道利用大量科学文献,包括PubMed摘要和全文文章,来识别蛋白质名称的共同提及。
  13. 通过统计分析各种文本环境中的这些共同提及频率,该通道揭示潜在的关联,这些关联可能从结构化数据中不易看出。
  14. 此外,为了更具体的关联模式,使用专门的大语言模型来检测支持物理或调控关联的句子。
Para_09
  1. 对于每个证据渠道,首先使用渠道特定的指标量化证据,然后通过使用从先前知识(来自KEGG通路图成员关系)得出的校准曲线将这些指标转换为可能性,从而将可用的交互证据转化为置信分数。
  2. 对于更具体的关联模式‘物理’和‘调控’,只考虑适用于这些模式的渠道和证据。
  3. 在此之后,基于‘互模拟’概念(27,28),将为给定生物体中的给定蛋白质对计算的所有渠道得分转移到其他生物体中的相关蛋白质对。
  4. 最后,在假设不同渠道的证据在很大程度上是独立的情况下,通过概率整合渠道特定子评分来计算最终的综合置信分数。
  5. STRING的用户可以直接依赖这个综合评分浏览和过滤网络,或者他们可以选择启用或禁用特定渠道,之后根据他们的选择重新计算综合评分。
Para_10
  1. 所有给定相互作用的基础原始证据都可以在线通过专门的证据查看器进行交互式检查。
  2. 此外,每个蛋白质都有辅助信息可供查阅,如其三维结构、结构域组成、注释和交叉引用。
  3. 除了核心的蛋白质网络功能外,STRING 还实现了允许对上传的用户数据进行广泛分析的功能。
  4. 这些功能包括功能富集检测(29)、实验偏差检测(21)、同源性搜索以及对大型查询蛋白质集合进行聚类和组织。
  5. STRING 中包含的所有数据均在 Creative Commons BY 4.0 许可下免费提供下载。
  6. 除了其网站外,STRING 还可以通过专用的 Cytoscape 插件(30)、应用程序编程接口(API)(31)以及通过 R/Bioconductor 包访问。

Regulatory networks

Para_11
  1. 分子网络,如通过STRING获得的那些,已成为生物医学研究中不可或缺的工具,提供了对分子如何在细胞内协同工作的强大见解。
  2. 功能关联网络虽然对于许多应用非常有用,但并未指明相互作用类型(例如复合物形成或转录调控)或相互作用的方向(即谁调节谁)。
  3. 构建具有更详细相互作用类型和方向的网络可以显著扩展它们的实用性,特别是在构建生物系统的数学模型或进行逻辑推理方面。
  4. 相互作用的方向性对于解读组学数据至关重要,这类数据通常更多地揭示了条件(如疾病)的下游效应,而不是导致这些条件的上游事件,而这些上游事件可能是治疗上可以靶向的目标。
Para_12
  1. 为了将具有特定方向性、符号和类型的相互作用整合到STRING中,我们利用了RegulaTome(32)中描述的新颖数据集和基于深度学习的关系提取方法。
  2. RegulaTome语料库提供了丰富且多样的数据集,其中包括来自超过2500篇文档中的16961个实体之间的54951个关系。
  3. 该语料库被用于训练一种基于深度学习的方法,用于注释和提取整个可用文献中的调控事件。
Para_13
  1. 除了已经包含在STRING中的无向物理相互作用之外,可以使用为RegulaTome开发的系统提取以下类型的有向相互作用:调控,包括正调控和负调控这两种带符号的子类型;基因表达调控;降解和翻译后修饰的催化,涵盖六种子类型:小蛋白结合的催化、小蛋白移除的催化、磷酸化催化、去磷酸化催化、小分子结合的催化和小分子移除的催化。为了增强注释的互操作性,这些选定的关系类型与Gene Ontology(32)一致。
Para_14
  1. 为了识别和分类广泛的交互类型,我们微调了RoBERTa-large-PM-M3-Voc语言模型,这是一个非常适合生物学任务的基于变换器的模型。
  2. 该模型在RegulaTome数据集上进行了训练,用于多标签提取上述提及的定向、类型化和带符号的交互,并在保留的测试集上达到了平均F1得分为73.5%(精确度为75.2%,召回率为71.8%),尽管不同类型的关联性能有所差异。
  3. 考虑到底层任务的复杂性,这一准确率是显著的。
  4. 使用此模型,我们处理了从所有可用PubMed摘要和PMC开放获取全文文档中提取的大约12亿句级对,并且给其中约3.5%(大约4300万,其中人类相关的约为1800万)分配了至少一个正面标签,指示蛋白质之间的定向(72.9%)或带符号(33.1%)关系。
  5. 此外,我们利用了数据库通道中已有的调节相互作用的整理知识,通过解析SIGNOR、KEGG和Reactome数据库中的调节信息来实现这一点。
Para_15
  1. 为了将这些相互作用整合到STRING中,我们采用了与物理相互作用相似的评分聚合和基准方法。
  2. 在这里,我们在五个类别中进行基准测试,我们可以通过SIGNOR获得已知的人类调控相互作用的标准数据集:调控、上调、下调、转录调控和磷酸化。
  3. 然后,我们将得到的校准函数应用于提取的所有类型的调控,以生成最终的调控置信分数。
Para_16
  1. 新的调控网络已经无缝集成到现有的STRING框架中,补充了‘功能’和‘物理’网络类型。
  2. 在这个网络中的定向边通过箭头视觉化表示,展示了双向和单向关系。
  3. 网络可视化可以显示不同方向之间的置信度水平(在‘置信度’视图中)或来源的具体方向性(在‘证据’视图中)。
  4. 用户界面保留了直观设计,使用户能够通过点击边来访问调控事件的类型和相互作用的证据(图1)。
  5. 此外,所有API函数已更新以完全支持新的网络类型,这可以通过在API调用中指定参数network_type=regulatory来访问。

图片说明

◉ 图1展示了STRING中新的‘调控网络’模式,在该模式下,网络边直观地指示了每个调控相互作用的方向、置信度和来源。点击网络中的任意一条边将弹出一个窗口,其中包含可用证据和注释的调控类型的详细概述。◉ 用户可以通过访问弹出窗口内链接的具体证据查看器进一步探索相互作用背后的数据,其中包括文本挖掘证据查看器。该查看器呈现与检查的相互作用相关的文献摘录,以及对所呈现摘录自动生成的大语言模型摘要。

图片说明

◉ 图2. 来自STRING数据库网站的富集分析界面。左边:富集分析标签的示意图,突出显示网页的各个部分。右上角:放大分析表的视图,其中有两个用户高亮的术语(彩色线条)。右下角:富集的可视化,用相应的颜色表示两个高亮的术语。◉ 左:富集分析标签的示意图突出显示了网页的各个部分。右上角:分析表的放大视图,其中包含两个用户高亮的术语(彩色线条)。右下角:用相应颜色展示的富集情况,展示了两个高亮术语的颜色。◉ 左:富集分析标签的示意图,突出显示了网页的各个部分。右上角:分析表的放大视图,其中有用户高亮的两个术语(彩色线条)。右下角:用对应颜色表示的富集情况,展示了两个被高亮的术语。

Expanded co-expression networks

Para_17
  1. STRING中的共表达通道识别在各种组织和条件下具有相似表达谱的基因,揭示它们参与共享的生物过程。
  2. 它汇集了大规模基因表达研究的数据,分析转录和蛋白质水平以检测具有协调表达的基因对。
  3. 这种方法突出了基因之间潜在的功能关系。
  4. 重要的是,这种分析不受研究偏差的影响,因为它直接使用原始组学数据,而不是依赖于人工整理或实验数据集,从而提供了更精确和客观的基因相互作用视图。
Para_18
  1. 为了即将到来的12.5版本,我们正在通过将FAVA(功能关联变分自动编码器)(25)应用于更广泛范围的单细胞RNA测序数据上,扩展共表达通道,从而生成额外的网络。
  2. 具体来说,我们将纳入来自cellxgene Atlas(33)的单细胞数据,以增强人类和小鼠网络,并从EBI单细胞表达图谱中纳入数据,以扩展对更多模式生物的覆盖范围(34)。
  3. 这一扩展将提供更详细的、特定于生物体的共表达图谱,使得能够更精确地识别基因共表达模式以及跨物种比较,特别是在发育、免疫反应和与疾病相关的基因表达动态方面。

Improved enrichment analysis

Para_19
  1. 基因集富集分析是高通量生物学研究的关键组成部分,为数据集的生物特性提供了重要见解。
  2. 这种分析对于识别诸如生物过程、途径和表型等关键方面至关重要,这些方面对于理解实验的生物学意义非常重要。
  3. 通常采用过表达分析,在此过程中,一个超过特定阈值(经验性或习惯性)的数据子集与实验背景进行比较。
  4. 默认情况下,STRING 使用整个基因组/蛋白质组背景;然而,建议用户提供一个自定义背景列表,代表他们测定中检测到的更现实的一组基因/蛋白质(35)。
  5. 或者,可以使用基因集富集分析来分析整个排序数据集,以确定位于顶部、底部或两端的基因分布是否显著偏离偶然期望。
  6. STRING 支持这两种富集方法。
  7. STRING 最近的更新引入了多种改进,包括新的错误发现率(FDR)校正、增强的过滤选项和新的图形可视化功能。

FDR correction

FDR校正

Para_20
  1. 在分析过程中,STRING 对给定的路径集合('类别')中的每条路径('术语')进行测试。
  2. 像许多其他富集工具一样,STRING 使用 Benjamini–Hochberg 校正(36)来调整多重假设检验。
  3. 这种统计校正对于有效管理 FDR 至关重要。
  4. 然而,术语数量越多且多样性越大,所需的校正就越高,对于给定的术语超过 alpha 水平(显著性阈值)的可能性就越低。
  5. 为了解决这个问题,一种方法是将分析限制在一个术语子集上,例如关注广泛、高级术语的 'GO 简化版',它们具有简化的本体结构(16)。
  6. 然而,这种方法有一些缺点:它可能会排除与被测试基因组特别相关的术语,可能由于设计原因无法涵盖所有功能,并且主要适用于诸如基因本体这样的层次分类系统。
Para_21
  1. STRING利用了几种分层本体论,如Brenda组织本体、疾病本体、人类表型本体和前述的基因本体;它们通常包含比接近根节点的节点更多的叶状节点。
  2. 父节点必须包含子项中包含的所有基因,这导致本体中存在许多更小的术语和较少的大术语的不平衡。
  3. 删除较小的术语可以显著提高统计功效。
  4. 然而,简单地消除所有小术语可能会负面影响可发现性,尤其是对于查询基因集较小的情况,较小的术语可能对生物学解释最为相关。
  5. 本体通常是庞大的,基因本体树中的生物过程分支就包含了超过10,000个术语(因此也进行了超过10,000次测试)。
  6. 如此强烈的校正效果意味着对于较大的查询基因集或仅覆盖蛋白质组部分背景的情况,可能无法从统计上检测到某些术语子集的富集情况;因此可以将这些术语排除在外。
Para_22
  1. 在新版本中,STRING 采取了一种更灵活的方法——仅测试那些事先具有统计富集潜力的术语。这个决定基于几个参数:术语的大小、查询集的大小、背景集的大小以及进行的测试次数。
  2. 通过计算给定 FDR 校正条件下理论上可以被富集的最小和最大术语大小,STRING 可以确定哪些术语适合纳入分析。
  3. 超出这些界限的术语将被排除在测试之外。
  4. 这种系统性的排除显著增强了富集分析的统计功效,而不会遗漏任何可能被富集的术语。
  5. 对于较小的查询集,此策略将保留所有术语,因为即使是最小的测试集(术语大小=2)仍然可能理论上被富集。
  6. 然而,对于较大的、不太具体的集合或针对自定义较小背景的测试,这种方法明显提高了统计功效,使 STRING 能够执行更聚焦的分析,而不必担心增加的假阳性率或遗漏潜在的生物上有趣的术语。
  7. 尽管该方法利用了本体论的特点,但它不需要层次结构(术语之间的父子关系)即可运行,并且可以应用于任何途径/术语集合,只要这些集合存在小术语不平衡的问题,例如基于 PMID 的基因集和 STRING 邻域簇。

Term filtering

术语过滤

Para_23
  1. 我们在线用户调查的一个关键见解是,通常压倒性的富集结果数量可能会使辨别最相关的富集术语变得困难。因此,我们增强了富集结果的显示功能,允许用户根据(i)FDR、(ii)强度、(iii)信号、(iv)术语大小和(v)术语相似性来过滤和排序。
  2. ,
Para_24
  1. 最新添加到我们过滤选项中的包括‘术语相似性’和‘信号’过滤器。
  2. ‘术语相似性’过滤器使用杰卡德指数来衡量同一类别内术语的基因集之间的相似性。
  3. 该方法通过根据P值对术语进行排序来实现,优先考虑统计意义最强的术语。
  4. 算法随后遍历术语列表;任何相对于已包含在结果中的术语具有超过预定义、用户定义阈值的相似性的术语都将被排除。
  5. 这种方法不需要除数据集中已有的信息之外的任何附加信息,并且可以统一应用于所有类别的术语。
  6. ‘信号’过滤器被定义为富集术语中观察到与预期的基因出现比率与其−log(FDR)之间的加权调和平均值。
  7. 该过滤器平衡了这两个指标的影响,并提供了更直观的富集术语排序方式,并已被实现为默认排序标准。
Para_25
  1. 这些过滤器旨在排除可能不太相关的结果,例如那些边缘显著、规模小或在基因内容方面有显著重叠的术语。
  2. 这一改进简化了寻找相关观察的过程,帮助用户专注于最具意义的结果。

Graphical visualization

图形可视化

Para_26
  1. 为了响应用户反馈,请求更直观、图形化的检测富集可视化,STRING 现已采用交互式点图作为富集分析结果的主要显示方法。
  2. 我们选择了点图,因为它能清晰地表示三个维度上的富集功能:(i) X 轴上的富集信号,(ii) 通过点的颜色编码表示的 FDR,以及 (iii) 网络中每个术语对应的蛋白数量由每个点的大小表示。
  3. 这些术语(列在 Y 轴上)按其富集信号排序,如果按相似性分组,则首先按其组的富集信号排序(图 2)。
  4. 这种可视化反映了用户选择的所有过滤设置,以管理显示结果的数量。
  5. 这些图表还可以在界面上进行自定义,生成的图形可以下载为 PNG 以便立即使用,或下载为 SVG 以便进一步修改。
Para_27
  1. STRING可视化的一个显著特征是整合了相似性群组,这些群组在图上将相关的术语视觉上分组,为富集结果增添了另一个维度。
  2. 这些群组利用计算出的相似性来聚类术语,突出术语之间的关系,并帮助分析。
  3. 聚类采用基于Jaccard指数的平均链接法,并应用用户指定的截止值来形成群组,这些群组平均而言共享指定的相似性。
  4. 群组按其术语的最大信号排序,群组内的每个术语随后根据其各自的信号进行排序。
  5. 这种分组在图的右侧进行了视觉上的突出显示。

STRING clustering and gene set descriptions

Para_28
  1. STRING提供了用于用户提交的基因列表的网络聚类选项。
  2. 此功能将节点之间相互连接比与其他节点更多的节点进行视觉连接,反映了用户的基因列表的功能模块性。
  3. 通过分组紧密相互作用的蛋白质,聚类有助于发现功能模块,并促进假设生成。
  4. 聚类基于节点之间的连接性,结合边权重(综合评分)反映交互的置信水平。
  5. 只考虑可见的边——那些对应于置信度高于用户指定截止值的活跃通道——确保聚类与显示的网络一致。
Para_29
  1. 用户可以选择两种不同的聚类算法。
  2. ‘K均值聚类’是通过k中心点算法实现的[使用pyclustering包(37)],允许用户指定所需的聚类数量(k)。
  3. 该方法基于从节点之间的最可能路径导出的距离矩阵形成聚类。
  4. 如果网络中有多个不连接的组件,STRING会通过首先迭代地划分最大的组件来追求聚类大小的平衡分布。
  5. 相比之下,‘MCL聚类’使用独立的二进制文件实现(发行版14-137),自动根据网络的内在结构生成自然的划分。
  6. 它利用Markov聚类算法(38)模拟图中的随机流,识别高度相互连接的节点组作为聚类,基于它们的组合STRING得分。
  7. 用户控制的膨胀参数影响聚类的粒度。
  8. 该方法特别适用于捕捉生物网络的真实模块性质,允许直观地分组,这些分组对应于生物学功能和关系。
Para_30
  1. 研究人员经常分析所获得聚类的生物学背景,以便从网络数据中解释和得出结论。
  2. 为了帮助这一过程,我们开发了一种新的基因集命名功能,显著增强了聚类分析的可解释性。
  3. 此功能基于STRING的强大统计富集分析,自动为每个聚类分配最佳描述,简化了通常繁琐的手动解释聚类数据的任务。
  4. 它根据富集信号对富集术语进行排名(参见‘改进的富集分析’部分),在各种富集类别中选择主要、次要和第三名称。
  5. 这种优先级确保名称反映了每个聚类最具有统计学意义和生物学相关的属性,提供了对其功能特征的清晰、即时的理解。
  6. 富集主要来自诸如基因本体生物过程等类别,同时结合了一系列其他类别以进行更广泛的注释。
  7. 如果富集分析没有产生显著结果或者聚类仅包含一个基因,STRING将分配标准基因名称作为描述,以确保聚类易于识别。
  8. 该功能不仅限于聚类分析,还适用于任何基因集。
  9. 因此,它也通过API提供,补充了我们其他API方法的集合。
  10. 新的API函数命名为geneset_description,只需要输入一组基因即可,自动执行富集分析。
  11. 它返回最多三个描述——主要、次要和第三描述,基于相关性和可用性,与用户界面中的聚类命名相同。
  12. 这些描述按顺序填充,其中‘主要’始终代表最相关的术语。
  13. 该API的一个应用是在stringApp Cytoscape插件中,它利用该插件在执行聚类后自动将分配的描述叠加到每个网络聚类上。

Network and protein embeddings

Para_31
  1. 为了便于在机器学习应用中使用STRING,用户现在可以直接下载从STRING衍生的预计算ProtT5(39)序列和跨物种蛋白质网络嵌入,适用于所有真核生物,并利用这些嵌入在其自己的标记数据集上。
  2. 嵌入编码了来自两个方面的信息。序列嵌入可以捕捉蛋白质域和较短的序列基序,而网络嵌入可以通过细胞组织的信息来补充这些内容,例如蛋白质复合体和途径,这些信息可能无法仅从序列数据中明显看出。
Para_32
  1. 虽然蛋白质序列嵌入由于氨基酸序列的普遍性质,在物种间具有内在的可比性,但使用网络嵌入的主要障碍是确保来自不同物种的网络嵌入可以直接比较。
  2. 这个挑战源于每个物种都有独立的蛋白质网络,而传统的网络嵌入方法并未设计用于解决跨物种的可比性问题。
  3. 网络嵌入之间的不可比性阻碍了在不同物种之间有效转移知识和发现的能力。
  4. 为了解决这个问题,我们开发了一种方法,利用基于FedCoder(40)的同源关系来对物种间的真核生物网络嵌入进行对齐。
  5. 这种对齐技术创建了一个统一的嵌入空间,使得来自不同真核生物物种的蛋白质可以被直接比较。
  6. 因此,它增强了跨物种的蛋白质预测,特别是在亚细胞定位和功能预测等任务中。
Para_33
  1. 在蛋白质机器学习领域,STRING提供的预先计算的序列嵌入和跨物种兼容的网络嵌入使研究人员可以直接使用这些资源,而无需自行计算嵌入。
  2. 这一策略不仅减少了因重复计算而导致的能量消耗,而且增强了计算生物学研究的可重复性,促进了更加可持续和一致的科学实践。

Data availability

Para_34
  1. STRING数据库可在https://string-db.org/免费在线获取。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信菜鸟团 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Basic Information
  • Abstract
  • Introduction
  • Database content
  • Regulatory networks
  • Expanded co-expression networks
  • Improved enrichment analysis
    • FDR correction
    • Term filtering
    • Graphical visualization
  • STRING clustering and gene set descriptions
  • Network and protein embeddings
  • Data availability
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档