蛋白质语言模型-Big Isn't Always Better

Tom2Code

发布于 2026-04-17 17:29:28

1260

"Protein Language Model Choice: Big Isn't Always Better"

先来放上论文地址：

https://doi.org/10.1101/2025.10.30.685515

代码地址：https://github.com/tsenoner/plm_choice

是一篇预印论文

题目是：《which plm to choose？》

作者是来自德国慕尼黑工业大学的Tobias Senoner

plm=protein language model

接下来，我们就通过这篇论文来看看到底应该在计算任务中选择蛋白质语言模型呢？

一.概述

该研究系统地基准测试了十四种蛋白质语言模型（pLMs），旨在评估它们学习到的嵌入如何有效地表征蛋白质的序列、结构和功能相似性。研究发现了一个“规模-性能悖论”，即中等规模的基础模型在直接反映原始嵌入距离中的内在生物信号方面，与体积大得多的模型效果相当。相对而言，大型pLMs展现出卓越的信息提取能力，它们储存了更复杂的可提取信息，但这只有通过额外的监督训练（微调）才能充分利用。作者还指出，针对特定任务的微调会从根本上扭曲嵌入空间的几何结构，从而产生牺牲通用性的专业化表征。因此，该研究建议采用任务驱动的模型选择策略：高效的中等规模模型适用于快速的通用洞察，而最大型的模型则仅在需要微调以达到最高性能时才值得采用。

二.文章回答了怎样的问题？

上图两个问题截取自原文

三.研究材料

3.1数据集

数据集的收集与拆分

研究中准备了两个数据集：主要的 SwissProt-pre2024 数据集和用于评估模型泛化能力的 New2024 数据集。

SwissProt-pre2024 数据集： 该数据集是用于模型训练、验证和测试的主要数据集，源自 Swiss-Prot 数据库 2024_01 版本。
非冗余拆分： 为了创建非冗余的数据拆分，研究人员首先使用 MMseqs2 的聚类模式对所有蛋白质进行了分区。聚类的标准设定为：最小成对序列同一性（PIDE）为 30%（--min-seq-id 0.3）和较短序列的 80% 覆盖率（-c 0.8，--cov-mode 1）。
集合比例： 随后，这些聚类按照聚类大小进行分层拆分，比例为：训练集占 70%，验证集占 15%，测试集占 15%。
最终数量： 通过此过程，获得了包含 375,209 个蛋白质的训练集、86,546 个蛋白质的验证集以及 80,514 个蛋白质的测试集（这些都是序列非冗余的蛋白质）。

序列对的组成

蛋白质对的构建是为了建立评估模型时的基础真实值（ground truth）。

全对比全搜索： 研究人员使用 MMseqs2 进行了一次全对比全搜索（all-against-all search），以计算数据集中蛋白质对的三种相似性指标：序列同一性、结构相似性和功能相似性。
相似性指标：
- 序列相似性以 PIDE（成对序列同一性百分比）报告。
- 结构相似性以 TM-score 报告（使用 Foldseek 计算的 alntmscore）。
- 功能相似性通过 HFSP 分数（同源性衍生蛋白质功能相似性）评估。
筛选蛋白质对： 为了确保基础真实数据的高质量，所得的蛋白质对根据已建立的可靠性阈值进行了严格筛选：
- PIDE 筛选： 仅保留 PIDE 大于 0.3 且两个蛋白质的对齐覆盖率都的蛋白质对。
- TM-score 筛选： 仅保留 TM-score 且两个结构的对齐覆盖率都的蛋白质对（同时排除了平均预测可靠性 pLDDT 分数的蛋白质结构）。
- HFSP 筛选： 仅保留 HFSP 分数 大于 0 的蛋白质对。

经过筛选后，最终的测试集（用于所有固有或可提取信息评估）包含 8,731,253 个具有相似序列和功能关系的蛋白质对，以及 15,481,580 个具有相似结构关系的蛋白质对。需要注意的是，这一筛选步骤排除了绝大多数高度不相似的蛋白质对，因此分析主要评估了嵌入（embeddings）定量捕获可测量相似性的能力，而不是二元区分相似与不相似蛋白质的能力。

3.2计算指标

序列相似性（Sequence Similarity）：使用 PIDE (Percent Pairwise Sequence Identity，成对序列同一性百分比) 。

结构相似性（Structural Similarity）：使用 TM-score（通过 Foldseek 计算 alntmscore 获得）。

功能相似性（Functional Similarity）：使用 HFSP（Homology-derived Functional Similarity of Proteins，同源性衍生蛋白质功能相似性）分数。

3.3实验方法

研究人员建立了一个全面的框架来量化蛋白质语言模型（pLMs）嵌入中编码的生物学信息，主要分为对固有信息和可提取信息的评估。

以下是实验方法和评估框架的详细介绍：

3.3.1. 被分析的蛋白质语言模型 (pLMs)

研究系统地比较了 14 种常用 pLMs 生成的表示。这些模型涵盖了不同的架构、训练方法和参数规模。

基础模型 (Foundation models):
- 规模从 800 万 (8M) 到 30 亿 (3B) 自由参数不等。
- 包括 ProtT5 (1.5B 参数) 、ESM-1b (650M 参数) 、ESM-2 的多个变体 (8M, 35M, 150M, 650M, 3B 参数) 、Ankh (450M 和 1.15B 参数) 、ESM-C (300M 和 600M 参数) 和 ESM-3 (1.4B 参数) 。
任务特定模型 (Task-specific models):
- 包括 CLEAN (650M 参数)，该模型通过对比学习训练以进行酶分类；以及 ProtTucker (1.5M 参数)，该模型经过优化以进行 CATH 结构域预测。

嵌入生成： 对于每个蛋白质序列，研究人员通过平均每个 pLM 最终隐藏层的残基表示，生成固定长度的蛋白质级别嵌入，以便进行成对比较分析。

3.3.2. 评估设置和方法

评估在两种嵌入设置下进行，并采用了两种核心评估方法来区分不同类型的生物信号：

A. 评估设置 (Embedding Settings)

原生嵌入维度 (Native Embedding Dimensions): 使用 pLM 输出的原始维度进行评估。
标准化 128 维表示 (Standardized 128-dimensional representations): 通过 主成分分析 (PCA) 将所有嵌入降维到 128 维后进行评估。

B. 评估方法 (Assessment Approaches)

1. 固有信息 (Inherent Information)——欧几里得距离固有信息是指可以直接通过对原始嵌入向量进行简单算术计算（例如建立蛋白质距离/相似性）获得的信号。

方法： 作为不可训练的基线 ，计算嵌入对之间的欧几里得距离 (Euclidean distances) 。
目的： 评估 pLM 嵌入空间本身（原始状态，不进行额外训练）捕捉生物学关系的能力。

2. 可提取信息 (Extractable Information)——前馈网络 (FFN) 监督学习可提取信息是指需要通过后续基于嵌入的监督机器学习（例如预测特定的蛋白质特征）才能揭示的信号。

方法： 训练一个前馈网络 (FFNs)，使用嵌入对作为输入，以预测生物学属性。

C. 监督学习 (FFN) 架构和目标

FFN 架构： 采用对称架构 。每个维嵌入（取决于 pLM 且维度不同，例如 128, 1024, 2560）首先通过一个隐藏层 () ，然后将两个嵌入的 64 维输出连接（合并）起来，再通过连续的层 (128 64 32 1) 来生成最终预测。
预测目标 (Targets): FFN 模型被独立训练，以预测蛋白质对的三个相似性指标：
1. 序列同一性 (PIDE) 。
2. 结构相似性 (TM-score) 。
3. 功能相似性 (HFSP score) 。
训练细节： 所有模型均使用 PyTorch Lightning 实现，采用一致的超参数，包括学习率 0.001，批量大小 1024，最多 100 个 epoch，以及 5 个 epoch 的早停耐心。
随机对照： 使用从标准正态分布生成的 1024 维随机对照嵌入来建立性能基线。

3.3.3. 性能和距离分析

性能评估指标： 使用 Pearson 相关系数来评估模型预测值与真实值之间的性能（相关性）。
距离分布比较： 为了进行跨模型比较，所有成对嵌入距离都进行了 min-max 归一化，缩放到范围。
Wasserstein 距离 (W)： 计算归一化后的成对距离分布之间的 Wasserstein 距离，以量化将一个概率分布转换为另一个所需的最小“成本”，从而比较不同 pLMs 嵌入空间的几何形状。

四.实验结果

作者在14个蛋白质语言模型中进行了实验，包括不同参数量的：esm1，esm2，esm3，emc，ankh，ProtT5。