Transformers 4.37 中文文档（三十二）

ApacheCN_飞龙

发布于 2024-06-26 16:03:21

1.1K0

文章被收录于专栏：信数据得永生信数据得永生

原文：huggingface.co/docs/transformers

ESM

原文链接：huggingface.co/docs/transformers/v4.37.2/en/model_doc/esm

概述

本页面提供了 Meta AI 基础人工智能研究团队的 Transformer 蛋白质语言模型的代码和预训练权重，提供了最先进的 ESMFold 和 ESM-2，以及之前发布的 ESM-1b 和 ESM-1v。Transformer 蛋白质语言模型是由 Alexander Rives、Joshua Meier、Tom Sercu、Siddharth Goyal、Zeming Lin、Jason Liu、Demi Guo、Myle Ott、C. Lawrence Zitnick、Jerry Ma 和 Rob Fergus 在论文Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences中引入的。该论文的第一个版本于 2019 年预印。

ESM-2 在一系列结构预测任务中表现优异，胜过所有经过测试的单序列蛋白质语言模型，并实现了原子分辨率结构预测。该模型是由 Zeming Lin、Halil Akin、Roshan Rao、Brian Hie、Zhongkai Zhu、Wenting Lu、Allan dos Santos Costa、Maryam Fazel-Zarandi、Tom Sercu、Sal Candido 和 Alexander Rives 在论文Language models of protein sequences at the scale of evolution enable accurate structure prediction中发布的。

该论文还介绍了 ESMFold。它使用了一个 ESM-2 干部，带有一个可以以最先进的准确性预测折叠蛋白质结构的头部。与AlphaFold2不同，它依赖于大型预训练蛋白质语言模型干部的标记嵌入，并且在推断时不执行多序列比对（MSA）步骤，这意味着 ESMFold 检查点完全是“独立的” - 它们不需要已知蛋白质序列和结构的数据库以及相关的外部查询工具来进行预测，并且因此速度更快。

来自“Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences”的摘要是

在人工智能领域，通过无监督学习实现的数据规模和模型容量的结合，推动了表示学习和统计生成方面的重大进展。在生命科学领域，预期的测序增长将带来有关自然序列多样性的前所未有的数据。在进化规模上进行蛋白质语言建模是生物学预测和生成人工智能的逻辑步骤。为此，我们使用无监督学习在跨越进化多样性的 250 亿蛋白质序列中训练了一个深度上下文语言模型，共计 860 亿个氨基酸。所得模型包含有关生物性质的信息。这些表示仅从序列数据中学习而来。学习到的表示空间具有多尺度组织，反映了从氨基酸的生化性质到蛋白质的远程同源的结构。表示中编码了有关二级和三级结构的信息，并可以通过线性投影进行识别。表示学习产生了能够在一系列应用中泛化的特征，实现了最先进的突变效应和二级结构的监督预测，并改进了长程接触预测的最先进特征。

来自“Language models of protein sequences at the scale of evolution enable accurate structure prediction”的摘要是

最近已经证明，大型语言模型在规模上具有新兴的能力，超越简单的模式匹配，进行更高级别的推理，并生成逼真的图像和文本。虽然在蛋白质序列上训练的语言模型已经在较小规模上进行了研究，但对于它们在扩大规模时学习到的生物学知识知之甚少。在这项工作中，我们训练了具有 150 亿参数的模型，这是迄今为止评估的最大蛋白质语言模型。我们发现随着模型的扩大，它们学习到的信息使得能够预测蛋白质的三维结构，分辨率达到单个原子。我们提出了 ESMFold，用于直接从蛋白质的个体序列进行高精度端到端的原子级结构预测。ESMFold 对于低困惑度且被语言模型充分理解的序列具有与 AlphaFold2 和 RoseTTAFold 相似的准确性。ESMFold 推理速度比 AlphaFold2 快一个数量级，使得能够在实际时间范围内探索宏基因组蛋白质的结构空间。

原始代码可以在这里找到，并由 Meta AI 的 Fundamental AI Research 团队开发。ESM-1b、ESM-1v 和 ESM-2 由 jasonliu 和 Matt 贡献给了 HuggingFace。

ESMFold 由 Matt 和 Sylvain 贡献给了 HuggingFace，特别感谢 Nikita Smetanin、Roshan Rao 和 Tom Sercu 在整个过程中的帮助！

使用提示

ESM 模型是使用掩码语言建模（MLM）目标进行训练的。
HuggingFace 移植的 ESMFold 使用了 openfold 库的部分内容。openfold 库使用 Apache License 2.0 许可。

资源

文本分类任务指南
标记分类任务指南
掩码语言建模任务指南

EsmConfig

`class transformers.EsmConfig`

< source >

( vocab_size = None mask_token_id = None pad_token_id = None hidden_size = 768 num_hidden_layers = 12 num_attention_heads = 12 intermediate_size = 3072 hidden_dropout_prob = 0.1 attention_probs_dropout_prob = 0.1 max_position_embeddings = 1026 initializer_range = 0.02 layer_norm_eps = 1e-12 position_embedding_type = 'absolute' use_cache = True emb_layer_norm_before = None token_dropout = False is_folding_model = False esmfold_config = None vocab_list = None **kwargs )

参数

vocab_size (int, optional) — ESM 模型的词汇表大小。定义了在调用 ESMModel 时可以表示的不同标记数量。
mask_token_id (int, optional) — 词汇表中掩码标记的索引。由于“mask-dropout”缩放技巧，必须在配置中包含此项，该技巧将根据掩码标记的数量来缩放输入。
pad_token_id (int, optional) — 词汇表中填充标记的索引。由于 ESM 代码的某些部分使用此标记而不是注意力掩码，因此必须在配置中包含此项。
hidden_size (int, optional, 默认为 768) — 编码器层和池化器层的维度。
num_hidden_layers (int, optional, 默认为 12) — Transformer 编码器中的隐藏层数量。
num_attention_heads (int, optional, 默认为 12) — Transformer 编码器中每个注意力层的注意力头数量。
intermediate_size (int, optional, 默认为 3072) — Transformer 编码器中“中间”（通常称为前馈）层的维度。
hidden_dropout_prob (float, optional, 默认为 0.1) — 嵌入层、编码器和池化器中所有全连接层的丢弃概率。
attention_probs_dropout_prob (float, optional, 默认为 0.1) — 注意力概率的丢弃比率。
max_position_embeddings (int, optional, 默认为 1026) — 该模型可能会与之一起使用的最大序列长度。通常将其设置为较大的值以防万一（例如，512、1024 或 2048）。
initializer_range (float, optional, defaults to 0.02) — 用于初始化所有权重矩阵的截断正态初始化器的标准差。
layer_norm_eps (float, optional, defaults to 1e-12) — 层归一化层使用的 epsilon。
position_embedding_type (str, optional, defaults to "absolute") — 位置嵌入的类型。选择 "absolute", "relative_key", "relative_key_query", "rotary" 中的一个。对于位置嵌入使用 "absolute"。有关 "relative_key" 的更多信息，请参考 Self-Attention with Relative Position Representations (Shaw et al.)。有关 "relative_key_query" 的更多信息，请参考 [Improve Transformer Models with Better Relative Position Embeddings (Huang et al.)] 中的 Method 4 (https://arxiv.org/abs/2009.13658)。
is_decoder (bool, optional, defaults to False) — 模型是否用作解码器。如果为 False，则模型用作编码器。
use_cache (bool, optional, defaults to True) — 模型是否应返回最后的键/值注意力（并非所有模型都使用）。仅在 config.is_decoder=True 时相关。
emb_layer_norm_before (bool, optional) — 是否在嵌入之后但在网络主干之前应用层归一化。
token_dropout (bool, defaults to False) — 启用此选项时，掩码标记将被视为已通过输入丢失删除。

这是用于存储 ESMModel 配置的配置类。根据指定的参数实例化一个 ESM 模型，定义模型架构。使用默认值实例化配置将产生类似于 ESM facebook/esm-1b 架构的配置。

配置对象继承自 PretrainedConfig，可用于控制模型输出。阅读来自 PretrainedConfig 的文档以获取更多信息。

示例：

>>> from transformers import EsmModel, EsmConfig

>>> # Initializing a ESM facebook/esm-1b style configuration >>> configuration = EsmConfig()

>>> # Initializing a model from the configuration >>> model = ESMModel(configuration)

>>> # Accessing the model configuration >>> configuration = model.config