简读分享 | 魏乐松 编辑 | 陈兴民
论文题目
Transformer-based protein generation with regularized latent space optimization
论文摘要
自然语言模型的发展提高了学习有意义的蛋白质序列表示的能力。此外,随着高通量突变、定向进化和二代测序的发展,生成了大量的标注的数据。在这两个背景下,作者提出一种称为正则化潜在空间优化(ReLSO)的方法,这是一种基于transformer的自动编码器,其特点是具有高度结构化的潜在空间,通过训练该空间来生成序列以及预测适应度。使用ReLSO,作者显式地对大型标记数据集的序列-功能的关系进行建模,并使用基于梯度的方法在潜在空间内进行优化来生成新的分子。作者在几个公开可用的蛋白质数据集上对该方法进行了评估。作者观察到,与其他方法相比,使用ReLSO具有更高的序列优化效率(每优化步骤的适应度增加),并且ReLSO可以更鲁棒地生成高适应度序列。此外,联合训练的ReLSO模型学到的基于注意力的关系为序列级的适配性信息提供了一个潜在的途径。
论文链接
https://www.nature.com/articles/s42256-022-00532-1