首页
学习
活动
专区
工具
TVP
发布

DrugAI

关注人工智能与化学、生物、药学和医学的交叉领域进展,提供“原创、专业、实例”的解读分享。
专栏成员
1110
文章
701185
阅读量
117
订阅数
ICML 2024 | 基于体素网格的药物设计
今天为大家介绍的是来自Prescient Design, Genentech团队的一篇论文。作者提出了VoxBind,这是一种基于评分的3D分子生成模型,该模型以蛋白质结构为条件。作者的方法将分子表示为3D原子密度网格,并利用3D体素去噪网络进行学习和生成。作者将神经经验贝叶斯的形式扩展到条件设置,并通过两步程序生成基于结构的分子:(i) 使用学习到的评分函数,通过欠阻尼的Langevin MCMC从高斯平滑的条件分布中采样噪声分子,(ii) 通过单步去噪从噪声样本中估计出干净的分子。与当前的最先进技术相比,作者的模型更易于训练,采样速度显著更快,并且在大量的计算基准测试中取得了更好的结果——生成的分子更加多样化,表现出更少的空间碰撞,并且与蛋白质口袋结合的亲和力更高。
DrugAI
2024-06-21
670
ICML 2024 |通过微环境感知的分层提示学习预测蛋白质-蛋白质相互作用的突变效应
今天为大家介绍的是来自西湖大学李子青团队的一篇论文。蛋白质-蛋白质结合在多种基本生物过程中起着关键作用,因此预测氨基酸突变对蛋白质-蛋白质结合的影响至关重要。为了应对注释突变数据稀缺的问题,利用大量未标注数据进行预训练已经成为一种有前景的解决方案。然而,这一过程面临一系列挑战:(1) 尚未完全捕捉到多个(不止两种)结构尺度之间复杂的高阶依赖关系;(2) 很少研究突变如何改变周围微环境的局部构象;(3) 预训练在数据规模和计算负担方面成本高昂。在本文中,作者首先构建了一个分层提示代码簿(hierarchical prompt codebook),独立记录不同结构尺度下常见的微环境模式。然后,作者开发了一种新颖的代码簿预训练任务,即掩码微环境建模(masked microenviroment modeling),用于模拟每个突变与其残基类型、角度统计和微环境中局部构象变化的联合分布。通过构建的提示代码簿,作者将每个突变周围的微环境编码为多个分层提示,并将它们结合起来,灵活地为野生型和突变蛋白复合物提供关于其微环境差异的信息。这种分层提示学习框架在突变效应预测和针对SARS-CoV-2优化的人类抗体的案例研究中,表现出优于最新预训练方法的卓越性能和训练效率。
DrugAI
2024-06-21
1180
ICLR 2024 | 受进化启发的损失函数用于蛋白质表征学习
今天为大家介绍的是来自Daniel Jesus Diaz团队的一篇论文。基于AI的蛋白质工程框架使用自监督学习(SSL)来获得用于下游突变效果预测的表示。最常见的训练目标是野生型准确性:在一个序列或结构中屏蔽一个野生型残基,然后预测缺失的氨基酸。然而,野生型准确性与蛋白质工程的主要目标不符,后者是建议突变而不是识别自然界中已存在的氨基酸。作者在此提出进化排名(EvoRank),这是一种结合从多序列比对(MSAs)中提取的进化信息的训练目标,用于学习更多样化的蛋白质表示。EvoRank对应于在MSA引导的概率分布中对氨基酸可能性进行排名。这个目标迫使模型学习蛋白质的潜在进化动态。在各种表型和数据集上,作者证明了EvoRank在零样本性能方面有显著提升,并且可以与在实验数据上进行微调的模型竞争。
DrugAI
2024-06-19
780
Nat. Mach. Intell. | “数据+知识+AI” 解锁新靶标药物虚拟筛选
精准的评估蛋白质-配体相互作用对药物发现至关重要。然而,开发可靠的评估方法一直是学术界和工业界的长期挑战。近年来,人工智能技术在该领域已经取得了显著进展,以AlphaFold为代表的深度学习方法在蛋白质三维结构,蛋白质-配体复合物结构预测方面表现卓越。但是,在新靶标的药物虚拟筛选场景中,高精度的活性预测评分方法仍然非常匮乏。许多研究表明,深度学习模型倾向学习数据中的分布偏差,对分布内的数据可以给出很好的性能指标。但在实际应用中,尤其面对训练集未见的新靶标和化学多样性空间,却无法展现出良好的泛化效果。
DrugAI
2024-06-18
1150
Cell. Rep. Med. | scRank利用靶标干扰的基因调控网络推断药物应答细胞类型
今天为大家介绍的是来自浙江大学范骁辉团队的一篇论文。由于细胞群体之间的异质性,细胞对药物的反应存在分歧。因此,识别对药物有反应的细胞群体对于准确阐明药物作用机制至关重要,但这仍然是一个巨大的挑战。作者在这里通过scRank解决了这个问题,scRank采用目标扰动的基因调控网络,通过使用未经处理的单细胞转录组数据进行计算机模拟药物扰动来对药物响应的细胞群体进行排序。作者在模拟和真实数据集上对scRank进行了基准测试,显示出scRank优于现有方法的优异性能。当应用于髓母细胞瘤和重度抑郁症的数据集时,scRank识别出的药物响应细胞类型与文献一致。此外,scRank准确揭示了响应丹参酮IIA的巨噬细胞亚群及其在心肌梗死中的潜在靶点,并通过实验验证。总之,scRank能够使用未经处理的单细胞数据推断药物响应的细胞类型,从而提供对治疗干预在细胞水平上有影响的见解。
DrugAI
2024-06-18
2270
Nat. Mater. | 利用机器学习和组合化学加速发现可电离脂质mRNA传递
今天为大家介绍的是来自Robert S. Langer与Daniel G. Anderson团队的一篇论文。为了充分发挥信使RNA(mRNA)疗法的潜力,扩大脂质纳米粒子的工具库至关重要。然而,脂质纳米粒子开发的一个关键瓶颈是识别新的可离子化脂质。在本文中,作者描述了一种加速发现用于mRNA递送的有效可离子化脂质的方法,该方法结合了机器学习和先进的组合化学工具。作者从一个简单的四组分反应平台开始,创建了一个化学多样性的584种可离子化脂质库。作者筛选了包含这些脂质的脂质纳米粒子的mRNA转染效率,并使用这些数据作为训练各种机器学习模型的基础数据集。作者选择了表现最佳的模型来探查一个包含40,000种脂质的扩展虚拟库,合成并实验评估了其中表现突出的16种脂质。作者得到了脂质119-23,它在多种组织中的肌肉和免疫细胞转染中表现优于已建立的基准脂质。该方法促进了多用途可离子化脂质库的创建和评估,推进了精确mRNA递送的脂质纳米粒子配方的发展。
DrugAI
2024-06-18
560
Nucleic Acids Res. | GPSFun:使用语言模型的几何感知蛋白序列功能预测
今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。了解蛋白质功能对于阐明疾病机制和发现新药靶点至关重要。然而,蛋白质序列的指数增长与其有限的功能注释之间的差距正在扩大。在之前的研究中,作者开发了一系列方法,包括GraphPPIS、GraphSite、LMetalSite和SPROF-GO,用于蛋白质残基或蛋白质水平的功能注释。为了进一步提高这些方法的适用性和性能,作者现推出GPSFun,这是一款用于几何感知蛋白质序列功能注释的多功能网络服务器,结合了语言模型和几何深度学习以提升以往工具的性能。具体而言,GPSFun利用大型语言模型高效预测输入蛋白质序列的3D构象,并提取有用的序列嵌入。随后,几何图神经网络被用来捕捉蛋白质图中的序列和结构模式,从而促进各种下游预测,包括蛋白质-配体结合位点、基因本体论(gene ontologies)、亚细胞位置(subcellular locations)和蛋白质溶解度(protein solubility)。值得注意的是,GPSFun在各种任务中均表现优于最新的前沿方法,不需要多序列比对或实验蛋白质结构。GPSFun对所有用户免费开放,并提供用户友好的界面和丰富的可视化功能,网址为https://bio-web1.nscc-gz.cn/app/GPSFun。
DrugAI
2024-06-18
1130
Ebiomedicine | 通过稀疏可解释网络发现药物作用机制
今天为大家介绍的是来自Angel Rubio团队的一篇论文。尽管深度神经网络(DDNs)在预测癌症药物疗效方面取得了成功,但其决策过程缺乏可解释性仍然是一个重大挑战。先前的研究提出模仿基因本体结构,以便解释网络中的每个神经元。然而,这些先前的方法需要大量的GPU资源,并且阻碍了其向全基因组模型的扩展。作者开发了SparseGO,这是一种稀疏且可解释的神经网络,用于预测癌症细胞系中的药物反应及其作用机制(MoA)。为了确保模型的泛化性,作者在多个数据集上对其进行了训练,并使用三种交叉验证方案评估其性能。该模型的高效性使其能够使用基因表达数据。此外,SparseGO结合了可解释人工智能(XAI)技术DeepLIFT和支持向量机,以计算方式发现药物的作用机制。与其他方法相比,SparseGO的稀疏实现显著减少了GPU内存使用量和训练速度,使其能够处理基因表达数据而不是突变数据。使用基因表达数据的SparseGO提高了准确性,并使其可以用于药物重新定位。此外,基因表达数据可以使用265种药物进行训练来预测其作用机制。
DrugAI
2024-06-18
1150
ICML 2024 | 统一分子建模中的多尺度蛋白质语言模型
今天为大家介绍的是来自北京大学Kangjie Zheng与南京大学Siyu Long等人发表的一篇论文。蛋白质语言模型在蛋白质工程领域展示了显著的潜力。然而,当前的蛋白质语言模型主要在残基层面操作,这限制了它们提供原子级别信息的能力,阻碍了在涉及蛋白质和小分子的应用中充分发挥蛋白质语言模型的潜力。在本文中,作者提出了ms-ESM(多尺度ESM),这是一种新的方法,能够实现多尺度统一分子建模。ms-ESM通过在多尺度Code-Switch蛋白质序列上进行预训练,并利用多尺度位置编码来捕捉残基和原子之间的关系,从而实现这一目标。实验结果表明,ms-ESM在蛋白质-分子任务中超越了以往的方法,充分展示了蛋白质语言模型的潜力。进一步研究表明,通过统一的分子建模,ms-ESM不仅获得了分子知识,还保留了对蛋白质的理解。
DrugAI
2024-06-18
830
ICML 2024 | 基于重要功能位点与小分子底物的生成式酶设计
今天为大家介绍的是来自Lei Li团队的一篇论文。酶是由基因编码的生物催化剂,能够加速化学反应。那么,如何能自动设计出功能性酶呢?在这篇论文中,作者提出了EnzyGen,这是一种学习统一模型来设计各个功能家族酶的方法。作者的核心理念是基于重要功能位点和对应期望催化功能的底物生成酶的氨基酸序列及其三维(3D)坐标。这些位点是从酶数据库中自动挖掘出来的。EnzyGen由一种新颖的交错注意力网络和邻域等变层组成,能够捕捉整个蛋白质序列中的远程关联和3D空间中最近氨基酸的局部影响。为了学习生成模型,作者设计了一个联合训练目标,包括序列生成损失、位置预测损失和酶-底物相互作用损失。作者还构建了EnzyBench,一个包含3157个酶家族的数据集,覆盖了蛋白质数据库(PDB)中所有可用的酶。实验结果表明,EnzyGen在所有323个测试家族中始终表现最佳,在底物结合亲和力方面比最佳基线高出10.79%。这些发现证明了EnzyGen在设计具有高亲和力并与特定底物结合的结构良好且有效的酶方面的卓越能力。
DrugAI
2024-06-18
970
Chem. Sci. | 微调语言大模型,深挖化学数据矿
化学文献中蕴含着丰富信息,通过“化学文本挖掘技术”提取关键数据,从而构建庞大的数据库,不仅能够为实验化学家提供详尽的物理化学性质和合成路线指引,还能够为计算化学家提供丰富的数据和洞见用于模型构建和预测。然而,由于化学语言的复杂性和论文风格的多样性,从化学文献中提取结构化数据是一项极具挑战性的任务。因此,许多文本挖掘工具应运而生,旨在解决这一棘手难题,助力科学研究迈向新的高峰。然而,这些针对特定数据集和语法规则构建的文本提取模型往往缺乏灵活的迁移能力。近两年,以ChatGPT为代表的大语言模型(LLMs)风靡全球,引领了人工智能和自然语言处理领域的快速发展。能否利用通用大语言模型强大的文本理解和文字处理能力,从复杂化学文本中灵活准确地提取信息,解放数据标注工人的劳动力,加速领域数据的收集呢?
DrugAI
2024-06-18
660
ICML 2024 | 具有动态目标感知片段的药物发现
今天为大家介绍的是来自Sung Ju Hwang团队的一篇论文。基于片段的药物发现是一种在广阔的化学空间中发现药物候选物的有效策略,并已广泛应用于分子生成模型。然而,许多现有的片段提取方法在这些模型中没有考虑目标化学性质或者依赖于启发式规则,现有的基于片段的生成模型也无法在生成过程中使用新发现的目标导向片段更新片段词汇表。为此,作者提出了一种用于药物发现的分子生成框架,称为目标导向片段提取、组装和修改(GEAM)。GEAM由三个模块组成,每个模块分别负责目标导向片段提取、片段组装和片段修改。片段提取模块利用信息瓶颈原理识别对所需目标性质有贡献的重要片段,从而构建一个有效的目标导向片段词汇表。此外,GEAM能够通过片段修改模块探索初始词汇表以外的片段,并通过动态目标导向词汇表更新进一步增强探索能力。作者通过各种药物发现任务的实验表明,GEAM能够通过三个模块的生成循环有效地发现药物候选物。作者的代码可以在https://github.com/SeulLee05/GEAM获取。
DrugAI
2024-06-18
790
ICML 2024 | 将分子表示为可解释语法上的随机游走
今天为大家介绍的是来自Wojciech Matusik团队的一篇论文。近年来,分子发现的研究主要集中在小型药物分子上,导致许多同样重要的材料设计应用缺乏足够的技术支持。这些应用通常依赖于更复杂的分子结构,并且这些结构往往是通过已知的子结构精心设计出来的。作者提出了一种数据高效且可解释的模型,用于表示和推理此类分子,该模型使用图语法明确描述了以基序为设计基础的层次化设计空间。作者提出了一种新颖的表示形式,即在设计空间上的随机游走,这有助于分子的生成和性质预测。作者证明了在性能、效率和预测分子的可合成性方面,该方法相较现有方法具有明显优势,并且提供了关于该方法化学可解释性的详细见解。
DrugAI
2024-06-18
590
Nat Methods | OpenFold:对AlphaFold2重新训练提供了关于其学习机制和泛化能力的新见解
今天为大家介绍的是来自Mohammed AlQuraishi团队的一篇论文。AlphaFold2凭借极高的蛋白质结构预测准确性,彻底改变了结构生物学。然而,其实现方式缺乏训练新模型所需的代码和数据。这些对于解决新任务(如蛋白质-配体复合物结构预测)、研究模型的学习过程以及评估模型在未见过的折叠空间区域的泛化能力都是必要的。在此,作者介绍了OpenFold,这是一种快速、高效且可训练的AlphaFold2实现。作者从零开始训练OpenFold,达到了与AlphaFold2相同的准确性。在此基础上,作者发现OpenFold在泛化能力上表现出色,即使训练集的规模和多样性被刻意限制,包括几乎完全排除某些二级结构元素类别的情况。通过分析训练过程中产生的中间结构,作者还获得了OpenFold在折叠学习过程中层次化方式的见解。总之,作者的研究展示了OpenFold的强大和实用性,并相信其将成为蛋白质建模领域的重要资源。
DrugAI
2024-06-06
1490
Nat. Comput. Sci. | MISATO:蛋白质-配体复合物的机器学习数据集用于基于结构的药物发现
今天为大家介绍的是来自Grzegorz M. Popowicz团队的一篇论文。LLM极大地增强了人们理解生物学和化学的能力,但基于结构的药物发现、量子化学和结构生物学的健全方法仍然稀缺。对于大型语言模型来说,精确的生物分子-配体相互作用数据集是迫切需要的。为了解决这个问题,作者提出了MISATO,一个结合了小分子的量子力学性质和大约20,000个实验蛋白质-配体复合物的分子动力学模拟的数据集,并对实验数据进行了广泛验证。从现有的实验结构出发,使用半经验量子力学系统地优化这些结构。数据集中包含了大量蛋白质-配体复合物在显式水中的分子动力学轨迹,累计超过170微秒。作者提供了机器学习基线模型的示例,证明了使用作者的数据可以提高准确性。数据集可通过https://github.com/t7morgen/misato-dataset获得。
DrugAI
2024-06-05
1310
InstructPLM: 对齐蛋白质语言模型以遵循蛋白结构指令
今天为大家介绍的是来自之江实验室、浙江大学、南京师范大学、香港中文大学、清华大学、阿里巴巴团队的一篇论文。大型语言模型以其在捕捉复杂模式(包括共同进化关系和潜在的蛋白质语言)方面的有效性而著称。然而,当前的方法通常难以展示基因组插入、复制和插入/缺失(indels)的出现,而这些因素占人类致病性突变的约14%。鉴于结构决定功能,结构相似的突变蛋白更有可能在生物进化中保存下来。受此启发,作者利用受大型语言模型启发的跨模态对齐(cross-modality alignment)和指令微调(instruct fine-tuning)技术,将生成式蛋白质语言模型与蛋白质结构指令对齐。具体而言,我们提出了一种生成可变长度和多样化蛋白质的方法,以探索和模拟生命的复杂进化,从而扩大蛋白质工程的选择范围。作者提出的基于蛋白质语言模型的方法InstructPLM在计算机模拟和实验中都表现出显著的性能提升。在天然蛋白质主链上,它实现了2.68的困惑度(perplexity)和57.51的序列恢复率(sequence recovery rate),分别比ProteinMPNN高39.2%和25.1%。此外,作者通过重新设计PETase和L-MDH验证了模型的有效性。对于PETase,所有设计的15个可变长度的PETase都表现出解聚活性,其中11个超过了野生型的活性水平。对于L-MDH,一种缺乏实验确定结构的酶,InstructPLM能够设计出具有AF2预测结构的功能性酶。InstructPLM的代码和模型权重都公开在https://github.com/Eikor/InstructPLM。
DrugAI
2024-06-04
1010
J. Chem. Inf. Model. | 基于物理信息的类药物分子构象生成模型
今天为大家介绍的是来自David C. Williams团队的一篇论文。作者提出了一种基于扩散的构象生成器模型。该模型侧重于化学键结构的再现,并从传统的经典力场中选取相关术语进行构建,以确保物理相关的表征。作者利用深度学习技术从训练集中推断原子类型和几何参数,通过利用基于扩散的生成技术的最新进展,实现构象采样。通过在大规模、多样化的类药分子合成数据集上进行训练,这些分子使用半经验的GFN2-xTB方法进行优化,达到了较高的键合参数精度,超过了传统的基于知识的方法。结果也与蛋白质数据库和剑桥结构数据库中的实验结构进行了比较。
DrugAI
2024-06-04
780
大语言模型是语境中的分子学习者
今天为介绍一篇来自于香港理工大学,上海交通大学和上海人工智能实验室的文章,也是MolReGPT[1]的续作。
DrugAI
2024-06-04
910
Nat. Commun. | 多靶标化合物的从头设计
今天为大家介绍的是来自Trey Ideker团队的一篇论文。多靶点药物——抑制多种蛋白的化合物——具有多种应用,但设计难度大。为了应对这一挑战,作者开发了POLYGON,这是一种基于生成性强化学习的多靶点药物研发方法。POLYGON嵌入化学空间,并迭代抽样以生成新的分子结构;这些结构根据预测的抑制两种蛋白靶点的能力、药物样性和合成容易性得到奖励。在超过100,000种化合物的结合数据中,POLYGON以82.5%的准确率正确识别多靶点相互作用。作者随后针对十对具有记录的共依赖蛋白生成了新化合物。对接分析表明,顶级结构以低自由能和与经典单蛋白抑制剂相似的三维取向结合其两个靶标。作者合成了32种针对MEK1和mTOR的化合物,大多数在1-10μM剂量下对每种蛋白活性和细胞存活率的降低都超过50%。这些结果支持了生成模型用于多靶点药物开发的潜力。
DrugAI
2024-06-04
960
Nucleic Acids Res. | ChemFH:一个用于过滤潜在泛实验干扰假阳性化合物的综合工具
药物开发通常是一个耗时且昂贵的过程。为了提高效率,高通量筛选(HTS)和虚拟筛选(VS)技术被广泛应用。然而,HTS仅能识别出筛选数据库中的0.01%至0.1%的真阳性化合物,而超过95%的阳性结果可能是假阳性。这些假阳性化合物被称为频繁命中化合物(FH),常见的假阳性干扰包括胶体聚集、光谱干扰和易反应化学性质等。针对这些挑战,中南大学湘雅药学院的曹东升教授课题组与湖南大学曾湘祥教授、以及香港浸会大学的吕爱平教授在Nucleic Acids Research上发表了题为“ChemFH: An Integrated Tool for Screening Frequent False Positives in Chemical Biology and Drug Discovery”的文章。该研究提出了ChemFH,一款全面预测和筛选各类潜在FH的在线平台,有助于提高药物发现效率。平台地址:https://chemfh.scbdd.com/。
DrugAI
2024-06-04
1160
点击加载更多
社区活动
AI代码助手快速上手训练营
鹅厂大牛带你玩转AI智能结对编程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档