DRUGAI
本研究提出了一种基于大型语言模型(LLM)的方法,用于在数据稀缺环境下预测聚合物性质。由于实验数据昂贵且有限,研究人员构建了一种物理引导的训练框架,通过生成合成数据对LLM进行预训练,并在少量实验数据上进行微调。该方法以火灾燃烧实验(锥形量热计测试)为案例,展示了两阶段训练策略如何提高模型准确性。实验结果表明,相较于传统LLM,本方法在点火时间(tig)和峰值热释放率(pHRR)预测上分别提高了51.1% 和 45.8% 的准确度。
研究背景
现有LLM在材料建模领域的应用受限于数据稀缺问题。传统的监督学习方法难以处理有限标签数据,尤其是在聚合物性质预测任务中。近年来,研究者们尝试使用注意力机制和化学语言模型(如SMILES)来表示分子结构,从而提升聚合物性能预测能力。然而,由于聚合物的化学空间庞大且实验测量数据受限,直接在小样本上微调LLM容易导致过拟合。因此,研究者需要一种能够有效利用少量实验数据的高效训练方法。
方法
为了克服数据稀缺问题,本研究提出了一种基于物理建模的合成数据生成与LLM训练策略。研究人员采用群贡献法(Group Contribution) 生成结构有效且物理上合理的假想聚合物,并计算其基本物理性质,如燃烧热、比热、碳残留率等。这些数据可用于LLM的预训练,使其学习聚合物的物理规则。此外,研究人员利用火灾动力学模拟器(FDS) 模拟锥形量热计实验,生成点火时间与峰值热释放率的合成数据,进一步丰富训练样本。
两阶段训练策略
本研究提出了一种两阶段训练策略,以提高LLM在数据稀缺环境下的预测能力。第一阶段为监督预训练,采用基于物理建模的合成数据对LLM进行预训练,使其学习聚合物的物理特性。在此过程中,研究人员对MoLFormer模型进行调整,使其能够分类可燃与不可燃聚合物,并在物理规则的约束下优化其参数。第二阶段为实验数据微调,利用有限的真实实验数据(45个样本)进一步微调LLM,提高预测精度。在微调过程中,研究人员采用相对均方误差(MSE)作为损失函数,以增强对低可燃性聚合物的学习能力。
实验结果
实验结果表明,该方法显著提升了LLM在点火时间(tig)和峰值热释放率(pHRR)预测上的准确性。相较于传统的MoLFormer、polyBERT和TransPolymer模型,研究人员的物理引导LLM在tig 预测上提高了51.1%,在pHRR 预测上提高了45.8%。此外,由于第一阶段的物理预训练提供了良好的物理先验,模型在小样本环境下的泛化能力显著提升,表现出比传统LLM更稳定的预测效果。
讨论
该方法可推广至其他聚合物性能预测任务,如机械性能、热稳定性等。除了火灾燃烧特性,本研究提出的物理引导预训练策略还可以用于预测其他物理化学性质,如聚合物的玻璃化转变温度、粘度、弹性模量等。此外,未来的研究可以探索更复杂的网络聚合物,并扩展物理建模方法(如有限元模拟)以支持更多材料建模任务。同时,本研究还揭示了在机器学习模型中结合物理知识的潜力,表明物理驱动的合成数据生成可以在小样本条件下提高模型的预测性能。
整理 | WJM
参考资料
Liu, N., Jafarzadeh, S., Lattimer, B.Y. et al. Harnessing large language models for data-scarce learning of polymer properties. Nat Comput Sci (2025).
https://doi.org/10.1038/s43588-025-00768-y