首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >MusicMol: 让分子「可听」、让音乐「可合成」——浙大团队提出分子-音乐双向翻译框架

MusicMol: 让分子「可听」、让音乐「可合成」——浙大团队提出分子-音乐双向翻译框架

作者头像
DrugOne
发布2026-07-03 17:45:44
发布2026-07-03 17:45:44
160
举报
文章被收录于专栏:DrugOneDrugOne

浙江大学药学院申万祥团队提出MusicMol,一个将小分子与符号音乐(MIDI)双向关联的生成框架。在分子→音乐方向,基于条件流匹配的生成器将分子结构映射为MIDI,并通过邻域对齐损失确保结构相似的分子产生声学相似的乐谱;在音乐→分子方向,Transformer解码器将符号音乐翻译为化学有效的SELFIES分子字符串。在MoleculeACE 30个活性预测任务上,MusicMol的音乐衍生表征优于ChemBERTa、GROVER、ImageMol和Uni-Mol四种主流分子编码器。

性能概览

在MoleculeACE基准的30个分子活性预测任务上,MusicMol的音乐衍生piano-roll表征作为冻结特征,配合Ridge回归探针,在Spearman相关系数、R²和RMSE三项指标上优于四种覆盖不同模态的预训练分子编码器(ChemBERTa、GROVER、ImageMol、Uni-Mol),配对双侧t检验P值范围为9.4×10-7至9.9×10-15。

特别值得注意的是:MusicMol在k=5到k=100的所有邻域尺度上,局部标签不一致性指数(LII)均为最低,且在较小邻域(k=5, 10, 20)时优势最为显著——这正是与activity cliff行为最相关的尺度。

图1:对音乐衍生分子表征进行基准测试。

为什么需要MusicMol?——问题与动机

分子表征的感知局限

药物设计中的分子表征——SMILES/SELFIES字符串、分子拓扑图、2D图像、3D坐标——精确而高效,但它们有一个共同的局限:感知不透明。没有一种现有表征可以被听到,也没有一种表征能让非专业人员通过直觉来探索分子空间。

这种感知不透明性带来两个问题:一是分子设计的门槛高,需要化学信息学的专业训练;二是人类无法通过听觉等感官通道来探索分子空间,限制了跨学科协作和科普教育的可能性。

化学-音乐交叉研究的两个缺口

符号音乐提供了一种截然不同的结构化表示:音高、步进、时值、力度都是离散的、机器可读的事件,同时又能被人类直接感知。此前的化学-音乐交叉研究主要集中在教育可听化(Kumbar et al., 2007)、蛋白质-音乐映射(Yu et al., 2019, ACS Nano)和分子可听化(Mahjour et al., 2023, Digital Discovery)等方向。

这些工作证明了化学与音乐之间存在可映射的结构关系,但也存在两个关键缺口:

  • 缺口一:没有显式地对齐分子相似性邻域与音乐相似性邻域,生成的音乐缺乏化学组织性
  • 缺口二:音乐从未被系统地用作分子生成的输入模态,「音乐→分子」的反向翻译几乎未被探索

MusicMol同时填补了这两个空白。

图2:MusicMol框架总览——S2M(分子→音乐)与M2S(音乐→分子)形成闭环。

核心技术创新

创新点1:邻域对齐的分子-音乐映射(S2M)

S2M路线在200万ChEMBL化合物上训练了一个条件流匹配(Conditional Flow Matching)生成器。每个重原子由四层残差MPNN编码为256维上下文向量,然后通过流匹配从高斯噪声出发,逐步输运到四维音符参数(音高、步进、时值、力度)。

图3:邻域对齐的S2M生成路径。

ChemMusicRule规则热启动:为流匹配提供化学拓扑感知的初始目标——音高由BFS深度决定形成拱形旋律轮廓,步进由环大小和分支模式决定,力度与结构重要性挂钩(环连接点>分支点>末端原子)。

核化邻域对齐损失:这是MusicMol最核心的设计。通过softmax核将ECFP4分子指纹距离和soft piano-roll音乐距离转化为邻域概率分布,用KL散度对齐分布,同时用排序保持损失确保最近分子邻域在音乐空间中也保持更近。

训练结果显示,验证损失达到0.129(epoch 99),分子-音乐距离Pearson相关系数达到约0.90。

图4:S2M训练动力学——总损失、邻域对齐损失、分子-音乐距离相关性随epoch的变化。

创新点2:音乐到分子的Transformer解码(M2S)

由于实验性的分子-音乐配对数据不存在,团队用S2M对1000万个PubChem分子批量生成乐谱,构建了大规模分子-MIDI配对数据集。

M2S使用REMI/BPE编码器-解码器Transformer(6+6层,d_model=512,8头注意力),将音乐token序列(30,000词汇)自回归翻译为SELFIES分子字符串。SELFIES的语法保证确保每个生成的序列都对应化学有效的分子。

在验证集上,M2S取得了token级别准确率>95%、分子有效性接近100%的表现。SELFIES精确匹配约50%——考虑到音乐到分子的映射本身是ill-posed问题(同一段音乐可对应多种合理分子),且训练数据完全由S2M生成,这一结果是合理的。

图5:M2S解码通路。

创新点3:预训练-下游任务的形式一致性

MusicMol的S2M和M2S通过共享的符号音乐表示形成闭环:

  • S2M生成的乐谱、用户弹奏的旋律、外部MIDI文件,都通过同一个REMI tokenizer进入M2S编码器
  • 预训练(S2M在ChEMBL上)与下游应用(M2S分子生成)共享同一音乐表示空间
  • 这种形式一致性消除了模态转换的gap。

实验亮点——表征评估与交互部署

  • 音乐表征vs.四大基线

图6:MusicMol与ChemBERTa / GROVER / ImageMol / Uni-Mol 的基线模型对比表。

  • 实验设置

MoleculeACE 30个活性预测任务,冻结编码器+Ridge回归探针,Ridge正则化通过验证MSE在25个对数间隔值中选择。所有编码器不做微调。

  • 核心发现

- MusicMol在Spearman、R²、RMSE上优于所有基线,P值范围为9.4×10-7至9.9×10-15

- LII在k=5到k=100的所有尺度上均为最低,小邻域优势更显著

- 改进跨30个assay靶点一致,非由少数数据集驱动

  • 交互部署:浙大未来学习中心

MusicMol已部署为浙江大学未来学习中心的现场交互装置,集成了分子渲染、乐谱生成、钢琴播放和实时输入。用户可选择预设分子即时听化、绘制自定义结构(同步3D预览),或弹奏旋律生成分子候选物。

图7:MusicMol交互平台部署实景——(a)物理部署(b)分子→音乐界面(c)自定义分子输入(d)音乐→分子界面。

这种设计对分子设计的民主化具有启示意义:无需化学信息学背景,任何人都可以通过听觉和创作来探索分子空间。

局限与展望

团队指出了当前工作的几个关键局限:

  • 表征评估限于MoleculeACE冻结探针,需在更多任务上验证。
  • M2S训练数据由S2M生成而非自然配对,在外部音乐上的行为需系统研究。
  • 当前模型未优化可合成性、类药性、新颖性、多样性和靶点特异性活性。

未来方向包括:探索音乐属性(节奏、和声、调性、情感效价)是否诱导可重现的分子分布偏好;将M2S与靶点活性预测、对接打分、药效团约束耦合,实现音乐条件下的靶向分子设计等。

参考资料

Jiayi Tang, Ziyan Zhu, Chao Cui, et al. MusicMol: Bidirectional Molecule–Music Translation via Neighborhood-Aligned Generation and Transformer Decoding. ChemRxiv. 25 June 2026. DOI: https://doi.org/10.26434/chemrxiv.15005189/v1

代码

https://github.com/shenwxlab/MusicMol/tree/musicmol-v1

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-07-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 DrugAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档