关注殷赋科技,科研计算更简单!
基于片段的药物发现(FBDD)在得到一个或多个有活性的片段后,通常会先通过在企业收集的化合物或者是商业化合物库中寻找相似化合物以探索其构效关系(SAR)。
为了在数百万的化合物中寻找在片段空间(fragment space)中可行的化合物,通常会用到如子结构检索、化学指纹(chemical fingerprint)评估相似性等方法。这些传统的方法常常复杂、耗时且易出错,甚至有可能丢失一些有意思的类似物。据此,本文提出了片段网络(Fragment Network)数据库。不同于一般的数据库,片段网络是一个图形数据库(graph database),相对于基于指纹的相似性方法来说,用这一工具能够通过片段分子去研究SAR,且寻找相似的化合物更快、更直观、覆盖范围更广,更适合于有数百万分子的大数据集。
方法和应用实例
图形数据库由节点(node)和边(edge)组成。作为一种图形数据库,片段网络将不同的片段设为不同的节点,以化合物本身作为第一个节点,通过起始化合物结构上的一些变化,形成不同的新的节点,新的节点则通过边连接到父结点(parent node)上。新的化合物可以依次加入到网络中,根据需要去创建新的节点和边。
图1.在片段网络中检索4-羟基联苯得到的节点和边
研究者将Astex公司注册的、商业供应的以及来自ChEMBL的化合物和蛋白质数据库(Protein Data Bank, PDB)中的配体加入到构建的网络中,形成了含有500万个化合物、2300万个节点和10700万条边的片段网络,并将节点和边储存在Neo4j图形数据库中。
第一步:在片段网络中进行搜索
对搜索的片段库范围进行限制,一般首选本地片段库;
对化合物的变化大小进行限制,默认设定为“medium”。
搜索结果以输入的片段自身为第一个节点,数据库中相似片段为子节点。
第二步:将搜索到的结果进行分组
搜索到的结果会根据片段不同的取代进行分组:
完全匹配;片段减小;片段增大;
原子替换;两次增大和两次减小。
图2.设定“medium”时4-羟基联苯在片段网络中的搜索结果及分组
第三步:排序
将每组片段根据相关性进行组内排序。
相关性的分析是基于包含药物化学应用中合成和测试的化合物的数据库。本研究选用的是ChEMBL数据库。
图3.ChEMBL数据库中前十个最常见的取代基增加
检索结果的分组及组内的排序是片段网络最具有吸引力的功能。药物化学家可以通过检索分组结果迅速看到片段常见的变化同时识别大多数感兴趣的化合物。
文章在最后,又以蛋白激酶B抑制剂和HCV 蛋白酶-解旋酶抑制剂的活性片段筛选为例子,从一个活性片段出发作为第一个节点,利用片段网络,快速、高效的筛选了一批化合物,进一步研究了活性片段的SAR,为先导化合物的构建打下了基础。
总结
片段网络是FBDD过程中命中化合物验证阶段发现类似物的工具,是一种新颖的、高效的研究SAR的方法。片段网络只需要查询用于搜索的化合物的两条边,因此搜索速度更快,且能合并到交互式工作流中。此外,搜索结果直观、化合物的涵盖面广。
尽管片段网络的方法仍存在着一些需要改进的地方,但是这一方法,相对于一般的相似度检索方法来说,可以帮助加快整个药物发现的进程,具有很强的实用性。
参考文献:
Hall R.J,Murray C W,Verdonk M L.The Fragment Network:A Chemistry Recommendation Engine Built Using a Graph Database.[J].Journal of Medicinal Chemistry,2017.
领取专属 10元无门槛券
私享最新 技术干货