浙江大学药学院侯廷军团队JCIM | 减少多目标分子生成中活性数据的依赖
2023/7/5 10:27:45 阅读:47 发布者:
英文原题:
Molecular Generation with Reduced Labeling through Constraint Architecture
通讯作者: 侯廷军, 浙江大学;Chang-Yu Hsieh, Xi Chen, 武汉大学
作者:Jike Wang, Yundian Zeng, Huiyong Sun, Junmei Wang, Xiaorui Wang, Ruofan Jin, Mingyang Wang, Xujun Zhang, Dongsheng Cao, Xi Chen*, Chang-Yu Hsieh*, and Tingjun Hou*
背景介绍
在全新药物设计领域,生成具有特定性质的分子一直以来是大家关注的焦点。为了解决这个问题,近年来提出了许多多目标分子生成方法,然而它们很少被应用到实际药物研发中,其中一个重要原因是这些方法严重依赖分子的活性标签数据。在现实药物设计过程中,一般需要通过昂贵的化学和生物学实验确保分子活性标签的准确性。
文章亮点
2023年5月15日,浙江大学药学院侯廷军教授团队在化学信息学和人工智能研究领域的国际权威学术期刊Journal of Chemical Information and Modeling (JCIM) 上发表了题为“Molecular Generation with Reduced Labeling through Constraint Architecture”的研究论文,将分子生成中活性标记标签数量作为多目标分子生成效率的评估标准,并提出了一种基于分子片段的多目标分子生成方法Frag-M/G,相比于现有方法,该方法提升了多目标分子生成效率,减少了活性标签数据的使用。这一发现对分子生成在药物发现场景中的实际应用具有重要的意义。
Frag-M的工作流程如下图所示。首先,使用条件Transformer解码器(A)来训练条件生成模型,将条件设置为一些易于计算的分子性质,例如QED与SA。随后使用经过训练的条件生成模型生成一百万个具有高QED和低SA的分子。将生成的分子片段化(B)之后,使用基于片段的分子生成模型进行训练(C),最后使用RL微调基于片段分子生成模型以生成所需的分子(D)。作为比较,研究还构建了名为Frag-G的模型,相比于Frag-M,Frag-G没有使用A模块,而是直接将数据集中的分子进行片段化。
为了评估模型生成多种性质的分子的效率,作者分析了使用活性标签的数量与生成成功分子之间的关系。如下图左所示,在DRD2、QED与SA任务中,当RL微调开始时,所有方法都很难找到成功分子,但是随着RL微调的进行,每种方法中成功分子的数量不断增加。总体而言,Frag-G生成成功分子的效率明显领先于其他模型,这意味着该方法可以在相同数量的标记下生成更多的成功分子。随着RL步数的增加,Frag-M生成的成功分子增加得更快(斜率高于Frag-G),表明随着RL步数的持续增加,Frag-M产生的成功分子的数量最终将超过Frag-G,其他模型生成的成功分子远远少于Frag-M/G。在JNK3和GSK3β、QED与SA任务(下图右)中,Frag-M也优于其他模型。综上所述,与现有对比模型相比,本文提出的模型在生成成功分子的效率方面有着明显的优势。
随后作者评测了模型生成分子的质量。如下表中所示,在DRD、QED与SA任务中,semi-MCMG在Novel和Div上表现最佳,其次是Frag-G与Frag-M,并且明显优于采用与Frag-G/M相同的RL策略的REINVENT。此外,Frag-M在Unique、SNN和IntDiv指标有着最佳表现。在JNK3和GSK3β、QED与SA任务中,Frag-M在Div、Unique、SNN和IntDiv指标中也取得了最佳表现,而使用上述其他RL策略的ReLeaSE在Unique中表现不佳,表明它在RL微调过程中生成了许多重复的分子。以上结果表明,Frag-M/G不仅提升了生成效率,减少了标签的使用数量,并且在评价指标上表现优异。同时,Frag-G与Frag-M生成的分子是百分百有效的,因为合理的片段通过化学键连接在一起,不会生成不合理的分子。
Frag-G/M在保证生成分子多样性的前提下,降低了分子生成中的活性标签数据的使用数量,为分子生成在药物发现场景中的实际应用提供了新的方法。
转自:“ACS美国化学会”微信公众号
如有侵权,请联系本站删除!