投稿问答最小化  关闭

万维书刊APP下载

Science Advances:利用深度生成基础模型加速药物靶标抑制剂的发现

2023/7/20 16:16:47  阅读:34 发布者:

原文题目:Accelerating drug target inhibitor discovery with a deep generative foundation model

通讯作者:PAYEL DAS

隶属单位:IBM 研究院

DOI10.1126/sciadv.adg7865

药物靶蛋白抑制剂的发现已经大大推进了众多计算机方法的综合力量。然而,即使是最有效的方法也面临着广泛的挑战,这些挑战同时是一般逆分子设计任务所固有的,并且特定于生物靶标 - 配体结合化学。其中第一个问题涉及正在探索的化学空间的广阔性及其对现有方法的通量和实际效用的影响。例如,使用对接或分子模拟方法筛选量级为108109市售化合物将产生过高的计算成本,估计每个靶标达到10个中央处理器(CPU)年(38年)(而不是在本研究中通过对接筛选不到一千个机器设计的从头候选药物)。

第二个挑战是关键信息的可用性:虽然药效团建模、分子对接和模拟等方法已成功用于分子的虚拟筛选或设计,但这些方法通常依赖于从与候选化合物或片段命中结合的靶蛋白的可用晶体结构中获得的初始设计构建体。例如,Glaab等人报告了计算筛选M的实验验证。亲抑制剂:在体外测试的95种候选药物中,有2种显示IC50值小于 50 μM。各种不同的计算方法被用于筛选:(i)搜索已知M的最近邻居。亲抑制剂,(二)M亲使用分子对接和分子模拟进行基于结构的筛选,以及 (iii) 使用在现有 M 上训练的机器学习模型进行结合预测亲粘合剂和非粘合剂。这种与已知抑制剂结合的结构知识不能保证适用于所有感兴趣的药物靶标,并且可能需要数月才能通过实验得出,因此,这些方法不能广泛适用于靶标结构或抑制剂未知的情况。最近,结构生物学领域已经通过基于深度学习的方法来预测蛋白质的序列的三维结构。虽然它们以惊人的准确性预测结构,但从神经网络导出的结构模型在帮助理解天然蛋白质功能方面仍然相对有限,特别是理解与蛋白质伴侣或小配体的相互作用。因此,功能配体和药物相互作用的推导仍然主要依赖于资源密集型实验(生物)化学技术,例如测定、结构测定和合成。

一般来说,对特权信息(靶蛋白结构和/或已知命中)的依赖将发现空间限制在已知化学实体的附近。因此,这种依赖性提出了实际挑战,以扩大可进入的化学勘探空间,并为多个靶标设计更容易推广的抑制剂方法,其结构和粘合剂可能尚不清楚。

以前的生成机器学习模型已经对从头设计的分子进行实验验证,主要是在靶标特异性配体库上进行训练或微调的。这项工作为替代发现范式奠定了基础,其中生成模型用于以自动化方式发现以前未鉴定的不同蛋白质靶标的抑制剂命中。据我们所知,这是单一生成模型的首次经过验证的演示,该模型仅基于模型推理期间使用的蛋白质序列,能够成功有效地发现两种非常不同的靶蛋白的类药物抑制剂分子。以前未鉴定的、药物样的、靶标特异性抑制剂分子的生成是自动化的,因为该方法对学习的抽象分子表示空间执行属性控制采样,并且不依赖于使用繁琐的基于规则的片段设计的生成的化合物的虚拟筛选[例如,如Morris等人。此外,据我们所知,早期的研究都没有考虑具有挑战性但高度实用的场景,即并行设计和实验验证几个不同靶标的抑制剂,而不使用靶标结合剂信息,这类似于相对未知的靶标的情况。此外,据我们所知,对于人工智能设计的、以前未鉴定的抑制剂,尚未以这种规模报告人工智能生成的逆合成途径预测对湿实验室化合物生产的评估。从实际和预测的合成途径之间的比较中学习可以帮助AI模型更准确并提供更好的覆盖范围。

由于测序的最新进展,以前未识别的药物靶标的序列信息通常比其详细的结构信息快得多(几天而不是几个月)。靶配体相互作用的结构推导需要更长的时间。相比之下,我们花了不到一周的时间就设计和优先考虑了要在湿实验室中合成和测试的两个SARS-CoV-2靶标的候选分子集,因为我们的方法没有回复靶标结构或结合剂信息。有关 SARS-CoV-2 序列的信息从 2020 19 月左右开始公开,CogMol 设计的候选药物于 2020 2020 月在 IBM COVID-2020 分子探索平台中开源。虽然优先的从头化合物是在 <> <> 月订购的,但第一轮湿实验室验证于 <> <> 月完成。当世界正在经历大流行时,在两个不同的药物靶点中发现以前未识别的药物样抑制剂的这种快速步伐表明,基于序列引导的生成机器学习框架的潜力,可以帮助更好地做好大流行准备和其他全球紧急情况。

对于两个靶标,这里发现的抑制剂发现的总体成功率为50%,每个靶标只需要合成和筛选四种化合物。此外,三种商业来源的化合物中的一种也显示出M亲抑制。该结果显示了所提出的方法的前景,特别是与通常使用高通量筛选获得的<10%命中发现相比。此外,根据与现有化学物质和SARS-CoV-2抑制剂的分子相似性分析,本研究中报告的经过验证的从头抑制剂似乎是不同的,这表明生成框架具有很大的创造力,这在筛选已知化合物时是不可能的。这些化合物还满足药物相似性和生物利用度的标准。这里实现的抑制剂发现的效率以及对明显不同靶标的推广性,主张对大量通用数据进行预训练,例如化学SMILES,蛋白质序列和蛋白质 - 配体结合亲和力。从概念上讲,这是所谓的基础模型的关键特征,这些模型在广泛的数据上进行大规模训练,可以很容易地适应许多任务。这种观点也与最近的工作一致,在捕获基本属性方面建立了在大量蛋白质序列上训练的深度语言模型的信息性质。因此,这里报告的框架验证满足基础模型的普遍接受标准,从某种意义上说,它是在广泛的未标记数据上训练的,没有对特定目标的特定偏见,并且适用于一般靶标特异性抑制剂发现问题。观察到的最强峰值命中对SARS-CoV-2挥发性有机化合物的广谱功效是该模型基础方面的另一个例子:在训练或推理期间,VOC序列从未提供给生成框架。此外,据我们所知,这是以前未鉴定的基于尖峰的非共价抑制剂的第一份报告,该抑制剂表现出广谱抗病毒活性。这与治疗性单克隆抗体(mAb)形成鲜明对比,mAb是目前唯一使用的靶向刺突蛋白的药物,其中很少有对VOC有效。虽然由于逃避抗体中和的压力,尖峰的变异性是显而易见的,但小分子药物的广泛使用也将施加强大的压力 - 例如对第一代抗HIV-1药物的耐药性的快速发展。选择可能被保留以维持生物学功能的结合位点,就像RBD脂质口袋的情况一样,可能是我们在药物发现的早期阶段所能做的最好的事情,以建立一些弹性。

总之,这里介绍的结果建立了生成机器智能基础模型的效率、通用性、可扩展性和就绪性,用于针对现有和新兴靶标快速发现抑制剂。这种框架,特别是与自主合成规划和机器人合成和测试相结合,可以通过实现更有效和精确的抗病毒设计来进一步加强对新型大流行的准备,从而为更好的治疗方法指明道路。CogMol 用于精确控制生成分子属性的机制的通用性和效率,通过在事后将属性预测因子插入学习的化学表示,使其适用于推进分子和材料发现的更广泛应用。例如,类似的框架已经以数据高效的方式实现了以前未识别的光酸发生器分子设计,以实现高性能和可持续的半导体制造,这已得到主题专家(SME)的验证。

提高机器智能框架的发现能力仍有很大的空间。例如,结合口袋的3D结构信息的掺入(如果可用)可以与序列信息一起用于编码目标,或者组成结合口袋的残基的编码可用于指导粘合剂分子设计。然而,值得注意的是,通过靶序列信息引导结合剂生成开辟了其他探索途径,例如设计调节剂或设计通过不同机制起作用的抑制剂。例如,对接和MD仿真表明,实验验证了M亲抑制剂是直立的,而尖峰抑制剂本质上是变构的。具体而言,已经确定脂质结合通过变构机制抑制,即将RBD抑制到它们不能与ACE2受体结合的构象。这些世代可能进一步受到次要性质(例如,溶解度,氢键供体/受体位点的数量和结构多样性)的限制,这是进一步工作的潜在方向。可以采用基于实验反馈的迭代优化方法来改进初始发现。可以探索主动学习范式以提高过程效率。

我们想强调的是,抑制剂设计或后续优化的成功取决于抑制效力预测因子的指导,因此取决于抑制效力预测因子的准确性。在本研究中,预测因子在 IC 上训练50绑定数据库数据库中报告的值。值得注意的是,随着药物靶标与数据库中涵盖的靶点不同,如本例中的尖峰RBDAI预测因子的置信度自然会降低。此外,BindingDB数据库的数据集偏向于微摩尔水平抑制剂,如报告的pIC的平均值(6.34)和SD1.46)所示。50值,这些值将传递到在此数据库上训练的关联性预测器。进一步证实这一点的是,只有14.2%的报告IC50我们训练集中的值在 <0.01 μM 范围内,而 81.14% 的值在 0.01 100 μM 的范围内。

这项概念验证研究验证了从 100 个顶级 AI 设计中选择的少量化合物,这些化合物是根据几个因素选择的,例如大流行期间合成所需的成本和人力,以及反应物的现成可用性。未选择进行最终验证的化合物可能具有类似或更好的抑制潜力,因此需要进行进一步的大规模研究,这超出了概念验证研究的范围。未来的工作还将考虑研究训练生成模型对更广泛数据的影响,例如,最近发表的MoLFormer模型中使用的数据,以探索抑制剂景观中以前未探索的区域(具有非典型支架的分子)。

还应该强调的是,这项概念验证研究不包括对所发现分子的其他相关属性(例如ADME特性)的实验验证,这超出了这项工作的范围。需要进一步的研究来确认拟议的抑制剂与SARS-CoV-2靶标的结合机制。尽管如此,我们相信,当与药物化学方法和人类专家监督相结合时,这里报道的从头化合物以及框架可能会成为一类独特而有趣的广谱抗病毒药物的灵感。

DOI10.1126/sciadv.adg7865

转自:“生物医学科研之家”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com