投稿问答最小化  关闭

万维书刊APP下载

接力AlphaFold,星药科技发布TBind,开启分子蛋白复合物结构预测新纪元

2022/8/5 9:26:31  阅读:340 发布者:

2018年、2020年的两代 AlphaFold 的横空出世后,蛋白质结构预测已经接近实验精度,为计算赋能药物研发领域打下了坚实基础。在药物研发漫长的研发环节中,分子与蛋白质的相互作用预测是下一个计算赋能药物研发领域的“圣杯”。

近日,星药科技在预印本平台 bioRxiv 发表了题为:Trigonometry Aware Neural NetworK for Drug-Protein Binding Structure Prediction 的研究论文。该模型是全球首个能同时预测小分子和靶蛋白三维结合构象和结合亲和力的深度表征学习框架,大幅超越现存方法的最好结果TBind 采用端到端的数据驱动范式,结合物理启发式的几何图神经网络,打通了复合物三维结合模式及结合强度的双重预测,实现了对国际商业分子对接软件精度和效率的双超越,为分子蛋白相互作用预测提供了国产首个突破性方案。继 AlphaFold 之后, 将计算驱动的药物研发带入新的纪元。

药物发现是一项极具挑战性的任务。在庞大的化学空间(约10^60个类药物分子)中,只有一小部分能与特定的生物靶点结合并产生治疗效果。目前的药物一般以蛋白质作为靶分子,通过设计与它相互作用的化合物小分子来治疗疾病。因此,发现能与蛋白质分子相互作用的小分子化合物并阐明其与靶蛋白的结合模式对于新药研发至关重要。

目前,小分子和蛋白质的结合模式很大程度上是通过使用实验和计算方法实现的,这些方法可以帮助了解小分子配体和其靶蛋白之间的关键相互作用,以指导分子的优化,达到期望的效力和选择性。常见的实验方法如X射线衍射、核磁共振晶体学,以及最近的冷冻电镜EM等技术已经产生了数以万计的小分子-蛋白复合物结构,为阐明药物和蛋白质相互作用的生物学机制打下了坚实的基础。同样,计算方法如分子对接技术,使研究者们能够探索尚未形成共晶结构的新靶标与巨量尚未合成的虚拟化合物之间的相互作用关系,也在小分子-蛋白质结合模式研究上发挥着重要作用。

分子对接软件的现状与发展

分子对接技术有着20年以上的历史,已经成为了基于靶点的药物设计Target-based Drug Discovery, TDD范式中的一部分。对接软件的核心主要有两部分:一是设计力场,对药物-蛋白复合物结构打分。二是设计采样算法,对复合物构象采样。在传统力场设计中,为了保证打分速度,将本质上是一个多体问题的相互作用近似为基于原子对能量的线性累加。近几年在机器学习的加持下,分子对接方法在对多体问题的近似上虽然有了更好的表现,但并没有从根本上改变一直以来基于原子对能量的线性累加打分、再通过构象采样获得最终复合物的流程。这使得分子对接方法的精度和速度都已无法充分满足现代药物设计的需求。

2018年,DeepMind 团队推出的 AlphaFold 首次亮相便在国际蛋白结构预测大赛 CASP13 上以较大优势摘取桂冠;两年后,AlphaFold2 通过精妙的模型设计,使得蛋白质结构预测领域迈出了惊人的一步,达到了与实验精度相近的水平。两代 AlphaFold 通过深度学习方法,几乎解决了蛋白质结构预测这一困扰了科学家们70年的难题。而下一个计算驱动的药物研发领域的“圣杯”,就是横亘在药物研发与蛋白结构之间的关键问题:

是否能通过AI方法准确地预测出小分子和蛋白质的相互作用关系,即两者之间的结合模式及结合强度?

小分子-蛋白结合预测新范式

为了解决上述痛点,赋能新药研发,继四月份与阿斯利康全球研发中心联合发布了基于结构的深度亲和力预测模型STAMP-DPI后,星药科技联合复旦大学、中山大学研究人员,最新发布了基于三体深度神经网络Trigonometry Aware Neural NetworKTBind v1.0.1,专攻小分子配体-蛋白质复合物三维结构预测。不同于传统计算化学方法和近年来兴起的单一亲和力预测模型,TBind采用端到端的数据驱动范式,结合物理启发式的几何图神经网络,打通了复合物三维结合模式及结合强度的双重预测,实现了对商业级分子对接软件精度、速度的双超越,为分子蛋白复合物结构预测提供了首个突破性国产方案。

受启发于AlphaFold2的氨基酸内“Triangle Multiplicative Update”架构,TBind将该模块有机地拓展到小分子和靶蛋白的分子间相互作用中,进行了多处升级,使得模型突破传统分子间力场的限制,有了直接拟合多体效应的能力且并未显著增加模型的复杂性。在分子间的三体神经网络模块基础上,TBind还自主研发了基于对比学习和分而治之思想的蛋白区块化技术,根据蛋白结构功能区实行分别关注,对保守区域进行局部信息提取,在结构数据下实现了隐式数据增强的效果; 研究小组还提出了最大边缘对比性亲和力损失函数max-margin contrastive affinity loss以驱动模型充分利用亲和力信息和全局三维结构信息。对于局部信息和全局信息的权衡极大程度上提高了TBind的精度和泛化性能,使其能够对新颖的蛋白口袋和新型的结合模式做出快速且有效的预测。

TBind模型示意简图。模型的输入为一个蛋白质三维结构和分子三维结构,输出是两者之间的结合模式和结合强度。

摒弃传统采样方法

全面超越行业表现

在行业标准测试集 PDBBind 上,TBind 的性能大幅超过了现存最优的深度学习方法(由MIT Tommi Jaakkola组领衔开发的EQUIBINDICML 2022[1]以及多款国际商业、学术对接软件(包括GLIDE, VINA, SMINA, GINA等)TBind使用2020年以前发表的17787个小分子复合物三维结构进行训练。在对2020年之后发布的142个训练集未见过的新蛋白质形成的复合三维结构预测任务中,TBind LigandRMSD 小于 的比例从约30%提升至56% [2];对于结合中心的预测与真实中心距离小于的比例更是从48%提升至76%

PDBBind新蛋白测试集中,预测结构与真实共晶结构的RMSD小于的比例。TBind显著优于其他模型。

PDBBind新蛋白测试集中,预测配体质心与真实质心距离小于的比例。TBind显著优于其他模型。

由于模型摒弃了繁琐的传统采样方法,利用数据驱动的 AI 势能面进行结构生成,所以在预测和筛选的效率上也得到了大幅度提升,全局对接的任务中每个分子仅需要0.5秒钟,是学术软件 VINA 400分之一,商业软件 GLIDE 2000分之一。

完成一次对接打分的时间。TBind仅需要0.5秒钟完成预测,显著快于传统对接方法。

多场景应用

覆盖正构和别构口袋

1. 局部对接(local docking)任务比较

TDD 常见的场景之一是已知蛋白口袋的情况下利用计算工具进行局部对接以预测新分子和靶蛋白的相互作用关系。在第一个例子中,用于治疗慢性髓性白血病CML的达沙替尼Dasatinib与蛋白ABL1结合结构PDB 7N9G,于20224月公开)GLIDE预测构象与真实结晶构象头尾调换,导致预测结构与真实结构的RMSD差异高达11Å。而 TBind 正确地预测出了分子的构象,与晶体结构的 RMSD 差异仅1.1Å 。第二个例子是20226月刚刚公开的 TRK 蛋白与一个新型 Type-II 型抑制剂相互结合的结构PDB 7XAFGLIDE 的预测结果同样和真实构象有比较大的偏差,而 TBind 和真实结构几乎一致。

2. 全局对接(global docking)任务比较
First-in-Class 的管线项目中,对于新靶蛋白的开发时常会出现结合位点不明确的情况,传统对接方法往往很难判断出正确的结合模式。由于模型使用了蛋白区块化技术,TBind 具备更强的全局预测能力,从而能够更好地捕捉别构口袋的信息。PDB 6K1S 6QRG PDBBind 测试集中的两个代表案例。PRMT5 蛋白拥有多个结合口袋,其新发布的 PDB 共晶结构 6K1S 发现了一个全新结合位点。TBind 虽然从未见过结合该别构口袋的小分子,但是仍然正确的定位到了真实结合的位置。而其他方法则更倾向于常见的正构位点。在第二个案例中,TrmD 蛋白和其配体小分子皆与训练集不同源,TBind 依旧可以正确找到结合位点,而传统分子对接方法无法找到正确的结合口袋[2]

开源版本+商业版本满足不同需求
目前研究团队在 GitHub 发布了免费开源测试版本 TBind v0.5.0,并提供了案例展示

为方便大家快速尝鲜,团队提供了一个简单使用案例,只需要输入蛋白结构和分子序列表达式,即可以进行深度分子对接(详情请见TBind Github) 。
TBind 商业版本 v1.0.1 已经部署于星药科技打造新一代智能计算平台 M1,可在短时间内完成亿级超高通量药物虚拟筛选,赋能苗头化合物发现、先导化合物优化等药物研发多个关键环节。商业合作伙伴请联系m1@galixir.com获取更多使用信息。

泛化TBind能力或可带来更多惊喜

TBind 方法不仅可以应用在小分子和蛋白结合领域,也可以泛化到蛋白复合物结合、核酸蛋白结合等分子间相互作用问题上。星药科技将继续保持创新精神,将 AI 技术与药物实践场景深度结合,不断提升预测精度与速度,支持更多的应用场景。

TBind v1.0.1 的发布,标志着星药科技已具备国际顶尖的小分子蛋白结合预测能力。作为小分子药物设计的关键环节,TBind 已与星药科技的蛋白结构建模算法[3], 分子设计算法[4,5],性质预测算法[6,7],逆合成分析算法[8,9]及智能计算平台 M1 有机结合,配合生物实验平台,形成“AI-计算-实验迭代”三位一体的药物研发新范式。星药科技将继续聚焦能为医药产业带来更多增益的差异化管线,尤其是未成药、难成药靶点开发项目,高效精准预测分子相互作用,拓展传统化学的想象空间,探索更多新颖的药物分子。让世界远离病痛,让新药触手可及。

转自:生物世界

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com