使用深度学习方法增强计算蛋白质设计成功率10倍
理解治疗癌症、新冠肺炎等疾病的关键蛋白质非常简单,就是确定它们的化学结构,找出哪些其他蛋白质可以与它们结合。但是这里有一个问题。
华盛顿大学蛋白质设计研究所和霍华德·休斯医学研究所的研究科学家Brian Coventry表示:“蛋白质的搜索空间是巨大的。”
他们实验室研究的一个典型蛋白质由65个氨基酸组成,在每个位置上有20种氨基酸选择,所以可能的结合组合达到65的20次方,这个数字比估计的宇宙原子总数还要大。
Coventry是发表在《自然通讯》杂志2023年5月刊的一项研究的共同作者。
研究中,他们的团队使用深度学习方法增强现有的基于物理模型的“de novo”或从头计算蛋白质设计,使设计的蛋白质与目标蛋白质结合的成功率验证实验室增长了10倍。
合著者Nathaniel Bennett表示:“我们展示了通过融入深度学习方法来评估氢键形成或来自疏水性相互作用的界面质量,可以显著改进流水线。”
深度学习使用计算机算法分析和推断数据模式,层层算法可逐步从原始输入中提取更高级的特征。在该研究中,深度学习方法用于学习蛋白质序列和可能结构的迭代转换表示,可快速收敛到非常准确的模型。
作者开发的增强的de novo蛋白质结合体设计方案包括机器学习软件AlphaFold 2和RoseTTA折叠。
合著者、蛋白质设计研究所主任、霍华德·休斯医学研究所研究员David Baker被授予在TACC的弗龙特拉超级计算机的通行权,用于并行计算。
研究问题非常适合在弗龙特拉上并行化,因为蛋白质设计轨迹之间相互独立。他们将设计分成200多万份,在弗龙特拉的大规模计算资源上并行运行。
作者使用RifDock码头程序生成600万个蛋白质相互作用,将它们分成约10万个块,分配给弗龙特拉上的8000多个计算节点,每个节点负责1万个蛋白质的计算。
尽管研究结果显示设计的结构与目标蛋白质的结合成功率提高了10倍,但距离理想状态还很遥远。Coventry表示,未来的研究是要进一步提高成功率,面向病毒和癌症T细胞受体等更难的目标。改进途径在于优化软件工具,或采样更多样本。
Coventry说:“我们能找到的计算机越大,我们就能设计出越好的蛋白质。我们正在构建制造未来抗癌药物的工具。我们正在使这一药物设计过程变得更好。”
Bennett, N. R., et al. (2023) Improving de novo protein binder design with deep learning. Nature Communications. doi.org/10.1038/s41467-023-38328-5.
转自:“PaperRSS”微信公众号
如有侵权,请联系本站删除!