「Nature」基于人工智能的全新蛋白质设计

2022/9/28 16:44:08　阅读：212　发布者：

摘要

科学家们正在使用人工智能来设计革命性的全新蛋白质：由于人工智能的巨大进步，它们可以在短短几秒钟内设计出复杂的分子，而在之前，这一过程则需要几个月的时间。

2022年6月，首款基于人工设计蛋白的COVID-19疫苗得到了韩国监管机构的批准，开创了人造蛋白质药物的先河。该疫苗基于一种球形的"纳米颗粒"，由蛋白质组成，是研究人员近十年实验的反复试错所产生的成果「1」。

由西雅图华盛顿大学的生物化学家David Baker领导的团队发表在《科学》「2&3」上报告称，由于人工智能的巨大进步，它们可以在短短几秒钟内设计出复杂的分子，而在之前，这一过程则需要几个月的时间。

人工智能正在帮助科学家们构建自然界中不曾存在的蛋白质 Credit@Ian C Haydon 华盛顿大学蛋白质设计研究所

在生命科学领域，人工智能的崛起是大势所趋的，DeepMind的蛋白质结构预测软件AlphaFold等一系列的人工智能工具受到了生命科学家群体的热烈欢迎。2022年7月，DeepMind透露其最新版本的AlphaFold已经预测了科学界已知的所有蛋白质结构。最近几个月，人工智能领域表现出爆炸性的增长(其中的一些成果是基于AlphaFold的)，新一批的工具可以快速地构思出全新的蛋白质。在此之前，这一直是奢侈的设想而已，失败率极高。

西班牙赫罗纳大学的计算生物学家Noelia Ferruz表示："自AlphaFold发布之后，我们在蛋白质设计领域的工作方式发生了极大转变，这是一个充满变革的时代。"

大多数人工智能研究者的精力都花费在了开发蛋白质设计的工具上，力求工具的产物不同于自然界的任何蛋白，却没有过多地关注这些分子能做什么。不过，越来越多的研究人员以及人工智能驱动的蛋白质设计公司希望能够设计出更为实用的蛋白质，从清理体内毒性物质到治疗疾病：正在逐步实现这一目标的公司包括伦敦的DeepMind和加州的Meta(前身为Facebook)。

"这些人工智能的方法已经非常强大，也将在未来变得更加强大。"Baker说道："需要我们思考的问题是，它们究竟能够被用来解决什么样的问题？"

「从零开始」

在过去的三十年里，Baker的实验室一直在制造新的蛋白质。他们从20世纪90年代以来一直开发的一款名为Rosetta的软件将蛋白质设计分为了几个步骤。首先，研究人员会为新的蛋白质构思一个形状：通常情况下，这一步需要拼凑一些其他蛋白质的碎片，然后软件会推导出与这种形状相对应的氨基酸序列。

不过，这会带来一个问题：在实验室里制备这些蛋白时，它们很少能折叠成所需的形状，而是最终停留在不同的构象中。因此，需要另一个步骤对蛋白质序列加以调整，使其只能折叠成单一的理想结构。曾在Baker实验室工作的哈佛大学进化生物学家Sergey Ovchinnikov表示，这一步骤需要对不同序列的所有可折叠方式进行模拟，在计算的方面来说，成本十分高昂："实际上，这需要10,000台计算机运行数周来得出结果。不过，通过对AlphaFold和其他人工智能程序的调试，这个极为耗时的步骤现在能够被瞬间完成。"

在Baker团队开发的一种被称为"幻化"(Hallucinated)的方法中，研究人员将随机的氨基酸序列输入到结构预测网络中：序列的结构将被改变并逐渐像蛋白质靠拢，这或多或少地和预测的结果相似。在2021年的一篇论文中，Baker的团队在实验室中创造了100多个小型的 "幻化 "蛋白质，并发现有迹象表明大约五分之一与预测的形状相似[4]。

AlphaFold以及Baker实验室开发的类似工具，称为RoseTTAFold，被训练来预测单个蛋白质链的结构。但研究人员很快发现，这种网络也可以为多个相互作用的蛋白质的组合进行建模。在此基础上，贝克和他的团队确信，他们最终会利用"幻化"方法设计出一些蛋白质：它们将能够能够自我组装成不同形状和大小的纳米颗粒：这将由单个蛋白质的许多副本组成，其原理与前文所述的基于人工设计蛋白的COVID-19疫苗类似。

Credit@Nik Spencer/Nature

Source: Adapted from N. Ferruz et al

但是当Baker他们在实验室中尝试引导微生物制备那些蛋白时，150个设计全部都失败了：蛋白质根本没有折叠。

大约在同一时间，该实验室的另一位研究人员，机器学习科学家Justas Dauparas，正在开发一种深度学习工具"ProteinMPNN"，以解决所谓的逆折叠问题，该工具的成品将能够确定与给定蛋白质的整体形状相对应的蛋白质序列[3]。Ovchinnikov认为，这个名为ProteinMPNN的网络可以作为"拼写检查"工具，对利用AlphaFold或其他工具所设计出的蛋白质加以检查，该网络能够在保持分子的整体形状的同时调整序列。

当Baker和他的团队将ProteinMPNN应用于他们的幻化蛋白纳米颗粒时，在实验中制作的分子取得了更大的成功。研究人员使用冷冻电镜等技术检查了他们的30种新蛋白质，其中27种与人工智能主导的设计相匹配[2]。该团队的成果包括具有复杂对称性的巨大环，与自然界中的任何蛋白都不同。共同领导这项工作的生物物理学家Lukas Milles认为，从理论上讲，这种方法可以用来设计与任何对称形状相对应的纳米粒子。"看看这些网络的潜力，真是令人振奋！"

「深度学习革命」

斯德哥尔摩大学的计算生物学家Arne Elofsson说，像ProteinMPNN这样的深度学习工具已经改变了蛋白质设计的游戏规则："你画出一个蛋白质，按下一个按钮，得到的东西十有八九是能用的。" 而Ovchinnikov认为："现在我们可以完全控制蛋白质的形状。"通过结合多个神经网络来处理设计过程的不同部分，甚至可以实现更高的成功率，正如Baker的团队在设计纳米粒子时所做的那样。

Baker的实验室并不是唯一将人工智能应用于蛋白质设计的实验室。在9月发布在bioRxiv上的一篇评论文章中，Ferruz和她的同事统计了近年来使用各种方法开发的40多个人工智能蛋白质设计工具[5]。

包括ProteinMPNN在内，许多这一类的工具解决的是逆折叠问题：它们指定了一个对应于特定结构的序列，通常使用从图像识别工具中借用的方法。其他的一些工具则是基于类似语言神经网络的架构，如GPT-3，它产生类似人类的文本，却也能够产生新的蛋白质序列。作为这类网络的开发者[6]，Ferruz非常自豪："这些网络能够'说出'蛋白质"。

加州大学伯克利分校的机器学习研究员Chloe Hsu认为，尽管源源不断的蛋白质设计工具被开发出来，但它们难以进行横向比较，她与Meta[7]的研究人员开发了一个逆折叠网络。

蛋白质 "幻化 "的四个例子。在每个例子中，AlphaFold都会呈现一个随机的氨基酸序列，预测结构，并改变序列，直到软件自信地预测它将折叠成一个具有明确的三维形状的蛋白质。颜色表示预测的可信度(红色表示极低的可信度，黄色、浅蓝色和深蓝色的可信度依次递增) Credit@Sergey Ovchinnikov

许多团队都在测试他们的网络究竟能否从现有蛋白质的结构中准确确定其序列，但这并不容易。Ferruz希望能够举办一场蛋白质设计竞赛，类似于两年一度的蛋白质结构预测关键评估(CASP)实验，在该实验中，AlphaFold首次展示了它在结构预测网络中的统治地位。Ferruz认为，类似于CASP的东西将真正推动这个领域的发展。

「走向湿实验室」

Baker和他的同事们坚持认为，在实验室中制造一种新的蛋白质是对他们方法的最终检验。他们最初制作幻化蛋白集合体的失败表明了这一点。Baker实验室的生物物理学家Basile Wicky略带失望地说道："AlphaFold认为它们是可行的蛋白质，但显然，它们在湿实验室中并没有起作用。"

但并不是所有开发蛋白质设计人工智能工具的科学家都能轻松获取实验资源，芝加哥丰田计算技术研究所的许锦波教授指出：找到可行的合作实验室需要大量的时间。因此，他正在建立自己的湿实验室，以测试并验证他的科研成果。

Baker认为，在设计具有特定功能的蛋白质时，实验是至关重要的。今年7月，他的团队阐述了一套人工智能方法，允许研究人员将特定的序列或结构嵌入到一个新的蛋白质中[8]。他们用这些方法来设计能够催化特定反应的酶、能够与其他分子结合的蛋白质、以及一种可用于防止呼吸道病毒的疫苗蛋白质，这种病毒是导致婴儿住院的主要原因之一。

2021年，DeepMind在伦敦成立了一家名为Isomorphic Labs的分公司，计划将AlphaFold等人工智能工具用于药物发现。据DeepMind的首席执行官Demis Hassabis所述，蛋白质设计将能为AlphaFold等深度学习技术提供广泛的应用场景："在蛋白质设计领域，我们要做的工作相当多。目前这些还仅仅是早期而已。"

转自：“水木未来资讯”微信公众号

如有侵权，请联系本站删除！

上一篇： 结构速递 | 一周“结构”要览 VOL.29(9.19~9.25)
下一篇： 资讯 | 水木未来助力中国mRNA疫苗研发取得新突破

投稿问答最小化 关闭

「Nature」基于人工智能的全新蛋白质设计

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

「Nature」基于人工智能的全新蛋白质设计

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭