您的位置：万维书刊网 >> 学术资讯 >> 学界研圈

大型语言模型也可预测蛋白质结构：速度是 AphaFold2 的 6 倍，准确性有待提高

2023/4/3 14:43:42　阅读：132　发布者：

根据 Ars Technica 报道，近日 Meta 公司的一个团队训练了一个可预测蛋白质结构的大型语言模型（LLM），该模型被用来统计蛋白质中氨基酸的出现次数，并可根据其所学内容提取蛋白质结构信息。

LLM 最初是为语言处理任务而开发的，但它们还有执行其他任务的潜力。在这项新研究中，它的任务是获取组成蛋白质的线性氨基酸串，并用其来预测蛋白质成熟时这些氨基酸的三维（3D）结构，这对于理解蛋白质的功能至关重要。研究人员向模型输入了大量的蛋白质样本，并随机拿掉了其中数个氨基酸，然后要求模型预测空位中应该存在的氨基酸是什么。在这种训练过程中，模型发展出了使用氨基酸频率的统计数据和周围蛋白质背景等信息进行预测的能力。为了将 LLM 的"注意力模式"转向蛋白质的 3D 结构，研究人员将实验确定的蛋白质结构和其他人工智能预测的蛋白质结构用于训练，最终得到了一个名为 ESMFold 的新模型。该模型参数达到 150 亿，能够在输入一串原始氨基酸序列后，输出蛋白质的 3D 结构。研究者已利用该模型预测了超过 6.17 亿个宏基因组蛋白序列，其中高置信度序列超过 2.25 亿个。尽管该模型的准确度相较谷歌的 AlphaFold2 仍有差距，但速度可达前者的 6 倍。相关论文 3 月 16 日发表于《科学》（Science）。（Ars Technica）

转自：“科研圈”微信公众号

如有侵权，请联系本站删除！

上一篇： 中国医学科学院北京协和医学院输血研究所应激反应与内稳态调控课题组招聘启事
下一篇： 中科院付巧妹团队填补青藏高原上 5100 年人类遗传史空白

学界研圈热门文章

本站推荐

上海交通大学宋萍课题组高薪招聘4名博士后和2名科研助理

投稿问答最小化 关闭

大型语言模型也可预测蛋白质结构：速度是 AphaFold2 的 6 倍，准确性有待提高

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

大型语言模型也可预测蛋白质结构：速度是 AphaFold2 的 6 倍，准确性有待提高

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭