人工智能 · 微软亚洲研究院和清华大学提出全新大模型基础架构 RetNet，或将取代 Transformer

2023/7/20 16:07:26　阅读：106　发布者：

Transformer 是一种基于自我注意机制的新型神经网络架构，其在自然语言处理任务上的突破促进了目前 OpenAI 的 GPT 系列，还有谷歌的 PaLM、Meta 的 Llama 等大语言模型的开发。不过，Transformer 也并不完美：其并行处理机制是以低效推理为代价的，每个步骤的复杂度为 O(N)；Transformer 是内存密集型模型，序列越长，占用的内存越多。

目前，研究者一直在努力开发下一代架构，希望保留训练并行性和 Transformer 的性能，同时实现高效的 O(1) 推理。近期，微软亚洲研究院和清华大学的研究者取得了重大突破。他们提出了 retentive 网络（RetNet），同时实现了低成本推理、高效长序列建模，以及媲美 Transformer 的性能和并行模型训练。据公众号“机器之心”消息，RetNet 引入了一种多尺度 retention 机制来替代多头注意力，它有三种计算范式：并行、循环和分块循环表征。并行表征使训练并行化，以充分利用 GPU 设备。其次，循环表征法在内存和计算方面实现了高效的 O(1) 推理。部署成本和延迟可以显著降低，同时无需键值缓存技巧，大大简化了实现过程。此外，分块循环表征法能够执行高效的长序列建模。研究者对每个局部块进行并行编码以提高计算速度，同时对全局块进行循环编码以节省 GPU 内存。

在训练过程中，RetNet 也能够比标准 Transformer 节省 25-50% 的内存，实现 7 倍的加速，并在高度优化的 FlashAttention 方面具有优势。此外，RetNet 的推理延迟对大小不敏感，从而实现了巨大的吞吐量。对于 7B 模型和 8k 序列长度，RetNet 的解码速度是带键值缓存的 Transformers 的 8.4 倍，内存节省 70%。目前，相关的研究已于 7 月 17 日发表于预印本平台 arXiv。（公众号“机器之心”）

转自：“科研圈”微信公众号

如有侵权，请联系本站删除！

上一篇： 我国学者在表面等离激元光纤生化传感器方面取得重要进展
下一篇： 海外学界 · 印度计划通过新的大规模资助机构来振兴科学

投稿问答最小化 关闭

人工智能 · 微软亚洲研究院和清华大学提出全新大模型基础架构 RetNet，或将取代 Transformer

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化 关闭

人工智能 · 微软亚洲研究院和清华大学提出全新大模型基础架构 RetNet，或将取代 Transformer

本文评论

暂无相应记录！

学界研圈热门文章

本站推荐

最近更新

投稿问答最小化关闭