投稿问答最小化  关闭

万维书刊APP下载

人工智能 · 微软亚洲研究院和清华大学提出全新大模型基础架构 RetNet,或将取代 Transformer

2023/7/20 16:07:26  阅读:106 发布者:

Transformer 是一种基于自我注意机制的新型神经网络架构,其在自然语言处理任务上的突破促进了目前 OpenAI GPT 系列,还有谷歌的 PaLMMeta Llama 等大语言模型的开发。不过,Transformer 也并不完美:其并行处理机制是以低效推理为代价的,每个步骤的复杂度为 O(N)Transformer 是内存密集型模型,序列越长,占用的内存越多。

目前,研究者一直在努力开发下一代架构,希望保留训练并行性和 Transformer 的性能,同时实现高效的 O(1) 推理。近期,微软亚洲研究院和清华大学的研究者取得了重大突破。他们提出了 retentive 网络(RetNet),同时实现了低成本推理、高效长序列建模,以及媲美 Transformer 的性能和并行模型训练。据公众号“机器之心”消息,RetNet 引入了一种多尺度 retention 机制来替代多头注意力,它有三种计算范式:并行、循环和分块循环表征。并行表征使训练并行化,以充分利用 GPU 设备。其次,循环表征法在内存和计算方面实现了高效的 O(1) 推理。部署成本和延迟可以显著降低,同时无需键值缓存技巧,大大简化了实现过程。此外,分块循环表征法能够执行高效的长序列建模。研究者对每个局部块进行并行编码以提高计算速度,同时对全局块进行循环编码以节省 GPU 内存。

在训练过程中,RetNet 也能够比标准 Transformer 节省 25-50% 的内存,实现 7 倍的加速,并在高度优化的 FlashAttention 方面具有优势。此外,RetNet 的推理延迟对大小不敏感,从而实现了巨大的吞吐量。对于 7B 模型和 8k 序列长度,RetNet 的解码速度是带键值缓存的 Transformers 8.4 倍,内存节省 70%。目前,相关的研究已于 7 17 日发表于预印本平台 arXiv。(公众号“机器之心”)

转自:“科研圈”微信公众号

如有侵权,请联系本站删除!


  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com