击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了
2024/1/24 9:33:18 阅读:45 发布者:
自 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩散模型的采样速度,如通过先验优化 [2,3,4]、模型蒸馏 [5,6]、残差预测 [7] 等方法。然而,如此项研究所示,由于扩散模型受限于「噪声到数据」的生成范式,其先验分布对生成目标提供的信息始终较为有限,对条件信息无法利用充分。
近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。(DOI:arXiv:2312.03491)
转自:“鲸锐学术”微信公众号
如有侵权,请联系本站删除!