优信彩票机械设备有限公司欢迎您!

微软与浙大开发出新AI模型,解决语音助手卡顿问题‘优信彩票’

时间:2020-11-07
本文摘要:的。现在,基于神经网络的从末端到末端的文本语音合成技术迅速发展,许多模型的制作方法将表示语音功率的频谱图即梅尔频谱从文本中分解,并使用语音编码器(分析语音信号制作的编解码器) 但是,这种制造方法没有不可避免的问题。 主要是速度慢:从末端到末端的模型一般通过自复位方式分解梅尔频谱,用声编码器制造语音。语音的梅尔频谱一般达到数百几千帧,制造速度很快。稳定性差:不允许序列分解的错误传播和注意力偏差,不经常发生重复吐出和漏语现象。

序列

的。现在,基于神经网络的从末端到末端的文本语音合成技术迅速发展,许多模型的制作方法将表示语音功率的频谱图即梅尔频谱从文本中分解,并使用语音编码器(分析语音信号制作的编解码器) 但是,这种制造方法没有不可避免的问题。

主要是速度慢:从末端到末端的模型一般通过自复位方式分解梅尔频谱,用声编码器制造语音。语音的梅尔频谱一般达到数百几千帧,制造速度很快。稳定性差:不允许序列分解的错误传播和注意力偏差,不经常发生重复吐出和漏语现象。

缺乏控制性:自我恢复的神经网络模型自动要求语音的分解长度,难以控制语速和韵律中断等。为了解决这些问题,微软公司(亚洲)互联网工程院的语音团队牵引浙江大学明确提出了新的机器学习模式FastSpeech,在论文《FastSpeech:较慢、强劲且高效率的文本-语音模型》中详细说明了该模式。

另外,这篇论文在温哥华NeurIPS 2019会议上被采用。【图像来源:论文】FastSpeech模型体系结构与其他文本语音模型相比是独特的,具有优异的性能(梅尔频谱分解速度比基线慢270倍,语音分解速度比基线慢38倍)。

不仅如此,还必须防止跳过单词等错误,反对对语速和单词中断进行细微调整。更重要的是,FastSpeech包含长度调节器,可以协商梅尔频谱序列和音素序列(即官能度不同的声音单位)的不同。

频谱

非常简单地说,因为音素序列的长度总是大于梅尔谱序列的长度,所以一个音素对应多个梅尔谱。另一方面,长度调节器不会根据持续时间扩展音素序列而成为规定的梅尔频谱序列的长度(补充时间预测器组件确认音素的时间长度)。

通过减少或增加给予音素或音素持续时间的梅尔谱数,可以按比例调整声音速度。【图像来源:论文】为了验证FastSpeech的有效性,研究人员对13100个英语语音片段(相当于24小时的语音)和包含适当文本mRNA的开源LJ Speech数据集进行了比较。将数据集分为随机训练使用的12500个样本、检查使用的300个样本、测试使用的300个样本后,他们对语音的质量、稳定性等展开了一系列评价。论文中,研究小组主要从语音质量(audio quality )、分解速度(inference speedup )、稳定性(robustness )、控制性(controllability )等方面对fastsst进行了评价。

研究小组回答说,FastSpeech的质量与谷歌的Tacotron 2文本语音模型完全相同,在稳定性方面达到了最主流的Transformer模型。另外,与基线的34%有效错误率相比,FastSpeech的有效错误率为零。

序列

(但是,其稳定性测试不可否认意义简单的句子只涉及50句)另外,FastSpeech在维持精度的情况下,可以将分解的声音速度从0.5倍改变为1.5倍。因此,研究小组回答说FastSpeech兼具慢、稳健、高效率等特征。

【图像来源:论文】在论文的最后,研究小组还提到了将FastSpeech和更低速的音响编码器组合成单一模型,获得几乎从终端到终端的文本语音解决方案。viaVentureBeat,(公众号:)编译器。原创文章,发布许可禁令刊登。以下,听取刊登的心得。


本文关键词:分解,长度,优信彩票官方首页,论文,序列

本文来源:优信彩票-www.yaboyule362.icu