亚马逊发布全新文本转语音模型，号称史上最大

生活三易生活网 2024-02-20 09:06

日前，亚马逊人工智能研究团队方面宣布开发了一款全新的文本转语音（TTS）模型“可扩展流式文本转语音模型”（Big Adaptive Streamable TTS with Emergent abilities，BASE TTS），并号称这是目前世界上最大的文本转语音模型。

据了解，BASE TTS是一个多语言、多人的大型TTS系统，拥有9.8亿个参数，并使用了10万小时的录音数据（来自公共网站）进行训练，其中大部分为英语语音，较此前的训练数据量最高者VALL-E翻了一番，从而提高了语音自然度。同时，亚马逊研究人员还向该模型提供了其他语言的单词和短语示例，使得其能够正确发音一些常见的表达，例如“au contraire” 和 “adios, amigo”。

据悉，BASE TTS的工作原理是通过一个拥有约10亿参数的自回归转换器，将原始文本转化为离散代码（语音代码），然后通过由线性层和卷积层组成的单独训练的解码器以增量的、流式的方式将这些语音代码转化为波形。值得一提的是，BASE TTS的语音编码采用了新颖的语音标记化技术，该技术具有说话人ID解纠缠和字节对编码压缩的特点。

此外，亚马逊研究人员还测试了使用较小数据集的模型，希望能从中发现人工智能领域所说的“涌现能力”。他们发现对于文本转语音应用而言，这种飞跃发生在参数量达到1.5亿的中型数据集上，并指出这种飞跃涉及一系列语言属性，例如使用复合名词，表达情感，使用外语词汇，应用语音附加语和标点，以及在句子中将重点放在正确的单词上提出问题。

但需要注意的是，亚马逊的研究团队表示，出于对潜在滥用风险的担忧，BASE TTS将不会向公众开放，而是计划将其作为学习应用，并期望将学到的知识应用于改善文本转语音应用的整体音质。

【以上内容转自“三易生活网”，不代表本网站观点。如需转载请取得三易生活网许可，如有侵权请联系删除。】