img

澳门新濠天地线上娱乐

科技巨头谷歌尝试从文本中发展自然发声的声音已经有了很大的发展

该公司已经开发了一种名为Tacotron 2的文本到语音的人工智能系统,它可以用类似人类的声音说话,它在博客文章中说

一组谷歌研究人员在博客文章中写道,新方法并没有使用复杂的语言和声学特征作为输入

“相反,我们使用仅使用语音示例和相应的文本记录训练的神经网络从文本生成类似人类的语音,”他们说

对文本到语音技术的研究在过去几年中取得了很大进展,许多科技公司一直致力于此

谷歌研究人员表示,他们将Tacotron和WaveNet等过去工作的想法纳入了改进的Tacotron 2系统

Tacotron 2如何工作

研究人员解释说,新系统使用针对文本到语音优化的序列到序列模型,将一系列字母映射到编码音频的一系列特征

“这些功能,一个80维音频频谱图,每12.5毫秒计算一次帧,不仅可以捕获单词的发音,还可以捕获人类语音的各种微妙之处,包括音量,速度和语调

最后,这些功能使用类似WaveNet的架构转换为24 kHz波形,“研究人员说

研究人员还评估了生成的声音

”在一次评估中,我们要求人类听众评估所生成语音的自然度,我们获得了与专业录音相当的分数,“他们说

但仍有一些难以解决的问题

例如,新系统难以发音复杂的词语,如'decorum'和'merlot'

在极端情况下它可以随机产生奇怪的噪音

此外,系统还不能实时生成音频

“此外,我们还不能控制生成的语音,例如指导它听起来是快乐还是悲伤

这些都是一个有趣的研究问题

研究人员写道:

News