可以产生出更拟真的合成人声,系统可以快速合成真人语音

可以产生出更拟真的合成人声,系统可以快速合成真人语音

目前常见的电脑合成人声,大致上可以分成两种:一种是利用一个庞大的样本资料库来做组合,另一种是用小的样本资料,但通过电子的方式去修改它的音调和语速。第一种听起来会比较自然,但需要大量的时间和精力来准备资料库,而且也很占空间;第二种则是虽然比较不占空间,但用合成的去修改音调,听起来还是比较不自然。Google
的 DeepMind 人工智能团队(就是开发了 AlphaGo
的那个)利用了神经元网络,开发了第三种方式 —
也就是直接拆解出声源样本,产生出一个更深层的语言「习惯」资料,之后再从这些习惯直接建构出音频档来。取决于喂给
WaveNet AI
的资料,它甚至可以模拟出嘴型动作和换气的细微声音,在音调和语速上也更有个人风格。而且
WaveNet
的应用并不止于人声而已,研究人员喂给它古典乐做为参考,它也能组合出相当有模有样的古典乐出来。DeepMind
宣称在英文和中文上 WaveNet 可以「将真人与合成人声的差距缩小
50%」,大家可以到 DeepMind 的网站上自己听听看样本 —
真的已经很像真人在说话了呢!

试听者在听过WaveNet生成的英文和普通话音频后,认为该系统能生成比最棒的参数化和串接式系统更自然的声音。DeepMind在论文中详细介绍了这个实验的细节,并补充说:

除了在硅谷的人工智能中心开发自驾车技术外,百度原来还有在动些其它的脑筋啊。最近他们向公开了一套名为
Deep Voice 的文字转语音系统,根据官方描述来看,其速度和效率似乎都胜过了
Deepmind正在开发的同类产品 WaveNet。按照百度的说法,Deep Voice
在几乎无须人工介入的前提下,只需短短数小时便能学会说话。而且开发人员还可以对其要传达的感情状态进行设定,这样合成出来的语音听起来就会非常真实、自然。前面提到的
WaveNet,也可以实现类似的功能,但其需要巨大的运算力在背后支撑,而且目前还无法拿到日常环境中做实际用途。而百度表示,自己依靠深度学习技术解决了
WaveNet 尚未克服的难题。Deep Voice
会先将文字转化为音素,然后再依靠自己的语音合成网络将其变为你所听到的声音。以
Hello 这个单字为例,在最终发音前,Deep Voice
会将其拆分为、、、、这样的音素组合。这两个步骤都需要用到深度学习的技术,而百度的作用,在于控制要怎样给音素、音节加重音或是缩短、拖长音,「润色」之后
Deep Voice 讲的话听上去才会更显感情。不过,尽管这方面的效果很好,但
WaveNet 吃运算力的问题,Deep Voice
也还是一样头大。想要比较好地模拟出真人那样的反应,电脑必须在 20
微秒内生成词语。为了达成这一点,百度必须确保系统不会重新计算结果,而且得将整套模型放在处理器闪存而非主内存内,同时还要最大限度地利用所有能获取的运算资源。实际上,百度已经将一些
Deep Voice 的样本放到了亚马逊的 Mechanical Turk
平台上,至今为止他们已收获了许多正面的反馈。当然,距离其真正被商用肯定还有不少时日,但就目前的完成度来说,应该会比较值得期待吧。

DeepMind认为,原有模式极大依赖通过一个输入源,或一个录音者生成的大容量音频数据库,WaveNet依然保留了这种模式,并将其作为一组参数,可根据新的输入结果对原有模式进行修改。这种方法也叫做参数化(Parametric)的TTS实现,可通过支持参数的模型生成在音调或语调等特征方面有所差异的语音,随后这些语音还可通过模型进行进一步的完善。相比以往的方法使用预先生成的原始音频片段对模型进行训练,WaveNet的Phoneme可调整字词和句子的顺序参数,生成更有意义的词语和句子结构,并可独立于有关声调、声音质量,以及音素语调的参数进行调整。借此WaveNet可以生成连续的语言类声音,并通过语言结构为这些声音赋予相关的含义。

本文永久更新链接地址:http://www.linuxidc.com/Linux/2016-10/136242.htm

“第一个试验中我们尝试了自由式的语音生成(不以文字为条件)。我们使用了CSTR声音克隆工具包(VCTK)中的英文多讲话者语料(Yamagishi,2012),并通过条件设置让WaveNet只关注讲话者。这个条件是通过One-hot向量形式以讲话者ID的方式提供给模型的。所用数据库包含来自109位讲话者,总时长44小时的数据…
第二个实验主要针对TTS。我们使用了谷歌打造北美英文和中文普通话TTS系统时使用的同一个单一讲话者语音数据库,北美英文数据库包含24.6小时的语音数据,中文普通话数据库包含34.8小时的内容,所有内容均由专业的女性演讲者讲述。”

DeepMind还演示了如何通过WaveNet最为核心的“学习型抽象”利用音频训练数据集合成音乐。目前该技术最大的问题主要围绕语音合成技术的长远影响以及一些人所谓的人工智能。但目前还不确定WaveNet包含哪些核心语言或处理引擎,并且他们尚未提供范例代码。

语音合成能力主要源自串接式(Concatenative)TTS,会通过由单一录音者录制的简短语音片段组成的数据库选择语音片段,重新组合并形成语音。这种方式不够灵活,无法轻松地进行调整输出新的声音,如果需要对现有声音的特诊进行较大改变,通常需要彻底重建数据库。

图片 1

谷歌旗下的DeepMind公司近日公布了WaveNet项目,这是一种全面卷积(Convolutional),基于概率,可自动回归的深度神经网络。根据DeepMind的介绍,该项目可以用比现有最好的文字转语言(TTS)系统更棒的效果通过音频和声音合成更自然的语音和音乐。

查看英文原文:DeepMind Unveils WaveNet – A Deep Neural Network for
Speech and Audio
Synthesis

“由于这个模型不以文字为条件,因此可以通过更为平滑的方式生成不存在,但类似人类语言的字词,同时在声音语调方面也更真实…
我们发现这个模型还可以吸收语音本身之外其他方面的音频特征,例如可以模仿声学效果和录音质量,以及讲话者的换气和嘴部活动。”

对串接式TTS、参数化TTS、WaveNet以及人类语音音频样本(仅用作控制组)的人类语言自然度进行五分制盲测有了结果。试听者在不知道音频来源的前提下,听过音频样本后为每个样本打分。该论文所用数据集包含针对100个测试短句给出的超过500个评分,通过这些评分计算出平均意见得分(MOS)作为最终分数,只有WaveNet的自然度评分最接近人类语言的音频样本。

admin

网站地图xml地图