物理科技生物学-PHYICA

让人工智能生成的声音更具表现力的新方法

技术工程 2022-03-04 21:55:03

A new method to make AI-generated voices more expressive Credit:加州大学圣地亚哥分校的研究人员找到了一种方法,通过最少的培训,让人工智能生成的语音(如数字个人助理)更具表现力。这种将文本翻译成语音的方法,也可以应用于从未属于系统训练集的语音。加州大学圣地亚哥分校的计算机科学家和电气工程师团队在最近在线举行的ACML 2021会议上展示了他们的工作。

除了智能手机、家庭和汽车的个人助理,这种方法还可以帮助改善动画电影中的画外音、多种语言语音的自动翻译等。这种方法也有助于创造个性化的语音界面,使丧失说话能力的人有能力说话,类似于斯蒂芬·霍金用来交流的计算机化语音,但更具表现力。

“我们在这个领域已经工作了相当长的一段时间,”加州大学圣地亚哥分校雅各布斯工程学院的博士生、该论文的主要作者之一Shehzeen Hussain说。“我们希望看到的挑战不仅仅是合成语音,而是为语音增加表达意义。”

现有方法在两个方面达不到这项工作。一些系统可以通过使用特定说话者几个小时的记录数据来合成该说话者的表达性语音。其他人可以从以前从未遇到过的演讲者的几分钟语音数据中合成语音;但是它们不能产生表达性的语音,只能将文本翻译成语音。相比之下,加州大学圣地亚哥分校团队开发的方法是唯一一种可以用最少的训练为不属于其训练集的主题生成表达性语音的方法。

研究人员在训练样本中标记了语音的音高和节奏,作为情绪的代表。这使得他们的克隆系统只需要很少的训练就能产生富有表现力的语音,甚至是以前从未遇到过的声音。

研究人员写道:“我们证明,我们提出的模型可以让一个新的声音表达、表情、歌唱或复制给定参考演讲的风格。

他们的方法可以直接从文本中学习语音;从目标说话者重建语音样本;并且将来自不同表达说话者的语音的音调和节奏转换成目标说话者的克隆语音。

该团队意识到,他们的工作可以用来使深度伪造的视频和音频剪辑更加准确和有说服力。因此,他们计划发布带有水印的代码,该水印可以将他们的方法创建的语音识别为克隆语音。

该论文的另一位主要作者、雅各布斯学院计算机科学博士生帕思·尼卡拉说:“如果你能制造出自然的语调,表情声音克隆将成为一种威胁。”。“更重要的挑战是检测这些媒体,我们将关注下一个。”

方法本身还需要改进。它偏向说英语的人,与口音很重的人斗争。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/11653.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~