不常见口语的语音识别_物理科技生物学-PHYICA

Toward speech recognition for uncommon spoken languages PARP是一种新技术，它降低了高级机器学习模型的计算复杂性，因此可以应用于对稀有或不常见的语言进行自动语音识别，例如西非500万人使用的沃洛夫语。功劳:Jose-Luis Olivares，麻省理工学院自动语音识别技术随着像Siri这样的虚拟助手的流行而变得更加普遍，但是这些系统中的许多只在世界上大约7000种语言中使用最广泛的语言上表现良好。因为这些系统在很大程度上不存在于不太常见的语言中，数百万说这些语言的人被许多依赖语音的技术切断了联系，从智能家居设备到辅助技术和翻译服务。

最近的进步使得机器学习模型能够学习世界上不常见的语言，这些语言缺乏训练算法所需的大量转录语音。然而，这些解决方案往往过于复杂和昂贵，无法广泛应用。

麻省理工学院和其他地方的研究人员现在已经通过开发一种简单的技术来解决这个问题，该技术降低了高级语音学习模型的复杂性，使其能够更有效地运行并获得更高的性能。

他们的技术包括删除常见但复杂的语音识别模型中不必要的部分，然后进行微小的调整，使其能够识别特定的语言。因为一旦larg er模型被缩小，只需要很小的调整，所以教这个模型一门不常见的语言就不那么昂贵和耗时了。

这项工作将有助于公平竞争，并将自动语音识别系统带到世界上许多尚未部署的地区。这些系统在一些学术环境中很重要，在这些环境中，它们可以帮助失明或视力低下的学生，并且还被用于通过医疗记录提高医疗保健环境的效率，以及通过法庭报告提高法律领域的效率。自动语音识别还可以帮助用户学习新的语言，提高他们的发音技能。这项技术甚至可以用来翻译和记录濒临消失的稀有语言。

“这是一个需要解决的重要问题，因为我们在自然语言处理和语音识别方面拥有惊人的技术，但朝着这个方向进行研究将有助于我们将该技术扩展到世界上更多未被探索的语言，”麻省理工学院计算机科学和人工智能实验室(CSAIL)的博士生、该论文的第一作者Cheng-I Jeff Lai说。

赖与麻省理工学院博士生刘力宏、廖一伦、萨梅尔·库拉纳和庄永松共同撰写了这篇论文；他的顾问和高级作者詹姆斯·格拉斯，高级研究科学家和CSAIL口语系统组组长；麻省理工学院-IBM沃森人工智能实验室的研究科学家、常和钱开智；和麻省理工学院-IBM沃森人工智能实验室的IBM主任大卫·考克斯。这项研究将在12月的神经信息处理系统会议上发表。

从音频中学习语音

研究人员研究了一种强大的神经网络，它被预先训练成从原始音频中学习基本语音，称为Wave2vec 2.0。

神经网络是一系列能够学习识别数据中模式的算法；神经网络松散地模仿人脑，排列成处理数据输入的互连节点层。

Wave2vec 2.0是一种自监督学习模型，因此它在被喂入大量未标记的语音后学习识别口语。培训过程只需要几分钟的口头发言。这为缺乏大量转录语音的罕见语言的语音识别打开了大门，比如西非500万人所说的沃洛夫语。

然而，神经网络有大约3亿个单独的连接，因此需要大量的计算能力来训练特定的语言。

研究人员着手通过修剪来提高这个网络的效率。就像园丁修剪掉多余的树枝一样，神经网络修剪包括移除特定任务不需要的连接，在这种情况下，学习一门语言。赖和他的合作者想看看修剪过程将如何影响这个模型的语音识别性能。

在修剪整个神经网络以创建一个更小的子网后，他们用少量标记的西班牙语语音训练子网，然后再用法语语音训练子网，这一过程称为微调。

“我们预计这两种模式会有很大不同，因为它们针对不同的语言进行了微调。但令人惊讶的是，如果我们修剪这些模型，它们最终会有高度相似的修剪模式。对于法语和西班牙语，它们有97%的重叠，”赖说。

他们用10种语言进行了实验，从意大利语和西班牙语等罗曼语到俄语和普通话等字母完全不同的语言。结果是一样的——微调后的模型都有非常大的重叠。

简单的解决方案

利用这一独特的发现，他们开发了一种简单的技术来提高神经网络的效率和性能，称为PARP(修剪、调整和重新修剪)。

在第一步中，像Wave2vec 2.0这样的预训练语音识别神经网络通过移除不必要的连接而被修剪。然后在第二步中，针对特定的语言调整生成的子网，然后再次修剪。在第二步中，如果已经被移除的连接对该特定语言很重要，则允许它们重新增长。