人类语音识别模型概述。鸣谢:Jana Roß bach听力损失是一个快速发展的科学研究领域,因为随着年龄的增长,婴儿潮一代的听力损失人数不断增加。为了了解听力损失如何影响人们,研究人员研究了人们识别语言的能力。如果存在混响、某些听力障碍或显著的背景噪声(如交通噪声或多个扬声器),人们识别人类语音会更加困难。
因此,助听器算法通常用于改善人类语音识别。为了评估这种算法,研究人员进行了一些实验,旨在确定特定数量的单词(通常为50%)被识别时的信噪比。然而,这些测试既费时又费钱。
在《美国声学学会杂志》上,来自德国的研究人员探索了一种基于机器学习和深度神经网络的人类语音识别模型。
来自卡尔·冯·奥西茨基大学的作者Jana Roß bach说:“我们模型的新颖性在于,它为听力受损的听众提供了对不同复杂性的噪音类型的良好预测,并显示出与测量数据的低误差和高相关性。”
研究人员使用自动语音识别(ASR)计算了听者每句话理解了多少单词。大多数人都是通过Alexa、Siri这样的语音识别工具来熟悉ASR的。
这项研究包括8名听力正常和20名听力受损的听众,他们暴露在各种掩盖语音的复杂噪音中。听力受损的听众被分为三组,分别具有不同程度的与年龄相关的听力损失。
该模型允许研究人员预测不同听力损失程度的听力受损听众对各种噪声屏蔽的人类语音识别性能,这些噪声屏蔽在时间调制和与真实语音的相似性方面越来越复杂。一个人可能的听力损失可以单独考虑。
“我们最惊讶的是,预测对所有类型的噪音都有效。当使用单个竞争的谈话者时,我们预期模型会有问题。然而,事实并非如此,”罗巴赫说。
这个模型创造了单耳听力的预测。展望未来,研究人员将开发一个双耳模型,因为理解语音受到双耳听力的影响。
除了预测语音清晰度之外,该模型还可能用于预测听力或语音质量,因为这些主题非常相关。
来源:由phyica.com整理转载自PH,转载请保留出处和链接!