模仿大脑实现“类人”虚拟助手_物理科技生物学-PHYICA

Mimicking the brain to realize “human-like” virtual assistants 图1。用于模拟人类语音的算法的表示。描述:感知匹配追踪算法的处理流水线，用于从语音信号中导出听觉稀疏表示。五个主要的处理步骤用灰色块和实心箭头表示。第一步是分解信号，第二步是应用蒙版效果，第三步是找到max，第四步是更新，最后一步是暂停。在find-max步骤之后找到的关于所选内核的信息用于创建听觉稀疏表示、重新合成的信号和残余信号。功劳:JAIST演讲的Masashi Unoki不仅仅是一种交流方式。一个人的声音传达了他的情感和个性，是我们可以识别的独特特征。我们把语音作为主要的交流手段，这是智能设备和技术中语音助手发展的一个重要原因。通常，虚拟助手通过将接收到的语音信号转换成他们能够理解和处理的模型来分析语音和响应查询，以生成有效的响应。然而，他们往往难以捕捉和融入人类语言的复杂性，最终听起来非常不自然。现在，在《IEEE Access》杂志上发表的一项研究中，日本高级科学技术研究所(JAIST)的Masashi Unoki教授和JAIST的博士生Dung Kim Tran开发了一个系统，可以捕捉语音信号中的信息，就像人类感知语音一样。

“在人类中，听觉外围将输入语音信号中包含的信息转换成大脑可以识别的神经活动模式(NAPs)。为了模拟这个函数，我们使用匹配追踪算法来获得语音信号的稀疏表示，或者具有最小可能有效系数的信号表示，”Unoki教授解释道。“然后，我们使用心理声学原理，如等效矩形带宽比例、gammachirp函数和掩蔽效应，以确保听觉稀疏表示与NAPs相似。”

为了测试他们的模型在理解语音命令和产生可理解的自然反应方面的有效性，两人进行了实验，将信号重建质量和听觉表示的感知结构与传统方法进行比较。“听觉表征的有效性可以从三个方面来评估:重新合成的语音信号的质量、非零元素的数量，以及表征语音信号感知结构的能力，”乌基教授说。

为了评估重新合成的语音信号的质量，两人重建了630个由不同说话者说出的语音样本。然后，使用PEMO-Q和PESQ评分对重新合成的信号进行评级，后者是音质的客观衡量标准。他们发现重新合成的信号与原始信号相当。此外，他们对6个说话者所说的某些短语进行了听觉表征。

两人还通过模式匹配实验测试了该模型准确捕捉语音结构的能力，以确定短语的听觉表示是否可以与同一说话者的口头话语或询问相匹配。

“我们的结果表明，通过我们的方法产生的听觉稀疏表示可以实现高质量的再合成信号，每秒只有1066个系数。此外，所提出的方法还在模式匹配实验中提供了最高的匹配精度。

从智能手机到智能电视，甚至智能汽车，语音助手的作用在我们的日常生活中越来越不可或缺。这些服务的质量和持续使用将取决于他们理解我们的口音和发音的能力，并以我们认为自然的方式做出反应。这项研究中开发的模型可以在赋予我们的语音助手类似人类的品质方面发挥很大作用，使我们的互动不仅更加方便，而且在心理上也令人满意。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/12879.html