物理科技生物学-PHYICA

那声音是从哪里来的?计算机模型可以像人脑一样回答这个问题

技术工程 2022-03-16 21:54:23

computer model Credit: CC0公共领域人脑经过精细调整,不仅可以识别特定的声音,还可以确定它们来自哪个方向。通过比较到达左耳和右耳的声音差异,大脑可以估计犬吠、消防车哀鸣或汽车靠近的位置。麻省理工学院的神经科学家现在已经开发了一种计算机模型,也可以执行这种复杂的任务。该模型由几个卷积神经网络组成,不仅能像人类一样出色地完成任务,还能像人类一样努力奋斗。

“我们现在有了一个模型,可以在现实世界中实际定位声音,”大脑和认知科学副教授、麻省理工学院麦戈文大脑研究所成员乔希·麦克德莫特(Josh McDermott)说。“当我们把这个模型当作一个人类实验参与者来对待,并模拟这个过去人们在上面测试人类的一大组实验时,我们一次又一次地发现,这个模型概括了你在人类身上看到的结果。”

麻省理工学院大脑、思维和机器中心的成员麦克德莫特说,这项新研究的发现还表明,人类感知位置的能力适应了我们环境的具体挑战。

麦克德莫特是这篇论文的资深作者,这篇论文今天发表在《自然·人类行为》杂志上。这篇论文的主要作者是麻省理工学院的研究生安德鲁·弗兰克尔。

建模本地化

当我们听到诸如火车汽笛之类的声音时,声波到达我们左右耳朵的时间和强度略有不同,这取决于声音来自哪个方向。中脑的某些部分专门比较这些细微的差异,以帮助估计声音来自哪个方向,这项任务也被称为定位。

在现实世界的条件下,这项任务变得明显更加困难——在现实世界中,环境会产生回声,同时会听到许多声音。

科学家们长期以来一直在寻求建立计算机模型,以执行大脑用来定位声音的相同类型的计算。这些模型有时在没有背景噪声的理想化环境中工作得很好,但在有噪声和回声的真实环境中却永远不会。

为了开发一个更复杂的定位模型,麻省理工学院团队转向卷积神经网络。这种计算机建模已被广泛用于人类视觉系统建模,最近,麦克德莫特和其他科学家也开始将其应用于听觉。

卷积神经网络可以用许多不同的架构来设计,所以为了帮助他们找到最适合本地化的架构,麻省理工学院团队使用了一台超级计算机,让他们可以训练和测试大约1500个不同的模型。那次搜索确定了10个似乎最适合本地化的地方,研究人员进一步训练了这些地方,并将其用于所有后续研究。

为了训练模型,研究人员创建了一个虚拟世界,在其中他们可以控制房间的大小和房间墙壁的反射特性。所有提供给模型的声音都来自这些虚拟房间中的某个地方。这套400多种训练声音包括人声、动物声、汽车发动机等机器声和雷声等自然声音。

研究人员还确保模型从人耳提供的相同信息开始。外耳或耳廓有许多反射声音的褶皱,改变了进入耳朵的频率,这些反射根据声音来自哪里而变化。研究人员通过在每个声音进入计算机模型之前运行一个专门的数学函数来模拟这种效果。

“这使我们能够给模型提供与人相同的信息,”弗兰克尔说。

训练完模型后,研究人员在真实环境中对它们进行了测试。他们将一个耳朵里装有麦克风的人体模型放在一个真实的房间里,播放来自不同方向的声音,然后将这些录音输入模型。当被要求定位这些声音时,这些模型的表现与人类非常相似。

“虽然这个模型是在虚拟世界中训练的,但当我们评估它时,它可以在现实世界中定位声音,”弗兰克尔说。

相似的模式

研究人员随后对这些模型进行了一系列测试,科学家们过去曾用这些测试来研究人类的定位能力。

除了分析左右耳到达时间的差异,人类大脑还根据到达每只耳朵的声音强度的差异来判断位置。先前的研究表明,这两种策略的成功取决于传入声音的频率。在这项新的研究中,麻省理工学院的研究小组发现,这些模型显示出对频率同样敏感的模式。

麦克德莫特说:“这个模型似乎像人们一样使用两只耳朵之间的时间和水平差异,这种方式依赖于频率。

研究人员还表明,当他们通过增加同时播放的多个声源来增加本地化任务的难度时,计算机模型的性能会下降,这种下降方式与人类在相同情况下的失败模式非常相似。

“随着你添加越来越多的来源,你会发现人类准确判断存在的来源数量的能力以及他们定位这些来源的能力下降的特定模式,”弗兰克尔说人类似乎仅限于一次定位大约三个来源,当我们在模型上运行相同的测试时,我们看到了非常相似的行为模式。"

因为研究人员使用虚拟世界来训练他们的模型,他们还能够探索当他们的模型学会在不同类型的非自然条件下定位时会发生什么。研究人员在一个没有回声的虚拟世界中训练了一组模型,在一个一次听不到一个以上声音的世界中训练了另一组模型。在第三个实验中,模型只暴露在频率范围很窄的声音中,而不是自然产生的声音中。

当在这些非自然世界中训练的模型在同一组行为测试中被评估时,这些模型偏离了人类的行为,它们失败的方式因它们被训练的环境类型而异。研究人员说,这些结果支持了这样的观点,即人类大脑的本地化能力适应了人类进化的环境。

麦克德莫特说,研究人员现在正在将这种建模应用于听觉的其他方面,如音高感知和语音识别,并相信它也可以用于理解其他认知现象,如一个人可以注意或记住的东西的限制。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/12516.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~