那声音是从哪里来的？计算机模型可以像人脑一样回答这个问题

computer model Credit: CC0公共领域人脑经过精细调整，不仅可以识别特定的声音，还可以确定它们来自哪个方向。通过比较到达左耳和右耳的声音差异，大脑可以估计犬吠、消防车哀鸣或汽车靠近的位置。麻省理工学院的神经科学家现在已经开发了一种计算机模型，也可以执行这种复杂的任务。该模型由几个卷积神经网络组成，不仅能像人类一样出色地完成任务，还能像人类一样努力奋斗。

“我们现在有了一个模型，可以在现实世界中实际定位声音，”大脑和认知科学副教授、麻省理工学院麦戈文大脑研究所成员乔希·麦克德莫特(Josh McDermott)说。“当我们把这个模型当作一个人类实验参与者来对待，并模拟这个过去人们在上面测试人类的一大组实验时，我们一次又一次地发现，这个模型概括了你在人类身上看到的结果。”

麻省理工学院大脑、思维和机器中心的成员麦克德莫特说，这项新研究的发现还表明，人类感知位置的能力适应了我们环境的具体挑战。

麦克德莫特是这篇论文的资深作者，这篇论文今天发表在《自然·人类行为》杂志上。这篇论文的主要作者是麻省理工学院的研究生安德鲁·弗兰克尔。

建模本地化

当我们听到诸如火车汽笛之类的声音时，声波到达我们左右耳朵的时间和强度略有不同，这取决于声音来自哪个方向。中脑的某些部分专门比较这些细微的差异，以帮助估计声音来自哪个方向，这项任务也被称为定位。

在现实世界的条件下，这项任务变得明显更加困难——在现实世界中，环境会产生回声，同时会听到许多声音。

科学家们长期以来一直在寻求建立计算机模型，以执行大脑用来定位声音的相同类型的计算。这些模型有时在没有背景噪声的理想化环境中工作得很好，但在有噪声和回声的真实环境中却永远不会。

为了开发一个更复杂的定位模型，麻省理工学院团队转向卷积神经网络。这种计算机建模已被广泛用于人类视觉系统建模，最近，麦克德莫特和其他科学家也开始将其应用于听觉。

卷积神经网络可以用许多不同的架构来设计，所以为了帮助他们找到最适合本地化的架构，麻省理工学院团队使用了一台超级计算机，让他们可以训练和测试大约1500个不同的模型。那次搜索确定了10个似乎最适合本地化的地方，研究人员进一步训练了这些地方，并将其用于所有后续研究。

为了训练模型，研究人员创建了一个虚拟世界，在其中他们可以控制房间的大小和房间墙壁的反射特性。所有提供给模型的声音都来自这些虚拟房间中的某个地方。这套400多种训练声音包括人声、动物声、汽车发动机等机器声和雷声等自然声音。

研究人员还确保模型从人耳提供的相同信息开始。外耳或耳廓有许多反射声音的褶皱，改变了进入耳朵的频率，这些反射根据声音来自哪里而变化。研究人员通过在每个声音进入计算机模型之前运行一个专门的数学函数来模拟这种效果。

“这使我们能够给模型提供与人相同的信息，”弗兰克尔说。

训练完模型后，研究人员在真实环境中对它们进行了测试。他们将一个耳朵里装有麦克风的人体模型放在一个真实的房间里，播放来自不同方向的声音，然后将这些录音输入模型。当被要求定位这些声音时，这些模型的表现与人类非常相似。