物理科技生物学-PHYICA

根据观察到的语音估计声音空间的质量

物理学 2022-09-18 23:59:08

日本高级科学技术研究所 图:房间声学参数的盲估计(一

e

,T60,EDT,C80,D50,TS)和语音传输指数(STI)在嘈杂和混响环境中:改善紧急通知的场景

学分:日本高级科学技术研究所 未来,几乎每个人都有的智能手机和智能扬声器,3

700万安装在日本家庭,可能会救你一命

除了日常使用功能,这些设备还可以大声朗读紧急信息,告知我们地震的当前情况以及如何疏散

然而,在某些情况下,由于难以倾听,我们可能会丢失如此重要的信息

谈话、吸尘器和混响等噪音会显著降低语言的可懂度,就像在简陋的礼堂或地铁里一样

另一方面,在一个典型的日子里,你有没有好奇过为什么你更喜欢在影院而不是客厅看电影?更大的屏幕和更好的音响系统?是的,当然,但是还有一个因素是“设计良好的房间声学

" 在建筑声学领域,声场的语音清晰度和音质可以通过测量语音传输指数(STI)和房间声学参数来描述,例如混响时间(T60)、早期衰减时间(EDT)和清晰度指数(C80)

还已知的是,测量的声学参数和STI随环境的变化而变化,例如人数、新家具或新装饰

因此,在没有特殊仪器和设置的情况下,已经研究了仅从语音估计这些房间声学参数的一些技术

然而,几乎实时地为声音空间的不同目的评估各种参数仍有待研究

在发表在《应用声学》杂志上的一项新研究中,来自日本高级科学技术研究所(JAIST)的一组科学家发明了一种从几秒钟的语音中同时盲估计五个房间声学参数和STI的方法

团队负责人Masashi Unoki教授概述了他们的方法,“我们假设在封闭空间中传输的语音被混响和与概念调制传递函数(MTF)相关的噪声所扭曲

MTF可以从输入和输出信号之间的调制比来解释传输通道或房间声学的特性

基于这一假设,我们着重于仅从输出信号中提取这种关系到先前提出的房间脉冲响应(RIR)模型,即扩展的RIR模型

" 在模拟中,观察到的信号是由5名男性和5名女性发出的语音信号和从不同空间和配置测量的43个真实rir的卷积合成的

然后,所提出的方法从这些混响语音信号的短周期(5秒)中估计房间声学参数,包括T60、EDT、C80、D50、Ts和STI

研究小组发现:(1)混响语音信号的包络提供了房间声学特征的潜在信息,(2)混响和噪声对八度频带中的语音信号的影响不同,(3)更合理的随机RIR模型可以准确地逼近真实的RIR

因此,应用卷积神经网络来映射从观察到的语音信号中提取的包络可以近似未知的RIR

然后,该方法可以从近似的RIR估计STI和各种房间声学参数

基于这一发现,建筑师和声学专家可能能够在有观众参加的音乐会现场表演期间监控和诊断礼堂

未来,我们的智能手机或厨房里的智能扬声器有一天可能会拯救我们的生命——我们的生活会因为这项技术而变得更安全、更轻松、更快乐

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/wulixue/23787.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~