物理科技生物学-PHYICA

智能项链可以识别“无声”的英语和普通话命令

技术工程 2022-03-28 21:55:11

Smart necklace recognizes English, Mandarin commands信息科学领域的博士生张瑞东演示SpeeChin无声语音识别设备。鸣谢:Ryan Young/康奈尔大学语音识别技术允许我们要求Siri查看明天的天气,或者要求Alexa播放我们最喜欢的歌曲。但是这些技术需要听得见的语音。如果一个人不能说话,或者在特定环境下发声不合适怎么办?

康奈尔大学安·s·鲍尔斯计算和信息科学学院的信息科学助理教授张成和博士生张瑞东有一个答案:SpeeChin,这是一种无声语音识别(SSR)设备,可以利用颈部安装的红外(IR)相机捕捉的颈部和面部皮肤变形的图像来识别无声命令。

这项技术在12月31日出版的《计算机械协会关于交互式、移动、可穿戴和无处不在技术的会议录》中的“SpeeChin:用于无声语音识别的智能项链”中有详细介绍。

张瑞东也将在10月份的普适计算(UbiComp 2022)大会上发表这篇论文。

学分:康奈尔大学“有两个问题:第一,为什么是项链?第二,为什么不说话?”张说道。“我们觉得项链是人们习惯的一种形式,而不是可能不太舒服的耳戴式设备。至于无声语音,人们可能会想,‘我手机上已经有语音识别设备了。’但是你需要为他们发声,这在社交场合可能不太合适,或者这个人可能无法发声。"

“这种设备有可能学习一个人的讲话模式,即使是无声的讲话,”他说。

“我们正在这个领域引入一种全新的外形和新的硬件,”张瑞东说,他于2020年在中国的家中建造了最初的原型,同时远程完成了第一年的博士课程。

该设备在外观上类似于NeckFace,这是张成和他的SciFi实验室团队成员去年推出的一项技术。NeckFace通过使用红外摄像头从颈部以下捕捉下巴和面部的图像,持续跟踪完整的面部表情。

像NeckFace一样,SpeeChin的特点是在3D打印的项链盒上安装了一个红外摄像头,项链盒挂在一条银链上,摄像头指向佩戴者的下巴。为了增加稳定性,开发人员在两侧设计了一个机翼,并在底部放置了一枚硬币。

张成说,方便和隐私是戴在项链上的红外相机比传统的脸前相机更受欢迎的两个原因。“你面前的相机正在拍摄你身后的东西,”他说,“这引起了隐私问题。”

在他们的最初实验中,有20名参与者(10名说英语,10名说普通话),测量是为了确定下巴的基线位置,然后使用差分图像来训练设备识别简单的命令。

张瑞东让参与者用英语说出54个命令,包括数字、互动命令、语音助手命令、标点符号命令和导航命令。然后,他对44个简单的汉语单词或短语做了同样的处理。

SpeeChin识别英语和普通话命令的平均准确率分别为90.5%和91.6%。为了进一步测试其局限性,研究人员进行了另一项研究,有10名参与者,所有人都默默地说出一个特别设计的72个单音节“非单词”,使用音素——18个辅音和4个元音的组合。

最后,研究人员招募了六名参与者,让他们边走边说10个普通话和10个英语短语。这项研究的成功率较低,部分原因是参与者的行走方式不同(例如,头部运动多与少)。

这个项目展示了决心的力量:张瑞东在家里建了一个实验室,配有焊接站,并招募了家乡的人作为研究参与者。

“但因为我住在一个小城市,很难找到会说英语的人,”他说,“我们最终在杭州的浙江大学招聘会说英语的人。这对我来说是一次难忘的经历。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/13366.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~