物理科技生物学-PHYICA

旨在帮助视力受损者的技术可以从人机合作中受益

技术工程 2022-06-03 21:53:58

visually impaired Credit: Pixabay/CC0公共域远程视力辅助(RSA)技术通过智能手机上的实时视频通话将视力受损的个人与人工代理联系起来,帮助视力低下或无视力的人导航需要视力的任务。但是,当现有的计算机视觉技术不能完全支持代理人完成某些请求,如阅读药瓶上的说明或识别机场数字屏幕上的航班信息时,会发生什么?根据宾夕法尼亚州立信息科学与技术学院的研究人员的说法,有一些挑战无法用现有的计算机视觉技术解决。相反,研究人员认为,人类和人工智能合作改善技术,增强视障用户和支持他们的代理的体验,会更好地解决这些问题。

在最近于3月在第27届智能用户界面国际会议(IUI)上发表的一项研究中,研究人员强调了RSA的五个新问题,他们说这些问题保证了人类与人工智能合作的新发展。信息科学与技术杰出教授John M. Carroll认为,解决这些问题可以推进计算机视觉研究,并启动下一代RSA服务。

“我们对开发这种特殊的范式感兴趣,因为这是一种合作活动,涉及视力正常和视力正常的人,以及计算机视觉能力,”卡罗尔说。“我们以一种非常丰富的方式构建了它,其中有许多有趣的人与人之间的互动、人与技术之间的互动以及技术创新。”

远程视力援助技术目前可以通过免费应用程序获得,这些应用程序将视力受损的用户与视力正常的志愿者联系起来,或者通过付费服务将他们与视力正常的代理人联系起来。当视力受损的人在需要视力的日常任务中需要帮助时,例如在餐馆中找到一张空桌子,阅读食品包装标签或识别物体的颜色,并使用他们的移动设备上的实时视频功能呼叫代理,就会部署该技术。然后,代理通过这个镜头看到用户的世界,充当他们的眼睛,帮助他们浏览他们的请求。

但是,根据IST大学助理教授和论文合著者Syed Billah的说法,代理商提供的支持并不容易。

“例如,通过镜头创造一个世界观对代理人来说是精神上的要求,”比拉说。“好消息是,这项任务的一部分可以交给运行3D重建算法的计算机。”

然而,代理人提供的一些支持,如帮助视力障碍的用户导航停车场或阅读药瓶上的标签,具有更高的风险。

“为了解决这些问题,目前的计算机视觉技术还有改进的空间,”Billah说。

在他们的研究中,研究人员审查了现有的RSA技术,并采访了用户,以了解他们在使用该服务时面临的技术和导航挑战。然后,他们确定了现有计算机视觉技术可以解决的挑战子集,并提出了解决这些挑战的设计思路。他们还发现了五个新出现的问题,由于其复杂性,现有的计算机视觉技术无法解决这些问题。

研究人员认为,这些问题可能会带来新的机会,通过以下方式增强RSA设计和体验:

认识到智能手机摄像头通常识别为障碍的物体可能不会被视障人士视为障碍,而是有用的工具。例如,在常见的导航应用程序中,人行道边的一堵墙可能会显示为障碍,但拄着拐杖的视力障碍者可能会依靠它来导航他们的脚步。当在室内设置中经常发生的低蜂窝带宽期间,实时摄像机馈送可能丢失时,帮助用户导航他们的环境。识别数字LCD显示器上的内容,例如机场的航班信息或酒店房间的温度控制面板。识别不规则表面上的文本。通常,重要信息的印刷方式使得帮助视力受损的人阅读的人工代理变得困难;例如,弯曲的药瓶上的药物说明或一袋薯片上的成分列表。预测帧外的人或物体将如何移动。客户端必须能够在用户的公共环境中快速传达环境信息,例如其他行人或行驶中的汽车,以帮助用户避免碰撞并确保用户的安全。然而,研究人员发现,目前代理人很难跟踪这些其他人和物体,并且几乎不可能预测他们的轨迹。研究人员希望他们的研究将改善视觉障碍用户和代理的体验。

“在未来,我们想象我们可以使用计算机视觉给代理人一个非常身临其境的体验,并为他们提供混合现实技术,”IST博士生芮宇说,“我们将能够直接帮助用户基于计算机视觉技术获得关于他们环境的一些基本信息。”

前IST大学博士生、现任罗彻斯特理工学院博士后研究员的李素妍(Sooyeon Lee)和信息学博士生谢静宜也参与了这项研究,该研究得到了美国国家卫生研究院和国家医学图书馆的支持。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/17551.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~