物理科技生物学-PHYICA

看世界更像人类的机器

技术工程 2022-02-18 22:00:25

Machines that see the world more like humans do此图显示了3DP3(底行)如何从输入图像(顶行)推断出比深度学习系统(中间行)更精确的对象姿态估计。功劳:麻省理工学院计算机视觉系统有时会对一个违背常识的场景做出推论。例如,如果机器人正在处理餐桌上的场景,它可能完全忽略任何人类观察者都能看到的碗,估计盘子漂浮在桌子上方,或者错误地认为叉子正穿透碗而不是靠在碗上。将这种计算机视觉系统转移到自动驾驶汽车上,风险会变得更高——例如,这种系统无法检测到紧急车辆和过马路的行人。

为了克服这些错误,麻省理工学院的研究人员开发了一个框架,帮助机器更像人类一样看待世界。他们新的用于分析场景的人工智能系统学会从几幅图像中感知真实世界的物体,并根据这些学习到的物体感知场景。

研究人员使用概率编程构建了这个框架,这是一种人工智能方法,使系统能够对照输入数据交叉检查检测到的对象,以查看从相机记录的图像是否可能与任何候选场景匹配。概率推断允许系统推断不匹配是否可能是由于噪声或场景解释中的错误,这些错误需要通过进一步的处理来纠正。

这种常识性的安全措施允许系统检测和纠正许多困扰“深度学习”方法的错误,这些方法也被用于计算机视觉。概率编程还可以推断场景中物体之间可能的接触关系,并使用关于这些接触的常识推理来推断物体的更精确位置。

“如果你不知道联系关系,那么你可以说一个物体漂浮在桌子上方——这是一个有效的解释。作为人类,对我们来说很明显,这在物理上是不现实的,放在桌面上的物体更有可能是物体的姿势。因为我们的推理系统知道这种知识,它可以推断出更精确的姿势。这是这项工作的一个关键见解,”主要作者尼萨德·高奥斯卡说,他是概率计算项目的电气工程和计算机科学(EECS)博士学生。

除了提高自动驾驶汽车的安全性,这项工作还可以提高计算机感知系统的性能,这些系统必须解释复杂的物体排列,比如负责清理杂乱厨房的机器人。

高奥斯卡的合著者包括最近的EECS博士毕业生马可·库苏马诺-汤纳;研究工程师本·津伯格;客座学生Matin Ghavamizadeh麻省理工学院-IBM沃森人工智能实验室的软件工程师福克·波洛克;近期EECS硕士研究生奥斯汀·加勒特;丹·古特弗伦德,麻省理工学院-IBM沃森人工智能实验室的首席研究员;约书亚·特南鲍姆(Joshua B. Tenenbaum),保罗·牛顿(Paul E. Newton)大脑和认知科学系(BCS)认知科学和计算职业发展教授,计算机科学和人工智能实验室成员;和资深作者Vikash K. Mansinghka,首席研究科学家和BCS概率计算项目的负责人。这项研究将在12月的神经信息处理系统会议上发表。

纪念物

为了开发这个名为“通过概率编程的三维场景感知”的系统,研究人员借鉴了人工智能研究早期的一个概念,即计算机视觉可以被认为是计算机图形学的“逆”。

计算机图形学侧重于根据场景的表示生成图像;计算机视觉可以看作是这个过程的逆过程。Gothoskar和他的合作者通过将这种技术合并到一个使用概率编程构建的框架中,使得这种技术更加易于学习和扩展。

“概率编程允许我们以计算机可以解释的方式写下我们对世界某些方面的知识,但同时,它允许我们表达我们不知道的东西,即不确定性。因此,该系统能够自动从数据中学习,并自动检测规则何时不成立,”库苏马诺-汤纳解释道。

在这种情况下,模型是用关于3D场景的先验知识编码的。例如,3DP3“知道”场景是由不同的对象组成的,并且这些对象通常平放在彼此之上——但是它们可能并不总是处于如此简单的关系中。这使得模型能够用更多的常识来推理场景。

学习形状和场景

为了分析场景的图像,3DP3首先了解该场景中的对象。在只显示一个物体的五幅图像后,每幅图像都是从不同的角度拍摄的,3DP3学习物体的形状,并估计它在空间中占据的体积。

“如果我从五个不同的角度给你看一个物体,你可以很好地表现这个物体。你会了解它的颜色,它的形状,你能在许多不同的场景中认出那个物体,”高奥斯卡说。

曼辛赫卡补充道,“这比深度学习方法少得多。例如,密集融合神经对象检测系统需要针对每种对象类型的数千个训练示例。相比之下,3DP3只需要每个对象几幅图像,并报告每个对象形状中它不知道的部分的不确定性。"

3DP3系统生成一个图形来表示场景,其中每个对象都是一个节点,连接节点的线表示哪些对象相互接触。这使得3DP3能够更准确地估计物体的排列方式。(深度学习方法依靠深度图像来估计物体姿态,但是这些方法不会产生接触关系的图形结构,因此它们的估计不太准确。)

超越基线模型

研究人员将3DP3与几个深度学习系统进行了比较,这些系统都负责估计场景中3D对象的姿态。

几乎在所有情况下,3DP3都比其他模型生成更精确的姿态,并且在某些对象部分遮挡其他对象时表现得更好。3DP3只需要看到每个物体的五幅图像,而它所超越的每一个基线模型都需要成千上万幅图像来进行训练。

当与另一个模型结合使用时,3DP3能够提高其精度。例如,深度学习模型可能会预测碗稍微浮在桌子上方,但是因为3DP3了解接触关系,并且可以看出这是一种不太可能的配置,所以它能够通过将碗与桌子对齐来进行校正。

“看到深度学习的误差有时会有多大,我感到很惊讶——产生的场景表示中,物体确实与人们感知的不匹配。我还发现令人惊讶的是,在我们的因果概率程序中,只有一点点基于模型的推理就足以检测和修复这些错误。当然,要使其足够快速和健壮,以应对挑战性的实时视觉系统,还有很长的路要走——但我们第一次看到概率编程和结构化因果模型比在硬3D视觉基准上的深度学习更能提高鲁棒性,”曼辛赫卡说。

未来,研究人员希望进一步推动该系统,使其能够从单个图像或电影中的单个帧中了解一个对象,然后能够在不同场景中鲁棒地检测到该对象。他们还想探索使用3DP3为神经网络收集训练数据。人类通常很难用3D几何图形手动标记图像,因此3DP3可以用于生成更复杂的图像标签。

3DP3系统“将低保真度图形建模与常识推理相结合,以纠正深度学习神经网络造成的大场景解释错误。这种方法具有广泛的适用性,因为它解决了深度学习的重要失败模式。麻省理工学院研究人员的成果还显示了以前在国防高级研究计划局的“推进机器学习的概率编程”(PPAML ng)项目下开发的概率编程技术是如何应用于解决国防高级研究计划局当前机器常识(MCS)项目下常识人工智能的核心问题的,”国防高级研究计划局机器常识项目经理马特·图雷克说,他没有参与这项研究,尽管该项目为这项研究提供了部分资金。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/10572.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~