理解对象关系的人工智能_物理科技生物学-PHYICA

Artificial intelligence that understands object relationships 研究人员开发的框架可以基于对象及其关系的文本描述生成场景的图像，在此图中，研究人员的最终图像位于右侧，并正确遵循文本描述。功劳:艾伦杜，，约书亚·特南鲍姆，安东尼奥·托里巴等人当人类看一个场景时，他们看到的是物体以及物体之间的关系。在你的桌面上，可能有一台笔记本电脑放在电话的左边，在电脑显示器的前面。许多深度学习模型很难以这种方式看待世界，因为它们不理解单个对象之间错综复杂的关系。如果不知道这些关系，一个被设计来帮助厨房里的人的机器人将很难执行像“拿起炉子左边的锅铲，放在切菜板上面”这样的命令。

为了解决这个问题，麻省理工学院的研究人员开发了一个模型，可以理解场景中物体之间的潜在关系。他们的模型一次一个地表示单个关系，然后组合这些表示来描述整个场景。这使得该模型能够从文本描述中生成更精确的图像，即使场景包括以不同关系排列的几个对象。

这项工作可以应用于工业机器人必须执行复杂的多步操作任务的情况，如在仓库中堆放物品或组装设备。这也使该领域更接近于让机器能够像人类一样从环境中学习并与之互动。

“当我看着一张桌子时，我不能说在XYZ的位置上有一个物体。我们的思维不是那样运作的。在我们的头脑中，当我们理解一个场景时，我们真正理解它是基于对象之间的关系。我们认为，通过构建一个能够理解物体之间关系的系统，我们可以利用该系统更有效地操纵和改变我们的环境，”计算机科学和人工智能实验室(CSAIL)的博士生、该论文的合著者之一杜依伦说。

杜与合著者(CSAIL博士生)和南刘(伊利诺伊大学香槟分校研究生)一起撰写了这篇论文；以及脑和认知科学系认知科学和计算的保罗·e·牛顿职业发展教授、CSAIL成员约书亚·b·特南鲍姆；以及高级作者Antonio Torralba，德尔塔电子电气工程和计算机科学教授，CSAIL成员。这项研究将在12月的神经信息处理系统会议上发表。

一次一段感情

研究人员开发的框架可以基于对象及其关系的文本描述生成场景图像，就像“蓝色凳子左边的木桌。蓝色凳子右边的红色长沙发。”

他们的系统会将这些句子分解成两个更小的片段，描述每个个体的关系(“蓝色s工具左边的木桌”和“蓝色凳子右边的红沙发”)，然后分别对每个部分建模。然后，这些片段通过优化过程进行组合，生成场景图像。

研究人员使用一种称为基于能量的模型的机器学习技术来表示场景描述中的单个对象关系。这项技术使他们能够使用一个基于能量的模型来编码每个关系描述，然后以推断所有对象和关系的方式将它们组合在一起。

李解释说，通过将每个关系的句子分解成更短的片段，系统可以以多种方式重组它们，因此它能够更好地适应以前从未见过的场景描述。

“其他系统会从整体上考虑所有关系，并根据描述一次性生成图像。然而，当我们有分布外的描述时，比如有更多关系的描述时，这种方法就失败了，因为这些模型不能真正适应一个镜头来生成包含更多关系的图像。然而，当我们将这些独立的、较小的模型组合在一起时，我们可以建立更多的关系模型，并适应新的组合，”杜说。

该系统也可以反过来工作——给定一幅图像，它可以找到与场景中对象之间的关系相匹配的文本描述。此外，他们的模型可用于通过重新排列场景中的对象来编辑图像，以便它们匹配新的描述。

理解复杂的场景

研究人员将他们的模型与其他深度学习方法进行了比较，这些方法被赋予了文本描述，并负责生成显示相应对象及其关系的图像。在每种情况下，他们的模型都优于基线。

他们还要求人类评估生成的图像是否与原始场景描述相匹配。在最复杂的例子中，描述包含三种关系，91%的参与者认为新模型表现更好。

“我们发现的一个有趣的事情是，对于我们的模型，我们可以将句子从一个关系描述增加到两个、三个甚至四个描述，我们的方法继续能够生成由这些描述正确描述的图像，而其他方法失败了，”杜说。

研究人员还展示了以前从未见过的场景的模型图像，以及每幅图像的几种不同的文本描述，它能够成功地识别出与图像中的对象关系最匹配的描述。

当研究人员给系统两个描述相同图像但方式不同的相关场景描述时，模型能够理解这些描述是等价的。

研究人员对他们模型的稳健性印象深刻，尤其是在处理之前从未遇到过的描述时。

“这很有希望，因为这更接近人类的工作方式。人类可能只能看到几个例子，但我们可以从这几个例子中提取有用的信息，并将它们组合在一起，创造出无限的组合。我们的模型有这样一个特性，允许它从更少的数据中学习，但推广到更复杂的场景或图像生成，”李说。

虽然这些早期结果令人鼓舞，但研究人员希望看到他们的模型在更复杂的真实世界图像上的表现，这些图像具有嘈杂的背景和相互遮挡的物体。

他们还对最终将他们的模型整合到机器人系统中感兴趣，使机器人能够从视频中推断对象关系，然后应用这些知识来操纵世界上的对象。

“开发能够处理我们周围世界的组成性质的视觉表示是计算机visio n中的关键开放问题之一。本文通过提出一个基于能量的模型，明确地对图像中描绘的对象之间的多种关系进行建模，从而在这个问题上取得了重大进展。结果确实令人印象深刻，”捷克技术大学捷克信息学、机器人学和控制论研究所的杰出研究员约瑟夫·西维克说，他没有参与这项研究。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/10211.html