这项技术提高了人工智能利用2D图像理解三维空间的能力

Technique Improves AI Ability to Understand 3D Space Using 2D Images 研究人员开发了一种称为MonoCon的新技术，该技术利用二维(2D)图像提高了人工智能(AI)程序识别三维(3D)对象以及这些对象在空间中如何相互关联的能力。这张图片展示了MonoCon如何将对象放置在“边界框”中，用于街道导航。学分:吴天福，NC州立大学研究人员开发了一种新技术，称为MonoCon，它利用二维(2D)图像，提高了人工智能(AI)程序识别三维(3D)对象以及这些对象在空间中如何相互关联的能力。例如，这项工作将有助于自动驾驶汽车中使用的人工智能使用从车载摄像头接收的2D图像相对于其他车辆进行导航。“我们生活在一个3D世界，但当你拍一张照片时，它会以2D的形象记录下那个世界，”该论文的对应作者、北卡罗来纳州立大学电气与计算机工程助理教授吴天福说。

“人工智能程序从摄像头接收视觉输入。因此，如果我们希望人工智能与世界互动，我们需要确保它能够解释2D图像可以告诉它的关于3D空间的信息。在这项研究中，我们专注于这一挑战的一部分:我们如何让人工智能准确识别2D图像中的3D对象，如人或车，并将这些对象放置在空间中。”

虽然这项工作对自动驾驶汽车可能很重要，但它也可以应用于制造业和机器人技术。

在自动驾驶汽车的背景下，大多数现有系统依赖激光雷达来导航3D空间，激光雷达使用激光来测量距离。然而，激光雷达技术是昂贵的。由于激光雷达价格昂贵，自主系统不包含太多冗余。例如，在大规模生产的无人驾驶汽车上安装几十个激光雷达传感器成本太高。

“但是，如果一辆自动驾驶汽车可以使用视觉输入在空间中导航，你可以建立冗余，”吴说。“因为摄像头比激光雷达便宜得多，所以增加摄像头在经济上是可行的——在系统中建立冗余，使其更安全、更鲁棒。

“这是一个实际应用。然而，我们也对这项工作的基本进展感到兴奋:从2D物体中获取3D数据是可能的。”

具体来说，MonoCon能够识别2D图像中的3D对象，并将它们放置在“边界框”中，这有效地告诉人工智能相关对象的最外边缘。

MonoCon建立在大量现有工作的基础上，旨在帮助人工智能程序从2D图像中提取3D数据。这些努力中有许多是通过“展示”2D图像和在图像中物体周围放置3D边界框来训练人工智能的。这些盒子是长方体，有八个点——想想鞋盒上的角。在训练过程中，人工智能被赋予盒子八个角中每一个角的三维坐标，这样人工智能就“理解”了“边界盒子”的高度、宽度和长度，以及这些角中每一个角与摄像机之间的距离。训练技术利用这一点来教人工智能如何估计每个边界框的尺寸，并指示人工智能预测摄像机和汽车之间的距离。每次预测后，训练者都会“纠正”人工智能，给出正确的答案。随着时间的推移，这使得人工智能在识别对象、将它们放置在边界框中以及估计对象的维度方面变得越来越好。

“让我们的工作与众不同的是我们如何训练人工智能，这是建立在以前训练技术的基础上的，”吴说。“像以前的努力一样，我们在训练人工智能时，将对象放置在3D边界框中。然而，除了要求人工智能预测摄像机到物体的距离和边界框的尺寸之外，我们还要求人工智能预测框的八个点中的每一个的位置及其与边界框中心的二维距离。我们称之为“辅助上下文”，我们发现它有助于人工智能基于2D图像更准确地识别和预测3D对象。

“所提出的方法是由测度论中一个著名的定理，即克莱姆-沃尔德定理推动的。它还潜在地适用于计算机视觉中的其他结构化输出预测任务。”

研究人员使用一个广泛使用的基准数据集KITTI测试了MonoCon。

“在我们提交这篇论文的时候，MonoCon的表现比其他几十个旨在从2D图像中提取汽车3D数据的人工智能程序要好，”吴说。MonoCon在识别行人和自行车方面表现良好，但在这些识别任务中不是最好的人工智能程序。

“展望未来，我们正在扩大这一规模，并与更大的数据集合作，以评估和微调用于自动驾驶的MonoCon，”吴说。“我们还想探索在制造业中的应用，看看我们是否能提高使用机械臂等任务的性能。”

论文“学习辅助单目上下文有助于单目3D对象检测”将在2月22日至3月1日虚拟举行的人工智能协会人工智能会议上发表。论文的第一作者是北卡罗来纳州立大学的博士生卢新鹏。该论文由武汉大学的薛楠合著。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/12585.html