物理科技生物学-PHYICA

该技术能够实时渲染三维场景

技术工程 2022-02-19 21:54:04

Technique enables real-time rendering of scenes in 3D为了从2D图像表示3D场景,光场网络将3D场景的360度光场编码到神经网络中,该神经网络将每个相机光线直接映射到该光线观察到的颜色d。功劳:麻省理工学院人类非常擅长观察一幅二维图像,并理解它捕捉到的完整三维场景。人工智能代理不是。然而,一台需要与世界上的物体互动的机器——就像一台被设计用来收割庄稼或协助手术的机器人——必须能够从对其训练的2D图像的观察中推断出3D场景的属性。

虽然科学家们已经成功地使用神经网络从图像中推断出3D场景的表示,但这些机器学习方法的速度不足以使它们在许多现实应用中可行。

麻省理工学院和其他地方的研究人员展示的一项新技术能够以比一些现有模型快约15000倍的速度从图像中表示3D场景。

该方法将场景表示为360度光场,这是一个描述3D空间中所有光线的函数,光线流经每个点并流向每个方向。光场被编码到神经网络中,这使得从图像中更快地呈现底层3D场景成为可能。

研究人员开发的光场网络(LFNs)只需对图像进行一次观察就可以重建光场,并且能够以实时帧速率渲染3D场景。

“归根结底,这些神经场景表征的最大希望是在视觉任务中使用它们。我给你一个图像,你从这个图像中创建场景的表示,然后你想推理的一切都在那个三维场景的空间中进行,”计算机科学和人工智能实验室(CSAIL)的博士后文森特·西茨曼说,他也是这篇论文的合著者。

Sitzmann与合著者、哈佛大学博士后Semon Rezchikov共同撰写了这篇论文;威廉·弗里曼,托马斯和格德·帕金斯电气工程和计算机科学教授,美国计算机科学学会会员;约书亚·特南鲍姆,脑与认知科学系计算认知科学教授,CSAIL成员;以及资深作者、电气工程和计算机科学教授、CSAIL成员Frédo Durand。这项研究将在本月的神经信息处理系统会议上发表。

映射光线

在计算机视觉和计算机图形学中,从一幅图像渲染一个三维场景需要映射数千甚至数百万条相机光线。想象一下相机光线,比如从相机镜头射出的激光束,照射到图像中的每个像素,每个像素一条光线。这些计算机模型必须确定每个相机光线照射到的像素的颜色。

许多当前的方法通过在每个相机光线在空间中移动时沿其长度采集数百个样本来实现这一点,这是一个计算成本很高的过程,会导致渲染速度很慢。

相反,LFN学会了表示三维场景的光场,然后直接将光场中的每条摄像机光线映射到光线观察到的颜色。LFN利用了光场的独特属性,只需一次评估就可以渲染光线,因此LFN不需要沿着光线的长度停止计算。

Technique enables real-time rendering of scenes in 3D给定3D场景和光线的图像,光场网络可以计算关于底层3D场景的几何形状的丰富信息。信用:麻省理工学院“用其他方法,当你做这个渲染时,你必须跟随光线,直到你找到表面。你必须做成千上万个样本,因为这意味着找到一个表面。你甚至还没有完成,因为可能会有像透明度或反射这样复杂的事情。有了光场,一旦你重建了光场,这是一个复杂的问题,渲染一条光线只需要一个单一的表示样本,因为表示直接将光线映射到它的颜色上,”西茨曼说。

LFN使用其“普吕克尔坐标”对每条相机光线进行分类,普吕克尔坐标表示3D空间中的一条线,基于其方向和距离原点的距离。该系统计算每条相机光线击中像素点的普吕克坐标,以渲染图像。

通过使用普吕克尔坐标映射每条光线,由于视差效应,LFN还能够计算场景的几何形状。视差是从两个不同的视线观看时,物体的表观位置的差异。例如,如果你移动你的头,离得远的物体似乎比离得近的物体移动得少。由于视差,LFN可以分辨场景中物体的深度,并使用该信息对场景的几何形状和外观进行编码。

但是要重建光场,神经网络必须首先了解光场的结构,因此研究人员用汽车和椅子的简单场景的许多图像来训练他们的模型。

“光场有一个内在的几何结构,这也是我们的模型试图学习的。你可能会担心汽车和椅子的光场如此不同,以至于你无法了解它们之间的一些共性。但事实证明,如果你添加更多种类的物体,只要有一定的同质性,你就能越来越好地理解一般物体的光场是什么样子的,这样你就可以对类进行概括,”雷兹奇科夫说。

一旦模型了解了光场的结构,它就可以仅从一幅图像作为输入来渲染3D场景。

快速渲染

研究人员通过重建几个简单场景的360度光场来测试他们的模型。他们发现线性调频网络能够以每秒超过500帧的速度渲染场景,比其他方法快三个数量级。此外,线性调频连续波渲染的三维物体通常比其他模型生成的物体更清晰。

LFN也不那么占用内存,只需要1.6兆字节的存储空间,而流行的基线方法需要146兆字节。

“光场以前被提出,但在那时它们是难以处理的。现在,有了我们在这篇论文中使用的这些技术,第一次你既可以表示这些光场,又可以处理这些光场。这是我们开发的数学模型和神经网络模型的一个有趣的融合,在这个场景表示应用中结合在一起,这样机器就可以对它们进行推理,”Sitzmann说。

未来,研究人员希望使他们的模型更加健壮,以便它可以有效地用于复杂的现实场景。Sitzmann说,推动线性调频网络向前发展的一种方法是只专注于重建光场的某些部分,这可以使模型在现实环境中运行得更快、性能更好。

“神经渲染最近仅从一组稀疏的输入视图中实现了图像的真实感渲染和编辑。不幸的是,所有现有的技术在计算上都非常昂贵,阻碍了需要实时处理的应用,如视频会议。斯坦福大学电气工程副教授戈登·威茨斯坦(Gordon Wetzstein)没有参与这项研究,他说:“这个项目朝着新一代计算效率高、数学上优雅的神经渲染算法迈出了一大步。"我预计它将有广泛的应用,在计算机图形学,计算机视觉和其他领域."

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/10642.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~