物理科技生物学-PHYICA

经过训练的神经网络管道模拟刚体和可变形体的物理系统以及环境条件

技术工程 2022-05-28 21:54:00

A one-up on motion capture麻省理工学院的研究人员使用RISP方法从目标图像或视频中预测动作序列、关节刚度或铰接手的运动,就像这个。鸣谢:麻省理工学院。鸣谢:麻省理工学院从《星球大战》到《快乐大脚》,许多受人喜爱的电影都包含了通过动作捕捉技术实现的场景,该技术通过视频记录物体或人的运动。此外,这种跟踪的应用涉及物理、几何和感知之间的复杂交互,从好莱坞扩展到军事、体育训练、医学领域以及计算机视觉和机器人,使工程师能够理解和模拟现实世界环境中发生的动作。由于这可能是一个复杂而昂贵的过程——通常需要在物体或人身上放置标记并记录动作序列——研究人员正在努力将负担转移到神经网络上,神经网络可以从简单的视频中获取这些数据,并在模型中再现这些数据。物理模拟和渲染方面的工作表明,这种模型有望得到更广泛的应用,因为它可以从图像中描述真实、连续、动态的运动,并在2D渲染和世界上的3D场景之间来回转换。然而,要做到这一点,当前的技术需要精确地了解动作发生的环境条件以及渲染器的选择,而这两者通常都是不可获得的。

现在,来自麻省理工学院和IBM的一组研究人员开发了一种经过训练的神经网络管道,可以避免这一问题,具有推断环境状态和正在发生的动作、感兴趣的对象或人(系统)的物理特征及其控制参数的能力。经过测试,该技术在模拟刚体和可变形体的四个物理系统方面优于其他方法,这些系统说明了不同环境条件下不同类型的动力学和相互作用。此外,这种方法允许模仿学习——从视频中预测和复制现实世界中飞行的四旋翼飞行器的轨迹。

“这篇论文处理的高层次研究问题是如何从动态系统的视频中重建数字双胞胎,”杜涛博士说,“21岁,电气工程和计算机科学系(EECS)的博士后,计算机科学和人工智能实验室(CSAIL)的成员,也是研究小组的成员。为了做到这一点,杜说,“我们需要忽略视频剪辑的渲染差异,并试图抓住动态系统或动态运动的核心信息。”

A one-up on motion capture Caption:此训练集用于训练RISP管道,以了解渲染差异如何影响纹理、光线和背景。鸣谢:麻省理工学院杜的合著者有首席作者,在读研究生,CSAIL成员;Josh Tenenbaum,脑和认知科学系认知科学和计算的Paul E. Newton职业发展教授,CSAIL成员;Wojciech Matusik,电气工程和计算机科学教授,CSAIL成员;以及MIT-IBM Watson AI实验室首席研究人员庄干。这项工作在本周的国际学术代表会议上发表。

虽然捕捉人物、机器人或动态系统的视频来推断动态运动使这些信息更容易获取,但这也带来了新的挑战。“图像或视频(以及它们的渲染方式)在很大程度上取决于照明条件、背景信息、纹理信息以及环境的材料信息,而这些在现实世界中不一定是可测量的,”杜说。没有这种呈现配置信息或使用哪种呈现器的知识,目前很难收集动态信息并预测视频对象的行为。即使绘制器是已知的,当前的神经网络方法仍然需要大量的训练数据集。然而,随着他们的新方法,这可能成为一个有争议的问题。“如果你拍摄一只豹子在早上和晚上奔跑的视频,当然,你会得到视觉上不同的视频剪辑,因为光照条件完全不同。但你真正关心的是动态运动:豹子的关节角度——而不是它们看起来是亮还是暗,”杜说。

为了解决渲染域和图像差异的问题,该团队开发了一个包含神经网络的管道系统,称为“渲染不变状态预测(RISP)”网络。RISP将图像(像素)的差异转换为系统状态的差异——即动作环境——使他们的方法具有普遍性,并且不可知渲染配置。使用随机渲染参数和状态来训练RISP,这些参数和状态被馈送到可微分渲染器中,可微分渲染器是一种测量像素对渲染配置(例如,照明或材质颜色)的敏感度的渲染器。这将从已知的地面实况参数中生成一组不同的图像和视频,这将使RISP能够逆转这一过程,从输入视频中预测环境状态。该团队还最小化了RISP的渲染梯度,使其预测对渲染配置的变化不那么敏感,使其能够学会忘记视觉外观,专注于学习动态状态。这是由可区分的渲染器实现的。

然后,该方法使用并行运行的两个类似的流水线。一个是已知变量的源域。这里,系统参数和动作被输入到可微分模拟中。生成的模拟状态与不同的渲染配置组合到一个可区分的渲染器中,以生成图像,并将其输入RISP。RISP然后输出关于环境状态的预测。同时,一个类似的目标域管道在未知变量下运行。管道中的RISP接收这些输出图像,生成一个预测状态。当比较来自源和目标域的预测状态时,产生新的损失;这种差异用于调整和优化源域流水线中的一些参数。然后可以重复这个过程,进一步减少管道之间的损耗。

RISP技术(左)能够类似地重建飞行四旋翼飞行器的动态运动(作为输入视频),而无需知道确切的渲染配置。RISP在这里使用的照明和材质配置有意不同于输入视频,以展示这种方法的能力。鸣谢:麻省理工学院为了确定他们的方法是否成功,该团队在四个模拟系统中进行了测试:四旋翼飞行器(一个没有任何物理接触的飞行刚体)、立方体(一个与其环境相互作用的刚体,就像一个骰子)、铰接手和杆(可以像蛇一样移动的可变形体)。这些任务包括从图像中估计系统的状态,从视频中识别系统参数和动作控制信号,以及从目标图像中发现将系统引导到期望状态的控制信号。此外,他们创建了基线和oracle,将这些系统中的新型RISP过程与类似的方法进行比较,例如,没有渲染梯度损失,不训练有任何损失的神经网络,或者完全没有RISP神经网络。该团队还研究了梯度损失如何随着时间的推移影响状态预测模型的性能。最后,研究人员部署了他们的RISP系统,从视频中推断真实世界四旋翼飞行器的运动,这种飞行器具有复杂的动力学。他们将性能与缺乏损失函数并使用像素差异的其他技术进行了比较,或者与包括手动调整渲染器配置的技术进行了比较。

在几乎所有的实验中,RISP程序都优于类似的或现有的最先进的方法,模拟或再现了所需的参数或运动,并证明是当前运动捕捉方法的数据高效和可推广的竞争者。

对于这项工作,研究人员做了两个重要的假设:关于相机的信息是已知的,例如它的位置和设置,以及控制被跟踪的对象或人的几何和物理。未来的工作计划解决这一问题。

“我认为我们在这里解决的最大问题是将一个领域的信息重建到另一个领域,而不需要非常昂贵的设备,”马说。Gan补充说,这种方法应该“对(如)元宇宙这样的应用有用,它旨在在虚拟环境中重建物理世界”。“对于跨域重构或逆动力学问题,这基本上是一个日常可用的解决方案,简洁而简单,”马说。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/17135.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~