物理科技生物学-PHYICA

将机器人灵巧操作技能薄谷开来简历从模拟转移到真实机器人的系统

技术工程 2022-01-27 21:55:15

A system to transfer robotic dexterous manipulation skills from simulations to real robots Credit: Allshire等人去年,马克斯·普朗克智能系统研究所组织了“真实机器人挑战赛”,这是一项挑战学术实验室的竞赛,旨在为使用低成本机器人手重新定位和重新定向立方体的问题提出解决方案。参与挑战的团队被要求解决一系列难度不同的物体操纵问题。为了解决真实机器人挑战带来的一个问题,多伦多大学矢量研究所、苏黎世联邦理工学院和MPI Tubingen的研究人员开发了一个系统,允许机器人获得具有挑战性的灵巧操作技能,有效地将这些技能从模拟转移到真实的机器人身上。该系统发表在arXiv上的一篇论文中,在允许挑战组织者提出的远程TriFinger系统完成涉及灵巧操作的挑战性任务方面取得了83%的显著成功率。

开展这项研究的研究人员之一Animesh Garg告诉TechXplore,“我们的目标是使用基于学习的方法,以低成本的方式解决去年的真实机器人挑战赛中引入的问题。“我们尤其受到OpenAI的Dactyl系统的前期工作的启发,该工作表明,将无模型强化学习与领域随机化相结合来解决复杂的操作任务是可能的。”

本质上,Garg和他的同事想证明他们可以使用Trifinger机器人系统解决灵巧的操作任务,使用比以前研究中使用的资源更少的资源将模拟中获得的结果转移到现实世界中。为此,他们在模拟中训练了一个强化学习代理,并创造了一种深度学习技术,可以根据机器人的观察来计划未来的行动。

A system to transfer robotic dexterous manipulation skills from simulations to real robots Credit: Allshire等人“我们遵循的过程由四个主要步骤组成:在物理模拟中设置环境、为问题规范选择正确的参数化、学习稳健的策略以及在真实的机器人上部署我们的方法,”Garg解释道。“首先,我们创建了一个模拟环境,与我们试图解决的现实场景相对应。”

模拟环境是使用英伟达最近发布的艾萨克健身房模拟器创建的。该模拟器可以利用英伟达图形处理器的能力,实现高度逼真的模拟。通过使用Isaac Gym平台,Garg和他的同事能够显著减少将灵巧的操作技能从模拟转换到现实环境所需的计算量,从而将他们的系统要求从具有数百个CPU和多个GPU的集群降低到单个GPU。

“强化学习要求我们在问题中使用适合解决任务的变量表示,”Garg说。“真正的机器人挑战要求参赛者在位置和方向上都放置立方体。这使得这项任务比以前的努力更具挑战性,因为有经验的神经网络控制器需要能够权衡这两个目标。”

为了解决真实机器人挑战带来的物体操纵问题,Garg和他的同事决定使用“关键点表示法”,这是一种通过关注图像中的主要“兴趣点”来表示物体的方法。这些点保持不变,与图像的大小、旋转、扭曲或其他变化无关。

A system to transfer robotic dexterous manipulation skills from simulations to real robots Credit: Allshire等人在他们的研究中,研究人员使用关键点来表示立方体的姿态,机器人被期望在馈送到其神经网络的图像数据中操纵该姿态。他们还用它们来计算所谓的奖励函数,这最终可以让强化学习算法随着时间的推移提高它们的性能。

“最后,我们给环境增加了随机性,”加尔格说。“这些包括对网络的输入、网络所采取的行动以及各种环境参数进行随机化,例如立方体的摩擦力以及在其上添加随机力。其结果是迫使神经网络控制器表现出对一系列环境参数鲁棒的行为。”

研究人员用一天的时间,在他们用艾萨克健身房创造的模拟环境中训练他们的强化学习模型。在模拟中,该算法由16,000个模拟机器人提出,每秒产生约50,000步的数据,然后用于训练网络。

“该策略随后被上传到机器人农场,在那里它被部署在多个相似机器人池中的一个随机机器人上,”Garg说。“在这里,该策略不会根据每个机器人的独特参数进行重新训练——它已经能够适应它们。操作任务完成后,数据被上传供研究人员访问。”

A system to transfer robotic dexterous manipulation skills from simulations to real robots Credit: Allshire等人Garg和他的同事最终能够有效地将他们的深度强化学习算法在模拟中获得的结果传递给真实的机器人,其计算能力远低于过去其他团队所需的计算能力。此外,他们还展示了高度并行的仿真工具与现代深度强化学习方法的有效集成,以有效解决具有挑战性的灵巧操作任务。

研究人员还发现,关键点表示的使用导致了更快的训练和更高的现实任务成功率。未来,他们开发的框架可能有助于加速关于灵巧操作和模拟数据传输的研究,例如,允许研究人员完全在模拟中利用适度的计算资源开发策略,并将其部署在真正的低成本机器人上。

Credit: Allshire等人“我们现在希望在我们的框架基础上继续推进手动操纵的状态,以实现除手动重新定位之外的更多通用操纵,”Garg说。“这项工作为我们研究操纵语言的核心概念奠定了基础,特别是涉及直接抓握和物体重新定向的任务,范围从打开水瓶到抓握咖啡杯。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/8984.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~