物理科技生物学-PHYICA

一种允许腿机器人不断从环境中学习的技术

技术工程 2022-01-31 21:54:33

A technique that allows legged robots to continuously learn from their environment Credit: Smith等人的腿式机器人具有许多有利的品质,包括长距离行驶和在各种陆基环境中导航的能力。然而,到目前为止,腿机器人主要被训练在特定的环境中移动,而不是适应周围的环境并在多种不同的环境中有效地操作。其中一个关键原因是,预测机器人在运行时可能遇到的所有可能的环境条件,并训练它对这些条件做出最佳反应是非常具有挑战性的。伯克利人工智能研究中心和加州大学伯克利分校的研究人员最近开发了一种基于强化学习的计算技术,该技术可以通过允许腿机器人主动从周围环境中学习并不断提高它们的视觉运动技能来规避这个问题。这项技术发表在arXiv上的一篇论文中,可以在现实世界中微调机器人的运动策略,使其在各种环境中更有效地移动。

开展这项研究的研究人员之一劳拉·史密斯(Laura Smith)告诉TechXplore,“我们不能以这样的方式对机器人进行预训练,以使它们在现实世界中部署时永远不会失败。“所以,要让机器人实现自主,它们必须能够从故障中恢复和学习。在这项工作中,我们开发了一个在现实世界中执行RL的系统,使机器人能够做到这一点。”

史密斯和她的同事设计的强化学习方法建立在加州大学伯克利分校的研究人员在过去开发的运动模仿框架上。这个框架允许有腿机器人通过观察和模仿动物的运动来轻松获得运动技能。

这段视频强调了恢复对于创造一个有弹性的自主机器人的重要性。此外,研究人员引入的新技术利用了纽约大学(NYU)的一个团队设计的无模型强化学习算法,被称为随机集合双Q学习(REDQ)算法。本质上,这是一种计算方法,允许计算机和机器人系统以非常有效的方式不断从以前的经验中学习。

史密斯解释说:“首先,我们在模拟中预先训练了一个赋予机器人运动技能的模型,包括一个恢复控制器。“然后,我们只是继续训练机器人,当它部署在现实世界的新环境中时,用一个学习过的控制器重置它。我们的系统仅依赖于机器人的机载传感器,因此我们能够在非结构化的室外环境中训练机器人。”

已学习的恢复控制器正在运行。Credit: Smith等人研究人员在一系列实验中评估了他们的强化学习系统,将该系统应用于一个四足机器人,观察它如何在不同的地形和材料上学习移动,包括地毯、草坪、memfoam和门垫。他们的发现非常有希望,因为他们的技术允许机器人在所有不同的表面上移动时自主微调其移动策略。

史密斯说:“我们还发现,我们可以将恢复控制器视为另一种学习的运动技能,并使用它在三个周期之间自动重置机器人,而不需要专家设计恢复控制器,也不需要有人在学习过程中手动干预。

本视频将学习控制器的性能与制造商设计的控制器进行了比较。功劳:史密斯等人在未来,这个研究团队开发的新强化技术可以用来显著提高现有和新开发的腿机器人的运动技能,使它们能够在各种各样的表面和地形上移动。这反过来有助于将这些机器人用于复杂的任务,包括在陆地上长途旅行,同时穿越许多具有不同特征的环境。

Credit: Smith等:“我们现在很兴奋能让我们的系统适应终身学习的过程,在这个过程中,机器人在现实世界中遇到各种各样、不断变化的情况时,永远不会停止学习,”Smith说。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/9272.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~