物理科技生物学-PHYICA

SEIHAI:赢得neurops-2020 mineral竞赛的分级人工智能

技术工程 2022-02-18 22:00:23

SEIHAI: The hierarchical AI that won the NeurIPS-2020 MineRL competition 研究人员分层架构概述。Credit: Mao等近年来,基于强化学习的计算工具在包括图像分类和机器人物体操纵在内的众多任务中取得了显著的成果。与此同时,计算机科学家也一直在训练强化学习模型来玩特定的人类游戏和视频游戏。为了挑战致力于强化学习技术的研究团队,神经信息处理系统年度会议引入了MineRL竞赛,这是一项在《我的世界》对同一任务测试不同算法的竞赛,这是由Mojang工作室开发的著名计算机游戏。更具体地说,参赛者被要求创建需要从《我的世界》游戏的原始像素中获得钻石的算法。

这些算法只能在MineRL模拟器创建的8,000,000个样本上用一台GPU机器训练四天。除了训练数据集,还为参与者提供了大量的人类演示(即任务由人类玩家解决的视频帧)。

华为诺亚方舟实验室、天津大学和清华大学的一组研究人员赢得了2020年神经科学竞赛。通过使用一个名为SEIHAI的样本高效的分层人工智能(AI)工具,研究人员能够超越参与竞赛的所有其他算法。

“我们展示了SEIHAI,一种充分利用人类演示和任务结构的样本高效的分层人工智能,”于航·毛和他的同事在一篇概述他们的人工智能的论文中写道,该论文已在arXiv上预发布。“具体来说,我们将任务分成几个顺序相关的子任务,并使用强化学习和模仿学习为每个子任务训练一个合适的代理。”

要在《我的世界》获得钻石,玩家需要遵循一系列步骤。接着,他们需要砍一棵树来制作一根圆木,然后用圆木制作一把木镐,然后用木镐挖出一块鹅卵石。最后,鹅卵石需要被放入熔炉中,并被制成石头,可以是钻石或其他东西。钻石在游戏中很少出现,这使得MineRL参与者的任务更加复杂。

为了最有效地完成这项任务,毛和他的同事们把它分成一系列子任务,每个子任务需要不同的技能和能力。然后,他们训练不同的代理人分别处理每个子任务,使用强化学习或模仿学习,这取决于哪一个最适合他们试图解决的问题。

为了决定哪个代理更适合每个不同的子任务,研究人员使用了调度器,这是一种工具,可以根据需要完成的子任务的独特特征为不同的情况选择代理。研究人员创建的hierarchica l模型的性能明显优于参与MineRL 2020竞赛的所有其他算法和模型,取得了显著的成果。

研究人员在论文中写道:“我们在neurops-2020 mineral竞赛的初赛和决赛中获得了第一名,这证明了我们的分层方法SEIHAI的效率。“我们认为,开发适当结合人类先验知识和基于样本的高效学习技术的方法是一种有竞争力的方法,可以解决演示有限、奖励稀少但任务结构明确的复杂任务。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/10569.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~