强化学习算法在经典视频游戏中的得一色里樱分高于人类和其他人工智能系统

Reinforcement learning algorithms score higher than humans and other AI systems at classic video games 旧金山优步人工智能实验室的一组研究人员开发了一套学习算法，该算法被证明比人类玩家或其他人工智能系统更擅长玩经典视频游戏。在他们发表在《自然》杂志上的论文中，研究人员解释了他们的算法如何不同于其他算法，以及为什么他们认为它们在机器人、语言处理甚至设计新药方面有应用。强化学习算法通过综合大数据集中提供的信息来学习如何做事——它们识别模式并使用它们来猜测新数据。这就是强化学习算法如何被用来在x光中发现肺癌。但是，正如这项新工作的研究人员指出的那样，当遇到与数据集中其他数据不匹配的数据时，这种算法往往会遇到麻烦。这就是为什么这样的系统有时会返回不正确的结果。

在这项新的努力中，研究人员通过添加一种算法来克服这个问题，该算法可以记住以前的算法在试图解决问题时所采用的所有路径。当它发现一个看起来不正确的数据点时，它会返回到它的内存映射并尝试另一条路线。在玩电子游戏方面，它在玩的时候保留屏幕抓取，当发现自己输了的时候，回到游戏的另一个点，尝试另一种方法。该算法还将看起来相似的图像组合在一起，以确定如果事情出错，它应该回到什么时间点。

研究人员通过增加游戏规则和一个目标来测试他们的新方法——获得尽可能多的分数，并尝试每次都获得更高的分数。然后他们用他们的系统玩了55个雅达利游戏，随着时间的推移，这些游戏已经成为测试人工智能系统的基准。新系统在85.5%的时间里击败了其他AI系统。它在蒙特祖玛的复仇中表现得特别好，得分比任何其他人工智能系统都高，并打破了人类的记录。

研究人员认为，他们的算法可以移植到其他应用中，如机器人的图像或语言处理。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/kexuexinwen/1032.html