算法帮助人工智能系统避开“对抗性”输980免费影视入

Credit: CC0公共领域在一个完美的世界里，所见即所得。如果是这样的话，人工智能系统的工作将会非常简单。以自动驾驶汽车的防撞系统为例。如果车载摄像头的视觉输入完全可信，人工智能系统可以直接将该输入映射到适当的动作上——向右转向、向左转向或继续直行——以避免撞到摄像头在路上看到的行人。

但是，如果相机有一个小故障，使图像稍微移动了几个像素，会怎么样呢？如果汽车盲目相信所谓的“对抗性输入”，它可能会采取不必要的、潜在的危险行动。

麻省理工学院研究人员开发的一种新的深度学习算法旨在帮助机器在真实、不完美的世界中导航，方法是对它们接收的测量和输入建立健康的“怀疑”。

该团队将强化学习算法与深度神经网络相结合，两者分别用于训练计算机玩围棋和象棋等视频游戏，以构建一种他们称为CARRL的方法，用于深度强化学习的认证对抗鲁棒性。

研究人员在几个场景中测试了这种方法，包括模拟防撞测试和视频游戏Pong，发现CARRL比标准机器学习技术表现得更好——避免碰撞并赢得更多Pong游戏，即使面对不确定的敌对输入。

麻省理工学院航空航天系(AeroAstro)博士后迈克尔·埃弗雷特(Michael Everett)说:“你经常会认为对手是入侵你电脑的人，但也可能只是你的传感器不够好，或者你的测量不够完美，这种情况经常发生。“我们的方法有助于解释这种不完美，并做出安全的决定。在任何安全关键领域，这都是需要考虑的重要方法。”

埃弗雷特是概述这种新方法的研究的主要作者，该研究发表在IEEE的《神经网络和学习系统学报》上。这项研究源于麻省理工学院博士生比约恩·吕金斯的硕士论文，由麻省理工学院航空航天教授乔纳森·霍提供建议。

可能的现实

为了使人工智能系统对敌对输入具有鲁棒性，研究人员已经尝试实施监督学习的防御措施。传统上，神经网络被训练成将特定的标签或动作与给定的输入相关联。例如，一个神经网络被喂食成千上万个标记为猫的图像，以及标记为房子和热狗的图像，应该正确地将新图像标记为猫。

在健壮的人工智能系统中，同样的监督学习技术可以用许多稍微改变的图像版本进行测试。如果网络对每张图片都贴上相同的标签——猫——f，那么不管图片是否被修改，都很有可能是一只猫，网络对任何敌对的影响都是稳健的。

但是，遍历每一个可能的图像变化都是计算上的穷举，并且很难成功地应用于时间敏感的任务，例如碰撞避免。此外，现有的方法也没有确定使用什么标签，或者采取什么行动，如果网络不那么健壮，并且将一些改变的猫图像标记为房子或热狗。

“为了在安全关键的场景中使用神经网络，我们必须找到如何基于这些可能现实的最坏情况假设做出实时决策，”吕特金斯说。

最好的奖励

相反，该团队寻求建立在强化学习的基础上，强化学习是另一种机器学习形式，不需要将标记的输入与输出相关联，而是旨在根据最终的奖励来强化特定的动作以响应特定的输入。这种方法通常用于训练计算机玩和赢得游戏，如国际象棋和围棋。

强化学习主要应用于假设输入为真的情况。埃弗里特和他的同事说，他们是第一个在强化学习中为不确定的、对抗性的输入带来“可证明的鲁棒性”的人。

他们的方法，CARRL，使用一个现有的深度强化学习算法来训练一个深度Q网络，或DQN——一个具有多层的神经网络，最终将输入与Q值或奖励水平相关联。

该方法接受一个输入，例如一个带有单个点的图像，并考虑一个敌对的影响，或者点周围的一个区域，它实际上可能是代替。根据麻省理工学院最近的研究生徐伟“莉莉”翁博士20岁时开发的一种技术，这个区域内点的每一个可能位置都通过一个DQN反馈，以找到一个相关的动作，该动作将导致最佳的最坏情况奖励。

敌对的世界

在视频游戏“乒乓”的测试中，两名玩家操作屏幕两侧的拨片来回传递球，研究人员引入了一个“对手”，将球拉得比实际情况稍低。他们发现，随着对手影响力的增长，CARRL赢得的比赛比标准技术多。

埃弗雷特说:“如果我们知道测量不应该完全可信，球可能在某个区域内的任何地方，那么我们的方法告诉计算机，它应该把球拍放在那个区域的中间，以确保即使在最坏的偏差情况下，我们也能击球。

这种方法在避免碰撞的测试中同样稳健，研究小组模拟了一个蓝色和一个橙色的代理试图在不碰撞的情况下交换位置。当团队扰乱橙色特工对蓝色特工位置的观察时，CARRL引导橙色特工绕过另一名特工，随着对手变得越来越强大，蓝色特工的位置变得更加不确定。

有一次，CARRL变得过于保守，导致橙色特工认为另一名特工可能在附近的任何地方，作为回应，他完全避开了目的地。埃弗雷特说，这种极端保守主义是有用的，因为研究人员可以用它来限制算法的鲁棒性。例如，算法可能会考虑较小的偏差或不确定性区域，这仍然允许代理获得较高的报酬并到达其目的地。

除了克服不完美的传感器，埃弗里特说，CARRL可能是帮助机器人安全处理现实世界中不可预测的交互的一个开始。

埃弗雷特说:“人们可能是敌对的，比如走到机器人面前挡住它的传感器，或者与它们互动，不一定是出于好意。“机器人怎么能想到人们可能试图做的所有事情，并试图避开它们呢？我们想要防御什么样的对抗模式？这是我们正在考虑如何做的事情。”

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/kexuexinwen/1389.html

物理科技生物学-PHYICA

算法帮助人工智能系统避开“对抗性”输980免费影视入

发表评论

评论列表

最新发布

热门排行

物理科技生物学-PHYICA

算法帮助人工智能系统避开“对抗性”输980免费影视入

猜你喜欢

发表评论

评论列表

最新发布

热门排行