科学家创造了一种算法，在没有人工监督的情况下，给世界上的每个像素分配一个标签

Scientists create algorithm to assign a label to every pixel in the world, without human supervision 关于“CocoStuff 27”分割挑战的无监督语义分割预测。STEGO不使用标签来发现和分割一致的对象。与之前的算法不同，STEGO的预测是一致的、详细的，并且不会遗漏关键对象。信用:麻省理工学院CSAIL标签数据可能是一件苦差事。这是计算机视觉模型的主要来源；没有它，他们将很难识别物体、人和其他重要的图像特征。然而，仅仅产生一个小时的标记和标签数据就要耗费800个小时的人力时间。随着机器能够更好地感知我们的环境并与之互动，我们对世界的高保真理解也在发展。但是他们需要更多的帮助。来自麻省理工学院计算机科学和人工智能实验室(CSAIL)、微软和康奈尔大学的科学家试图通过创建“STEGO”来解决这个困扰视觉模型的问题，这是一种可以在没有任何人类标签的情况下联合发现和分割对象的算法，精确到像素。

STEGO学会了一种叫做“语义分割”的东西——这是一种为图像中的每个像素分配标签的过程。语义分割对于今天的计算机视觉系统来说是一项重要的技能，因为图像可能会被物体弄得杂乱无章。更具挑战性的是，这些对象并不总是适合文字框；相对于像植被、天空和土豆泥这样的“东西”，算法往往更适合像人和汽车这样的离散“东西”。以前的系统可能只是将一只在公园玩耍的狗的微妙场景视为一只狗，但通过给图像的每个像素分配一个标签，STEGO可以将图像分成其主要成分:一只狗、天空、草地和它的主人。

给世界上的每一个像素分配一个标签是雄心勃勃的——尤其是在没有任何人类反馈的情况下。今天的大多数算法都是从成堆的标记数据中获取知识，这些数据可能需要花费大量的人力来获取。想象一下标记100，000幅图像的每个像素是多么令人兴奋。为了在没有人类帮助的指导下发现这些对象，STEGO会在整个数据集中寻找相似的对象。然后，它将这些相似的对象关联在一起，以构建一个跨越所有图像的一致的世界视图。

看世界

能够“看”的机器对于一系列新兴技术至关重要，如自动驾驶汽车和医疗诊断的预测建模。由于STEGO可以在没有标签的情况下学习，它可以检测许多不同领域的对象，甚至是人类尚未完全理解的对象。

“如果你正在查看肿瘤扫描、行星表面或高分辨率生物图像，如果没有专业知识，很难知道要寻找什么对象。麻省理工学院电气工程和计算机科学博士生、麻省理工学院CSAIL研究机构、微软软件工程师、一篇关于隐写术的新论文的第一作者马克·汉密尔顿说:“在新兴领域，有时甚至连人类专家都不知道应该是什么样的对象。“在这种情况下，如果你想设计一种在科学边界上运作的方法，你不能依赖人类在机器之前找到它。”

STEGO在一系列视觉领域进行了测试，包括普通图像、驾驶图像和高空航拍照片。在每个领域，STEGO都能够识别和分割与人类判断密切相关的对象。STEGO最多样化的基准是COCO-St uff数据集，它由来自世界各地的多样化图像组成，从室内场景到进行体育运动的人，再到树木和奶牛。在大多数情况下，以前最先进的系统可以捕捉场景的低分辨率要点，但在精细细节上很难做到:一个人是一个斑点，一辆摩托车被捕捉为一个人，它不能识别任何鹅。在相同的场景中，STEGO将以前系统的性能提高了一倍，并发现了动物、建筑、人、家具等概念。

STEGO不仅在COCO-Stuff基准测试中将先前系统的性能提高了一倍，还在其他视觉领域取得了类似的飞跃。当应用于无人驾驶汽车数据集时，STEGO以比以前的系统高得多的分辨率和粒度成功分割出道路、人和街道标志。在来自太空的图像上，该系统将地球表面的每一平方英尺分解为道路、植被和建筑物。

连接像素

STEGO——代表“基于能量的图形优化的自我监督变压器”——建立在DINO算法的基础上，该算法通过ImageNet数据库中的1400万张图像了解世界。STEGO通过学习过程改进了DINO的主干，这种学习过程模仿了我们自己将世界碎片拼接在一起以产生意义的方式。

例如，你可以考虑两张狗在公园散步的图片。尽管它们是不同的狗，有不同的主人，在不同的公园，STEGO可以告诉(没有人类)每个场景的物体是如何相互关联的。作者甚至探索了STEGO的大脑，以了解图像中每个棕色的毛茸茸的小东西是如何相似的，以及其他共享对象如草和人是如何相似的。通过跨图像连接对象，STEGO构建了单词的一致视图。

“这个想法是，这些类型的算法可以在很大程度上以自动化的方式找到一致的分组，所以我们不必自己做，”汉密尔顿说。“理解生物图像等复杂的视觉数据集可能需要数年时间，但如果我们能够避免花费1000个小时梳理数据并对其进行标记，我们就可以找到并发现我们可能错过的新信息。我们希望这将有助于我们以一种更加基于经验的方式理解视觉单词。”

A new state of the art for unsupervised vision 通过隐写算法，研究科学家试图解决困扰视觉模型的大规模标记问题。STEGO可以在没有任何人类标签的情况下联合发现和分割对象，直到像素。学分:麻省理工学院CSAIL。展望未来

尽管有所改进，STEGO仍然面临着一定的挑战。一是标签可以是任意的。例如，COCO-Stuff数据集的标签区分了像香蕉和鸡翅这样的“食品”和像玉米粉和意大利面这样的“食品”。斯缇格看不出有什么区别。在其他情况下，STEGO被奇怪的图像弄糊涂了，比如一个香蕉放在电话听筒上，听筒上贴着“食品”，而不是“原材料”。

对于即将到来的工作，他们计划探索给予STEGO更多的灵活性，而不仅仅是将像素标记为固定数量的类别，因为现实世界中的事物有时可能同时是多种事物(如“食物”、“植物”和“水果”)。作者希望这将为算法提供不确定性、权衡和更抽象思维的空间。

“在制作理解潜在复杂数据集的通用工具时，我们希望这种类型的算法可以自动化从图像中发现对象的科学过程。在许多不同的领域，人类标记会非常昂贵，或者人类甚至不知道具体的结构，比如在某些生物和天体物理学领域。我们希望未来的工作能够应用于非常广泛的数据集。因为你不需要任何人类标签，我们现在可以开始更广泛地应用ML工具，”Hamilton说。

“STEGO简单、优雅，而且非常有效。我认为无监督分割是图像理解进步的基准，也是一个非常困难的问题。“随着transformer架构的采用，研究界在无监督图像理解方面取得了巨大进展，”牛津大学工程科学系计算机视觉和机器学习教授兼视觉几何小组共同负责人Andrea Vedaldi说。"这项研究提供了可能是最直接和最有效的证明，这一进展的无监督分割."

汉密尔顿与麻省理工学院CSAIL博士生张、康奈尔大学助理教授Bharath Hariharan、康奈尔理工学院副教授Noah Snavely和麻省理工学院教授William T. Freeman一起撰写了这篇论文。他们将在2022年学习代表国际会议(ICLR)上提交论文。

来源：由phyica.com整理转载自PH，转载请保留出处和链接！

本文链接：http://www.phyica.com/jishugongcheng/15549.html