物理科技生物学-PHYICA

说到人工智能,我们能抛弃数据集吗?

技术工程 2022-04-12 21:55:17

When it comes to AI, can we ditch the datasets?麻省理工学院的研究人员已经证明了使用生成式机器学习模型来创建基于真实数据的合成数据,这些数据可用于训练另一个图像分类模型。此图像展示了创成式模型转换方法的示例。鸣谢:麻省理工学院(Massachusetts Institute of Technology)需要大量数据来训练机器学习模型,以执行图像分类任务,例如在自然灾害发生后识别卫星照片中的损害。然而,这些数据并不总是容易获得的。如果首先存在可用的数据,那么数据集的生成可能需要数百万美元,而且即使是最好的数据集也常常包含对模型性能产生负面影响的偏差。为了规避数据集带来的一些问题,麻省理工学院的研究人员开发了一种训练机器学习模型的方法,该方法不是使用数据集,而是使用一种特殊类型的机器学习模型来生成极其逼真的合成数据,这些数据可以为下游视觉任务训练另一个模型。

他们的结果表明,仅使用这些合成数据训练的对比表征学习模型能够学习到与从真实数据中学习到的视觉表征相当甚至更好的视觉表征。

这种特殊的机器学习模型被称为生成模型,需要比数据集少得多的内存来存储或共享。使用合成数据也有可能回避一些围绕隐私和美国年龄权利的担忧,这些担忧限制了一些真实数据的分发方式。生成模型也可以被编辑以删除某些属性,如种族或性别,这可以解决传统数据集中存在的一些偏见。

“我们知道这种方法最终会奏效;我们只需要等待这些生成模型变得越来越好。但是,当我们证明这种方法有时甚至比真实的方法更好时,我们特别高兴,”计算机科学和人工智能实验室(CSAIL)的研究科学家、论文的第一作者阿里·贾汉尼安说。

Jahanian与CSAIL的研究生Xavier Puig和Yonglong Tian以及电气工程和计算机科学系的助理教授Phillip Isola一起撰写了这篇论文。这项研究将在国际学习表征会议上发表。

生成合成数据

一旦生成模型在真实数据上经过训练,它就可以生成如此逼真的合成数据,以至于几乎无法与真实数据区分开来。训练过程包括向生成模型显示数百万张包含特定类别对象(如汽车或猫)的图像,然后它学习汽车或猫的样子,以便能够生成类似的对象。

贾汉尼安说,基本上通过扳动开关,研究人员可以使用预先训练的生成模型输出稳定的独特、逼真的图像,这些图像基于模型训练数据集中的图像。

但他表示,生成模型甚至更有用,因为它们学会了如何转换它们接受训练的基础数据。如果模型是在汽车图像上训练的,它可以“想象”汽车在不同情况下的样子——训练中没有看到的情况——然后输出以独特的姿势、颜色或大小显示汽车的图像。

拥有同一张图像的多个视图对于一种称为对比学习的技术来说很重要,在这种技术中,机器学习模型被显示许多未标记的图像,以学习哪些图像对是相似的或不同的。

研究人员将一个预先训练的生成模型与一个对比学习模型联系起来,让这两个模型自动联合工作。贾汉尼安解释说,对比学习者可以告诉生成模型产生一个对象的不同视图,然后学习从多个角度识别该对象。

“这就像连接两块积木。因为生成模型可以给我们提供对同一事物的不同看法,它可以帮助对比方法学习更好的表达,”他说。

甚至比真的还要好

研究人员将他们的方法与其他几个使用真实数据训练的图像分类模型进行了比较,发现他们的方法与其他模型一样好,有时甚至更好。

使用生成模型的一个优点是,理论上,它可以创建无限数量的样本。因此,研究人员还研究了样本数量如何影响模型的性能。他们发现,在某些情况下,生成大量独特的样本会带来额外的改善。

“这些生成模型的酷之处在于,有人为你训练了它们。你可以在在线知识库中找到它们,这样每个人都可以使用它们。你不需要干预模型来获得好的表现,”贾汉尼安说。

但他警告说,使用生成模型有一些限制。在某些情况下,这些模型可能会泄露源数据,这可能会带来隐私风险,而且如果没有经过适当的审核,它们可能会放大它们接受训练的数据集的偏差。

他和他的合作者计划在未来的工作中解决这些限制。他们想探索的另一个领域是使用这种技术来生成可以改善机器学习模型的角落案例。角落案例往往无法从真实数据中学习到。例如,如果研究人员正在为自动驾驶汽车训练计算机视觉模型,真实数据将不会包含狗和它的主人在高速公路上奔跑的例子,因此该模型永远不会知道在这种情况下该做什么。综合生成该极限情况数据可以提高机器学习模型在一些高风险情况下的性能。

他说,研究人员还希望继续改进生成模型,以便他们能够合成更加复杂的图像。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/14420.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~