物理科技生物学-PHYICA

机器学习模型能克服有偏见的数据集吗?

技术工程 2022-03-30 21:54:28

dataset Credit: CC0公共领域人工智能系统可能能够快速完成任务,但这并不意味着它们总是公平地完成任务。如果用于训练机器学习模型的数据集包含有偏见的数据,那么当系统在实践中做出决策时,很可能会表现出同样的偏见。例如,如果数据集主要包含白人男性的图像,那么用这些数据训练的面部识别模型可能对女性或不同肤色的人不太准确。

麻省理工学院的一组研究人员与哈佛大学和富士通有限公司的研究人员合作,试图了解机器学习模型何时以及如何能够克服这种数据集偏差。他们使用神经科学的方法来研究训练数据如何影响人工神经网络是否可以学习识别它以前没有见过的物体。神经网络是一种机器学习模型,它模仿人脑,包含处理数据的多层互连节点或“神经元”。

新的结果表明,训练数据的多样性对神经网络是否能够克服偏差具有重大影响,但同时数据集的多样性会降低网络的性能。他们还表明,如何训练神经网络,以及在训练过程中出现的特定类型的神经元,可以在它是否能够克服有偏见的数据集方面发挥重要作用。

“神经网络可以克服数据集偏差,这是令人鼓舞的。但是这里的要点是我们需要考虑数据的多样性。我们需要停止这样的想法,如果你只是收集大量的原始数据,那会让你有所收获。我们首先需要非常小心地设计数据集,”大脑和认知科学部(BCS)和大脑、思维和机器中心(CBMM)的研究科学家、论文的高级作者Xavier Boix说。

合著者包括前研究生斯潘丹·马丹、目前在哈佛攻读博士学位的通讯作者蒂莫西·亨利、贾梅尔·多齐尔、海伦·何和尼什查尔·班达里;佐佐木智武,前访问科学家,现在是富士通的研究员;Frédo Durand,电气工程和计算机科学教授,计算机科学和人工智能实验室成员;哈佛工程和应用科学学院计算机科学王安教授汉斯·彼得·菲斯特。这项研究发表在今天的《自然机器智能》上。

像神经科学家一样思考

Boix和他的同事通过像神经科学家一样思考来解决数据集偏差的问题。Boix解释说,在神经科学中,在实验中使用受控数据集是很常见的,这意味着研究人员尽可能多地了解数据集所包含的信息。

该团队建立了包含不同物体不同姿势图像的数据集,并仔细控制组合,使一些数据集比其他数据集更具多样性。在这种情况下,如果数据集包含更多仅从一个视点显示对象的图像,则该数据集的多样性较低。一个更加多样化的数据集有更多的图像从多个角度显示对象。每个数据集包含相同数量的图像。

研究人员使用这些精心构建的数据集来训练一个用于图像分类的神经网络,然后研究它能够在多大程度上从网络在训练期间没有看到的视点识别对象(称为分布外组合)。

例如,如果研究人员正在训练一个模型对图像中的汽车进行分类,他们希望模型学习不同汽车的外观。但是,如果训练数据集中的每一辆福特雷鸟都是从正面显示的,那么当训练过的模型获得一张从侧面拍摄的福特雷鸟图像时,它可能会对它进行错误分类,即使它是在数百万张汽车照片上训练的。

研究人员发现,如果数据集更加多样化,如果更多的图像从不同的角度显示物体,网络就能够更好地归纳出新的图像或视点。Boix说,数据多样性是克服偏见的关键。

“但并不是越多的数据多样性就越好;这里有一种紧张气氛。他说:“当神经网络在识别它没有见过的新事物方面变得更好时,它就会变得更难识别它已经见过的东西。”

测试培训方法

研究人员还研究了训练神经网络的方法。

在机器学习中,训练网络同时执行多项任务是很常见的。这个想法是,如果任务之间存在关系,网络将学习更好地执行每一个任务,如果它一起学习它们。

但研究人员发现事实正好相反——针对每项任务单独训练的模型比针对两项任务一起训练的模型更能克服偏差。

“结果非常惊人。其实第一次做这个实验的时候,我们还以为是bug。我们花了几个星期才意识到这是一个真实的结果,因为它太出乎意料了,”他说。

他们深入到神经网络内部去理解为什么会发生这种情况。

他们发现神经元特化似乎起了主要作用。当神经网络被训练来识别图像中的对象时,似乎出现了两种类型的神经元——一种专门识别对象类别,另一种专门识别视点。

Boix解释说,当网络被训练为单独执行任务时,这些专门的神经元更加突出。但是,如果一个网络被训练成同时完成这两项任务,一些神经元就会变得稀疏,不再专门负责一项任务。他说,这些非专门化的神经元更容易混淆。

“但现在的下一个问题是,这些神经元是如何到达那里的?你训练神经网络,它们从学习过程中出现。没有人告诉网络在其架构中包括这些类型的神经元。这是令人着迷的事情,”他说。

这是研究人员希望在未来工作中探索的一个领域。他们想看看他们是否能迫使神经网络发展这种专门化的神经元。他们还希望将他们的方法应用到更复杂的任务中,例如具有复杂纹理或不同照明的对象。

Boix感到鼓舞的是,神经网络可以学习克服偏见,他希望他们的工作可以激励其他人对他们在人工智能应用中使用的数据集更加深思熟虑。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/13504.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~