机器学习模型能克服有偏见的数据集吗？

dataset Credit: CC0公共领域人工智能系统可能能够快速完成任务，但这并不意味着它们总是公平地完成任务。如果用于训练机器学习模型的数据集包含有偏见的数据，那么当系统在实践中做出决策时，很可能会表现出同样的偏见。例如，如果数据集主要包含白人男性的图像，那么用这些数据训练的面部识别模型可能对女性或不同肤色的人不太准确。

麻省理工学院的一组研究人员与哈佛大学和富士通有限公司的研究人员合作，试图了解机器学习模型何时以及如何能够克服这种数据集偏差。他们使用神经科学的方法来研究训练数据如何影响人工神经网络是否可以学习识别它以前没有见过的物体。神经网络是一种机器学习模型，它模仿人脑，包含处理数据的多层互连节点或“神经元”。

新的结果表明，训练数据的多样性对神经网络是否能够克服偏差具有重大影响，但同时数据集的多样性会降低网络的性能。他们还表明，如何训练神经网络，以及在训练过程中出现的特定类型的神经元，可以在它是否能够克服有偏见的数据集方面发挥重要作用。

“神经网络可以克服数据集偏差，这是令人鼓舞的。但是这里的要点是我们需要考虑数据的多样性。我们需要停止这样的想法，如果你只是收集大量的原始数据，那会让你有所收获。我们首先需要非常小心地设计数据集，”大脑和认知科学部(BCS)和大脑、思维和机器中心(CBMM)的研究科学家、论文的高级作者Xavier Boix说。

合著者包括前研究生斯潘丹·马丹、目前在哈佛攻读博士学位的通讯作者蒂莫西·亨利、贾梅尔·多齐尔、海伦·何和尼什查尔·班达里；佐佐木智武，前访问科学家，现在是富士通的研究员；Frédo Durand，电气工程和计算机科学教授，计算机科学和人工智能实验室成员；哈佛工程和应用科学学院计算机科学王安教授汉斯·彼得·菲斯特。这项研究发表在今天的《自然机器智能》上。

像神经科学家一样思考

Boix和他的同事通过像神经科学家一样思考来解决数据集偏差的问题。Boix解释说，在神经科学中，在实验中使用受控数据集是很常见的，这意味着研究人员尽可能多地了解数据集所包含的信息。

该团队建立了包含不同物体不同姿势图像的数据集，并仔细控制组合，使一些数据集比其他数据集更具多样性。在这种情况下，如果数据集包含更多仅从一个视点显示对象的图像，则该数据集的多样性较低。一个更加多样化的数据集有更多的图像从多个角度显示对象。每个数据集包含相同数量的图像。

研究人员使用这些精心构建的数据集来训练一个用于图像分类的神经网络，然后研究它能够在多大程度上从网络在训练期间没有看到的视点识别对象(称为分布外组合)。

例如，如果研究人员正在训练一个模型对图像中的汽车进行分类，他们希望模型学习不同汽车的外观。但是，如果训练数据集中的每一辆福特雷鸟都是从正面显示的，那么当训练过的模型获得一张从侧面拍摄的福特雷鸟图像时，它可能会对它进行错误分类，即使它是在数百万张汽车照片上训练的。

研究人员发现，如果数据集更加多样化，如果更多的图像从不同的角度显示物体，网络就能够更好地归纳出新的图像或视点。Boix说，数据多样性是克服偏见的关键。

“但并不是越多的数据多样性就越好；这里有一种紧张气氛。他说:“当神经网络在识别它没有见过的新事物方面变得更好时，它就会变得更难识别它已经见过的东西。”

测试培训方法

研究人员还研究了训练神经网络的方法。

在机器学习中，训练网络同时执行多项任务是很常见的。这个想法是，如果任务之间存在关系，网络将学习更好地执行每一个任务，如果它一起学习它们。

但研究人员发现事实正好相反——针对每项任务单独训练的模型比针对两项任务一起训练的模型更能克服偏差。

“结果非常惊人。其实第一次做这个实验的时候，我们还以为是bug。我们花了几个星期才意识到这是一个真实的结果，因为它太出乎意料了，”他说。