物理科技生物学-PHYICA

主要的糊里糊涂爱上它全集机器学习数据集有数万个错误

技术工程 2021-10-16 21:54:33

Major ML datasets have tens of thousands of errors Credit:麻省理工学院计算机科学与人工智能实验室众所周知,机器学习数据集有其公平的错误份额,包括错误标记的图像。但是还没有太多的研究来系统地量化它们有多容易出错。此外,先前的工作集中在ML数据集的训练数据中的错误。但是测试集是我们用来衡量机器学习状态的基准,没有研究关注过ML测试集之间的系统误差——我们依赖这些测试集来了解ML模型的工作情况。

在一篇新论文中,由麻省理工学院计算机科学和人工智能实验室(CSAIL)的研究人员领导的团队研究了10个被引用超过10万次的主要数据集,其中包括ImageNet和亚马逊的评论数据集。

研究人员发现,所有数据集的平均错误率为3.4%,包括ImageNet的6%,ImageNet可以说是谷歌和脸书等公司开发的流行图像识别系统中使用最广泛的数据集。

即使是开创性的MNIST数字数据集,它在过去20年中一直是光学数字识别的基石,并在成千上万的同行评审的ML出版物中进行了基准测试,在测试集中也包含15个(人工验证的)标签错误。

该团队还创建了一个演示,让用户仔细阅读不同的数据集,以对发生的不同类型的错误进行采样,包括:

贴错标签的图像,比如一种狗被混淆为另一种狗,或者婴儿被混淆为乳头。贴错标签的文本情绪,就像亚马逊产品评论在实际上是正面的时候被描述为负面。贴错标签的YouTube视频音频,就像爱莉安娜·格兰德的高音被归类为哨子。学分:麻省理工学院计算机科学和人工智能实验室

合著者柯蒂斯·诺斯卡特说,他们发现的一个惊喜是,像ResNet-18这样的较弱模型通常比像ResNet-50这样的更复杂的模型具有更低的错误率,这取决于不相关数据(“噪声”)的流行程度。Northcutt建议ML从业者考虑使用简单模型,如果他们的真实数据集的标签错误率为10%。

该团队的成果建立在麻省理工学院在创建“自信学习”方面所做的大量工作的基础上,自信学习是机器学习的一个子领域,它着眼于数据集来发现和量化标签噪声。在这个项目中,自信学习被用于在人工验证之前用算法识别所有的标签错误。

该团队还利用开源python包cleanlab,让其他研究人员很容易复制他们的结果,并在自己的数据集中找到标签错误。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/2126.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~