物理科技生物学-PHYICA

新系统自动清理凌乱的数快手怎么搜索别人据表

技术工程 2021-11-10 21:53:31

New system cleans messy data tables automatically麻省理工学院的研究人员创建了一个新的系统,可以自动清除“脏数据”——数据分析师、数据工程师和数据科学家害怕的错别字、重复、缺失值、拼写错误和不一致。信用:麻省理工学院麻省理工学院的研究人员创建了一个新系统,可以自动清除“脏数据”——数据分析师、数据工程师和数据科学家害怕的错别字、重复、缺失值、拼写错误和不一致。该系统名为PClean,是概率计算项目(Probabilistic Computing Project)的研究人员编写的一系列特定领域概率编程语言中的最新一种,该项目旨在简化和自动化人工智能应用程序的开发(其他包括一种用于通过逆向图形进行3D感知,另一种用于对时间序列和数据库进行建模)。根据Anaconda和Figure进行的调查,数据清理可能需要数据科学家四分之一的时间。将任务自动化具有挑战性,因为不同的数据集需要不同类型的清理,并且通常需要对世界上的对象进行常识性的判断调用(例如,有人居住在几个被称为“贝弗利山”的城市中的哪一个)。PClean为这些类型的判断调用提供了通用的常识模型,可以根据特定的数据库和错误类型进行定制。

PClean使用基于知识的方法来自动化数据清理过程:用户编码关于数据库的背景知识以及可能出现的问题。以清理公寓清单数据库中的州名为例。如果有人说他们住在贝弗利山,但州栏空着怎么办?虽然在加州有一个著名的贝弗利山,但在佛罗里达州、密苏里州和得克萨斯州也有一个……巴尔的摩附近有一个被称为贝弗利山的街区。你怎么知道这个人住在哪?这就是PClean富有表现力的脚本语言的来源。用户可以向PClean提供该领域的背景知识以及数据可能被破坏的情况。PClean通过常识概率推理将这些知识结合起来,得出答案。例如,鉴于对典型租金的额外了解,PClean推断正确的贝弗利山在加州,因为被调查者居住的地方租金成本很高。

该论文的主要作者亚历克斯·卢(Alex Lew)是电气工程和计算机科学系(EECS)的一名博士生,他说,他最兴奋的是,个人计算机学习提供了一种从计算机寻求帮助的方式,就像人们互相寻求帮助一样。“当我向朋友寻求帮助时,往往比向电脑寻求帮助更容易。这是因为在当今占主导地位的编程语言中,我必须给出一步一步的指令,这些指令不能假设计算机有任何关于世界或任务的上下文——或者甚至只是常识性的推理能力。对于人类,我可以假设所有这些事情,”他说。“保时捷中国朝着缩小这一差距迈出了一步。它让我告诉电脑我对某个问题的了解,编码了我会向帮助我清理数据的人解释的背景知识。我还可以给出我已经发现的PClean提示、技巧和窍门,以便更快地解决任务。”

合著者是莫妮卡·阿格拉瓦尔,EECS的一名博士生;大卫·桑塔格,EECS副教授;和大脑与认知科学系的主要研究科学家维卡什·k·曼辛赫卡。

什么样的创新让这一点得以实现?

加州大学伯克利分校斯图尔特·拉塞尔实验室的汉娜·帕苏拉和其他人在2003年的一篇论文中提出,基于声明性生成知识的概率清洗可能比机器学习提供更高的准确性。加州大学伯克利分校的计算机科学教授拉塞尔说:“在现实世界中,确保数据质量是一个巨大的问题,几乎所有现有的解决方案都是临时的、昂贵的、容易出错的。“PClean是第一个基于生成式数据建模的可扩展、精心设计的通用解决方案,这必须是正确的方向。结果不言自明。”合著者Agrawal补充道,“现有的数据清理方法在表达能力上受到了更多的限制,这可能对用户更友好,但代价是限制太多。此外,我们发现PClean可以扩展到非常大的数据集,这些数据集在现有系统下运行时间不现实。”

PClean建立在概率编程的最新进展之上,包括麻省理工学院概率计算项目建立的一个新的人工智能编程模型,该模型使得应用人类知识的现实模型来解释数据变得更加容易。PClean的修复基于贝叶斯推理,这是一种通过将基于先验知识的概率应用于手头的数据来权衡模糊数据的替代解释的方法。卢说:“做出这种不确定决定的能力,即我们想告诉计算机它可能会看到什么样的东西,并让计算机自动使用它来找出什么可能是正确的答案,是概率编程的核心。

PClean是第一个贝叶斯数据清理系统,可以将领域专业知识与常识推理相结合,自动清理数百万条记录的数据库。PClean通过三项创新实现了这一规模。首先,PClean的脚本语言允许用户对他们所知道的进行编码。这产生了精确的模型,即使对于复杂的数据库也是如此。其次,PClean的推理算法采用两阶段方法,基于一次处理一条记录,对如何清理记录做出明智的猜测,然后重新审视其判断调用以修复错误。这产生了可靠、准确的推断结果。第三,PClean提供了一个生成快速推理代码的自定义编译器。这使得PClean能够以比多种竞争方法更快的速度在百万记录的数据库上运行。“PClean用户可以向PClean提示如何更有效地推理他们的数据库,并调整其性能——这与以前的概率编程数据清理方法不同,后者主要依赖于通常太慢或不准确的通用推理算法,”Mansinghka说。

与所有概率程序一样,该工具工作所需的代码行比可选的最先进选项少得多:PClean程序只需要大约50行代码就能在准确性和运行时间方面超越基准。相比之下,一个简单的蛇手机游戏需要运行两倍的代码,而《我的世界》的代码量远远超过100万行。

在他们刚刚在2021年人工智能和统计学会会议上发表的论文中,作者展示了PClean通过使用PClean检测220万行医疗保险医生比较国家数据集的错误和估算缺失值来扩展到包含数百万条记录的数据集的能力。PClean仅运行了7个半小时,就发现了8000多个错误。作者随后通过手工(通过在医院网站和医生领英页面上的搜索)证实,对于超过96%的人来说,PClean提出的修复方案是正确的。

由于PClean是基于贝叶斯概率的,它也可以给出其不确定性的校准估计。“它可以维持多个假设——给你分级的判断,而不仅仅是肯定/否定的答案。这可以建立信任,并帮助用户在必要时覆盖PClean。例如,你可以看一个PClean不确定的判断,并告诉它正确的答案。然后,它可以根据你的反馈更新它的其余判断,”曼辛赫卡说。“我们认为,那种将人类判断和机器判断交织在一起的互动过程有很多潜在价值。我们认为PClean是一种新型人工智能系统的早期例子,它可以告诉人们更多的知识,在不确定的时候报告,并以更有用的、类似人类的方式推理和与人互动。”

DeepMind的高级研究科学家大卫·普法乌在一条推文中指出,PClean满足了业务需求:“当你考虑到绝大多数业务数据不是狗的图像,而是关系数据库和电子表格中的条目时,这是一个奇迹,像这样的东西还没有深度学习那样成功。”

好处、风险和监管

PClean使得将杂乱、不一致的数据库加入干净的记录变得更便宜、更容易,而不需要像目前以数据为中心的公司那样在人力和软件系统上进行大量投资。这有潜在的社会利益——但也有风险,其中之一是个人隐私法可能会让侵犯人们隐私变得更便宜、更容易,甚至有可能通过整合来自多个公共来源的不完整信息来取消他们的匿名。

“我们最终需要更强有力的数据、人工智能和隐私监管来减轻这些伤害,”曼辛赫卡说。卢补充道,“与机器学习的数据清理方法相比,PClean可能允许更细粒度的监管控制。例如,PClean不仅可以告诉我们它合并了两个记录,作为对同一个人的引用,还可以告诉我们它为什么这样做——我可以自己判断我是否同意。我甚至可以告诉保时捷中国,只考虑合并两个条目的某些原因。”不幸的是,研究人员表示,无论数据集清理得多么公平,隐私问题都会持续存在。

曼辛赫卡和卢很高兴帮助人们追求对社会有益的应用。希望使用PClean来提高新闻和人道主义应用数据质量的人与他们进行了接触,例如反腐败监测和整合提交给州选举委员会的捐赠者记录。阿格沃尔说,她希望PClean能腾出数据科学家的时间,“专注于他们关心的问题,而不是数据清理。早期的反馈和对PClean的热情表明情况可能就是这样,我们很高兴听到这个消息。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/3857.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~