物理科技生物学-PHYICA

利用人工智能发现隐藏在海量数据集中的异常

技术工程 2022-04-04 21:56:49

dataset Credit: CC0公共领域识别国家电网中的故障就像是在大海里捞针。遍布美国的数十万个相互关联的传感器实时捕获电流、电压和其他关键信息的数据,通常每秒进行多次记录。麻省理工学院-IBM沃森人工智能实验室的研究人员设计了一种计算效率高的方法,可以实时自动查明这些数据流中的异常。他们展示了他们的人工智能方法,该方法学习模拟电网的互联性,在检测这些故障方面比其他一些流行的技术好得多。

因为他们开发的机器学习模型不需要关于电网异常的注释数据来进行训练,所以它更容易应用于高质量标记数据集通常很难获得的现实世界中。该模型也很灵活,可以应用于大量相互连接的传感器收集和报告数据的其他情况,如交通监控系统。例如,它可以识别交通瓶颈或揭示交通堵塞是如何发生的。

“在电网的情况下,人们试图使用统计数据来捕获数据,然后用领域知识来定义检测规则,例如,如果电压浪涌达到一定的百分比,那么电网运营商应该得到警告。这种基于规则的系统,即使有统计数据分析,也需要大量的劳动和专业知识。麻省理工学院-IBM沃森人工智能实验室的研究人员兼经理、资深作者陈洁说:“我们表明,我们可以自动化这个过程,也可以使用先进的机器学习技术从数据中学习模式。”。

合著者是Enyan Dai,麻省理工学院-IBM Watson AI实验室实习生,宾夕法尼亚州立大学研究生。这项研究将在学习表征国际会议上发表。

探测概率

研究人员首先将异常定义为发生概率较低的事件,如电压突然升高。他们将电网数据视为概率分布,因此如果他们可以估计概率密度,他们就可以识别数据集中的低密度值。最不可能出现的那些数据点对应于异常。

估计这些概率并不容易,尤其是因为每个样本都包含多个时间序列,而每个时间序列都是一组随时间记录的多维数据点。此外,捕获所有数据的传感器互为条件,这意味着它们以某种配置连接,一个传感器有时会影响其他传感器。

为了学习数据的复杂条件概率分布,研究人员使用了一种特殊类型的深度学习模型,称为归一化流,它在估计样本的概率密度方面特别有效。

他们使用一种称为贝叶斯网络的图形来增强标准化流模型,这种网络可以学习不同传感器之间复杂的因果关系结构。陈解释说,这种图形结构使研究人员能够看到数据中的模式,并更准确地估计异常情况。

“传感器之间是相互作用的,它们之间有因果关系,相互依赖。因此,我们必须能够将这种依赖性信息注入到我们计算概率的方式中,”他说。

这种贝叶斯网络将多个时间序列数据的联合概率分解或分解为不太复杂的条件概率,这些概率更容易参数化、学习和评估。这使得研究人员能够估计观察到某些传感器读数的可能性,并识别那些发生概率低的读数,这意味着它们是异常的。

他们的方法特别强大,因为这种复杂的图形结构不需要事先定义——模型可以在无人监督的情况下自行学习图形。

强大的技术

他们通过观察该框架识别电网数据、交通数据和供水系统数据异常的能力来测试该框架。他们用于测试的数据集包含人类识别的异常,因此研究人员能够将他们的模型识别的异常与每个系统中的真实故障进行比较。

他们的模型通过在每个数据集中检测到更高百分比的真实异常,胜过了所有基线。

“对于基线,它们中的许多都没有包含图形结构。这完全证实了我们的假设。“弄清楚图中不同节点之间的依赖关系无疑对我们有所帮助,”陈说。

他们的方法也很灵活。有了大量未标记的数据集,他们可以调整模型,在其他情况下(如交通模式)做出有效的异常预测。

Chen说,一旦部署该模型,它将继续从稳定的新传感器数据中学习,适应数据分布的可能漂移,并随着时间的推移保持准确性。

虽然这个特定的项目接近尾声,但他期待将他学到的经验应用到深度学习研究的其他领域,特别是图表。

陈和他的同事们可以利用这种方法来开发映射其他复杂的条件关系的模型。他们还想探索当图表变得巨大时,也许有数百万或数十亿个相互连接的节点,他们如何有效地学习这些模型。除了发现异常,他们还可以使用这种方法来提高基于数据集的预测的准确性,或者简化其他分类技术。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/13862.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~