物理科技生物学-PHYICA

研究小组正式提出了新的数据流处理概念

技术工程 2022-02-07 21:53:37

ORNL, Google and Snowflake formalize novel data stream processing concept水印被认为是跟踪流数据处理完成程度的最有效机制,它允许在先前的任务完成后立即处理新任务。功劳:内森·阿米斯特德,ORNL来自美国能源部橡树岭国家实验室、谷歌公司、雪花公司和维维里卡有限公司的一组合作者测试了一种计算概念,这种概念有助于加快移动和其他电子设备上数据流的实时处理。该概念探索了水印的功能,水印被认为是跟踪流数据处理有多完整的最有效机制。水印允许在先前任务完成后立即处理新任务。

为了更好地理解水印是如何有用的,研究人员研究了两个不同数据流处理系统上的数据流计算。他们在8月于丹麦哥本哈根举行的第47届超大规模数据库国际会议上公布了这一结果。他们提交的论文是首批在基础研究环境中正式测试和检查水印的论文之一。

ORNL国家安全科学局人工智能系统部门负责人埃蒙·贝戈里说:“还没有一个清晰、有效的机制来跟踪数据流中随着时间推移和不同数据处理管道之间的相关现象。“水印是一个新兴的概念,它推动了流处理框架的发展。”

计算机科学家一直在寻找研究实时数据的方法,以便更好地预测消费者需求,估计供求关系,并向消费者提供更准确的信息。但是在过去的10年里,数据管理变得越来越具有挑战性。这一挑战的部分原因是社交媒体网站、自动驾驶汽车等自主平台以及移动设备上的实时计算和交互的激增。

为了确定不同平台如何有效地处理实时数据,该团队比较了目前能够实现最先进的实时数据实现的两个平台上的水印:开源流和批处理框架Apache Flink和流分析服务谷歌云数据流。云数据流是一个容错平台,针对全球范围内的流数据并行处理进行了优化。另一方面,Flink是为快速高效地处理数据流而构建的,与Cloud Dataflow相比具有较高的性能。

贝戈里说:“我们想看看这些在两种不同的实现上表现如何,以及它们如何对不同类型的流媒体服务有用。

研究人员发现,云数据流的水印传播往往具有更高的延迟——传输数据的延迟——并且弗林克的延迟随着管道深度和计算节点数量的增加而非线性增长。然而,这两个由同一个社区构建的开源系统提供了相似的用户体验。

Begoli说,水印最终比以前的流处理方法提供了更多的灵活性。在能源部和ORNL的研究背景下,它们将有助于分析复杂的网络事件,以及从多个来源和不同时间尺度收集数据,例如从测量健康状况、人类行为和运动或环境相互作用的传感器收集数据。

贝戈里说:“通常,有太多复杂的事情我们想要追踪。“如果你想捕捉你感兴趣的所有表现形式,并知道一个事件在所有来源的开始和结束时间,像水印这样的概念非常重要。”

未来,该团队将着眼于在不同的流数据源之间推广水印,并对不同实现风格产生的性能权衡进行形式化,例如Flink和云数据流架构风格所代表的那些。

这项研究利用了ORNL的内部资源。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/9778.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~