物理科技生物学-PHYICA

通过新的软件工具彻底改变数据访问:平铺

技术工程 2022-02-12 21:54:08

Revolutionizing data access through Tiled科学家可以使用Tiled无缝访问各种格式的数据存储,如文件、数据库或其他数据服务。平铺允许用户使用最方便的工具查看、切片和研究他们的数据。功劳:布鲁克海文国家实验室每次科学家研究未来电池的新材料或研究疾病以开发新药时,他们都必须涉过数据的海洋。今天,科学工具的整个生态系统创造了各种各样有待探索的数据。多亏了位于美国能源部布鲁克海文国家实验室的国家同步辐射光源二号(NSLS二号)的科学家,这一探索将变得更加容易。他们新推出的软件工具——名为平铺——让研究人员能够比以往任何时候都更方便地查看、切片和研究他们的数据。与以前的方法相比,这种新的数据访问工具使寻找和分析正确的数据变得轻而易举,为下一次科学突破铺平了道路。作为美国能源部科学办公室遍布全国的28个用户设施之一,NSLS二号每年欢迎近2000名科学家使用其超强光,应对材料和生命科学领域的最大挑战。这些访问的研究人员来自全球各地,与专家合作,使用NSLS二号的独一无二的研究工具。他们用强烈的x光照射从古代岩石到新型量子材料的样本,并用先进的探测器捕捉输出信号。反过来,这些探测器吐出数据流,等待科学家分析。

“处理数据是所有研究的核心部分,但它本身也是一项挑战。它有多种格式,大小和形状各不相同,并非每一部分都对研究人员有用。这就是为什么开发一个软件工具使得访问、查看和整理数据变得如此重要,”NSLS二号的计算科学家丹·艾伦说。

Tiled是面向数据感知门户和数据科学工具的数据访问服务。这意味着平铺位于数据库和文件系统之上,因此科学论者可以通过例如网络浏览器或数据分析软件访问他们的数据。虽然数据科学和系统集成(DSSI)项目已在NSLS二号的所有实验站铺开,但这项服务,就像它的兄弟项目蓝天(也是NSLS二号开发的数据采集软件)一样,可以在全球任何研究实验室使用。这是可能的,因为平铺是根据流行的开源软件许可证发布的。

“尽管我们用编程语言Python开发了Tiled,因此,它自然地与基于Python的数据科学库集成在一起,但该服务没有任何特定于Python的地方,”NSLS二号的首席数据科学家斯图尔特·坎贝尔说。客户端使用应用编程接口将用户应用程序与服务器连接起来。一个应用编程接口基本上是一组规则,或者是一个定义不同软件如何相互通信的契约。这种方法的伟大之处在于,一旦定义了这些规则和接口,它就为用户和开发人员提供了一个结构,在这个结构中,他们可以构建一些优秀的工具,并将功能扩展到我们最初想象的范围之外。”

Tiled的灵活性允许该服务与任何数据库或文件集合无缝集成,因此它可以用于各种不同技术和数据的实验。

满足您的数据需求

“过去,我曾帮助我的博士顾问从NSLS二号这样的设施下载数据。这很乏味,因为我们需要一次下载所有数据,然后才能整理出有用的部分。此外,数据采用检测器的格式,无论我们想如何分析。这意味着经过长时间的下载后,我们必须转换数据,才能看到它,”艾伦说。

坎贝尔补充说,“如果丹当时有Tiled,他可以很容易地在网络浏览器或数据分析应用程序上浏览数据,整理出好的部分,并通过一个链接只与他的顾问分享感兴趣的部分。”

Revolutionizing data access through Tiled此平铺网络客户端预览显示了如何同时显示不同测量值的不同检测器图像。预览显示黑暗模式下的门户。信用:布鲁克海文国家实验室通过使用平铺,科学家可以预览他们的数据,只需访问他们想要的部分,而无需大量下载。他们还可以选择下载数据的格式,或者直接输入分析软件。与此同时,平铺提供基于网络安全标准的访问控制,以便所有数据保持安全。因为设置一个新帐户可能是一个障碍,所以可以配置平铺来允许第三方服务登录,如谷歌和ORCID。

“远程能力比以往任何时候都更重要,”迪伦·麦克雷诺兹说,他是位于劳伦斯·伯克利国家实验室的美国能源部科学办公室用户设施“高级光源”的计算系统工程师,曾在“平铺”上合作。“基于开放、标准的网络协议,我们可以轻松地将数据移动到需要的地方,从而提升我们的科学能力。”

新软件甚至实现了一种“飞机模式”,将数据存储在用户的笔记本电脑上,这样研究人员就可以在离线或慢速互联网连接的情况下继续工作。

“我们使用Tiled的目的是简化每个人的数据访问。如果你不需要担心将数据格式转换成其他格式或从文件名中挑选信息,你可以考虑更重要的部分,比如找到研究问题的答案,”NSLS二号的计算科学家托马斯·卡斯维尔说。

简化和标准化数据访问对于优化现有工作流和支持以机器学习、人工智能和其他高级分析为中心的未来工作流至关重要。这些新兴技术关键依赖于无摩擦的数据访问,无论数据是如何收集或存储的,以释放其全部潜力。

平铺式:适合任何研究难题

平铺的第一批用户已经构建了一些令人兴奋的复杂工具来支持他们的研究。

“平铺提供了一种全新的数据访问方式,将简化和精简实验的处理和分析管道。不再有沉闷的ky下载或浪费时间从十几种格式导入数据来分析实验!”NSLS二号的助理物理学家丹尼斯·莱斯切夫说。“此外,Tiled将实现更直接的数据共享方式,为未来更开放、更透明的科学铺平道路。”

新软件不仅适用于NSLS二号的用户:该团队设计的软件适用于任何数据源。它可以在像NSLS二号这样的设施中大规模部署,但它也可以在学生的笔记本电脑或研究小组的工作站上运行。其他实验室和机构已经有机会根据自己的需要调整该软件。

Revolutionizing data access through Tiled这款Jupyter Notebook是一款流行的数据分析网络应用程序,它正在使用Tiled来访问数据以进行计算、处理和可视化。功劳:布鲁克海文国家实验室彼得·博凯奇是美国国家标准与技术研究所(NIST)的一名工作人员科学家,他是平铺显示的早期用户,他已经将平铺显示与自己的科学数据分析程序PyHyperScattering集成在一起。他让Tiled处理数据传输和安全细节,在此基础上为用户提供他们工作所需的特定界面。

“在过去十年中,典型分析所需的同步加速器数据量急剧扩大,迅速超出了现有数据传输平台的能力。平铺式和类似的解决方案有望让用户在正确的时间无缝访问正确的数据,并基于X射线科学加速发现,”Beaucage说。

除了博凯奇,平铺的其他用户也建立了数据分析管道,将数据从NSLS二号的现场实验转移到远程集群,并进入定制软件进行可视化和查询数据。平铺支持每一步。

“总的来说,我们非常自豪能够推出Tiled。这是我们过去六年工作的高潮。它结合了我们在现代数据访问工具中想要的所有功能,并且与Bluesky齐头并进,”Campbell说。

前面的路

平铺将使整个花园的有用工具能够为广泛的技术成长。该团队着眼于构建各种专注于特定研究技术的网络应用。该团队还希望设计一个公共数据接口,以便任何人都可以使用平铺来探索真正的公共可用数据。

“资助通常需要开放的数据访问,但研究人员很难以一种实用且立即有用的方式实现这一点。Tiled为研究人员铺平了道路,与他们已经使用的工具合作,帮助他们按照科学数据管理和管理的公平指导原则,使数据可查找、可访问、可互操作和可重用,”艾伦补充道。

通过将数据的存储方式与访问方式分开,Tiled开启了一种在内部使用尖端存储和搜索技术的方式,同时为研究人员提供了久经考验的既定标准。它在他们所在的地方与他们会面,并让他们负责如何格式化和处理他们的数据。

“Tiled的目标是跟随其他NSLS II软件努力发展一个贡献者和用户的友好社区。艾伦说:“我们正在积极寻求与世界各地面临类似挑战的设施和研究人员——无论是工业、学术界还是政府——合作,我们很高兴看到我们可以在这个平台上共同建设什么。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/10141.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~