物理科技生物学-PHYICA

科学家开发新的计算方法来减少X射线数据中的噪音

技术工程 2022-04-30 21:53:12

Scientists develop new computational approach to reduce noise in X-ray data机器学习模型的图形描述,显示了一系列XPCS图像(左上),这些图像被输入到机器学习模型(下),产生用于进一步分析的去噪数据(右上)。鸣谢:布鲁克海文国家实验室来自美国能源部布鲁克海文国家实验室的国家同步加速器光源II (NSLS-II)和计算科学倡议(CSI)的科学家帮助解决了同步加速器X射线实验中的一个常见问题:减少数据中存在的噪音或无意义的信息。他们的工作旨在提高NSLS-II X射线研究的效率和准确性,以增强科学家在该设施的整体研究经验。NSLS-II是能源部科学办公室的用户设施,它产生X射线束,用于研究大量的样品,从潜在的新电池材料到可以修复污染土壤的植物。来自全国和世界各地的研究人员来到N SLS-II,用X射线研究他们的样品,在这个过程中收集了大量的数据。NSLS-II向访问研究人员提供的许多X射线技术之一是X射线光子相关离子光谱学(XPCS)。XPCS通常用于研究与时间相关并发生在纳米尺度及以下的材料行为,如结构特征之间和内部的动力学,如微小颗粒。例如,XPCS已经被用于研究高级计算材料的磁性和聚合物(塑料)的结构变化。

虽然XPCS是一种收集信息的强大技术,但收集的数据质量和可以研究的材料范围受到XPCS X射线束“通量”的限制。通量是在某个时间点穿过给定区域的X射线数量的度量,高通量会导致数据中有太多的“噪声”,掩盖了科学家们正在寻找的信号。对于某些实验装置来说,降低这种噪声的努力是成功的。但是对于某些类型的XPCS实验来说,获得更合理的信噪比是一个很大的挑战。

在XPCS,X射线会散射样本并产生斑点图案。研究人员拍摄了该图案的许多连续图像,并对它们进行分析,以找出它们的强度之间的相关性。这些相关性产生关于样本内依赖于时间的过程的信息,例如其结构可能如何松弛或重组。但是当图像有噪声时,这种信息更难提取。

对于这个项目,该团队开始使用机器学习(ML)创建新的方法和模型,这是一种人工智能,计算机程序和系统可以自学问题的解决方案,并根据它们接收的数据进行调整。该项目涉及来自两条NSLS-II光束线的工作人员,相干X射线散射(CSX)和相干硬X射线散射(CHX),以及NSLS-II的数据科学和系统集成(DSSI)计划和布鲁克海文的CSI小组。

“虽然仪器开发和实验协议的优化在降噪方面至关重要,但在某些情况下,计算方法可以进一步推动改进,”NSLS-II计算研究员Tatiana Konstantinova说。她是这篇论文的第一作者,这篇论文发表在2021年7月20日的《自然科学报告》网络版上。

康斯坦丁诺娃和她的同事们想要创建可以应用于各种XPCS实验的模型。他们还希望这些模型可以在项目的不同阶段使用,从数据收集到最终结果的综合分析。这个项目是一个创新的解决问题的例子,这种解决问题的方法可以从开放和合作的心态中产生。

“像NSLS-2这样的设施的波束时间是有限的资源。因此,除了实验硬件的进步,提高整体科学生产力的唯一方法是通过研究可推广和可扩展的解决方案来提取有意义的数据,并帮助用户对结果更有信心,”NSLS-2光束线科学家Andi Barbour说,他是该项目的首席研究员。“我们希望用户能够花更多的时间思考科学。”

在XPCS分析中,数据以数学方式由所谓的双时间强度-强度相关函数表示。这个函数可以概括任何与时间相关的系统行为,并输出一个数据集。在这里,这些数据被用作该集团的ML模型的输入。从那里,他们必须确定模型将如何处理数据。为了做出决定,该团队寻找已建立的消除噪音的计算方法。具体来说,他们研究了基于人工神经网络子集的方法,称为“自动编码器”模型。自动编码器可以自我训练,将数据重建为更紧凑的版本,并通过用无噪声输入信号替换有噪声的目标来处理噪声。

许多ML应用程序的缺点是训练、存储和应用模型需要大量的资源。理想情况下,模型尽可能简单,同时还能产生所需的功能。对于科学应用来说尤其如此,在这些应用中,需要特定领域的专业知识来收集和选择训练样本。

该小组使用在CHX收集的真实实验数据训练他们的模型。他们使用不同的样本、数据采集速率和温度,每次数据运行包含200到1000帧。他们发现所选择的模型体系结构使他们能够快速训练,并且在应用过程中不需要大量的训练数据或计算资源。这些优势提供了一个机会,使用配备有图形处理单元的笔记本电脑,在几分钟内将模型调整到特定的实验。

“我们的模型可以从包含高水平噪声的图像中提取有意义的数据,否则研究人员需要进行大量繁琐的工作,”CSI的计算科学家安东尼·德根纳罗(Anthony DeGennaro)说,他也是该项目的首席研究员。“我们认为它们将能够作为自主实验的插件,例如在收集到足够多的数据时停止测量,或者作为其他实验模型的输入。”

在当前和未来的工作中,该小组将扩展该模型的功能,并将其集成到CHX和CSX的XPCS数据分析工作流程中。他们正在研究如何使用去噪模型来识别测量过程中的仪器不稳定性,以及样品固有的XPCS数据中的异质性或其他异常动态。检测异常观察,如监控视频中的可疑行为或信用卡欺诈,是autoencoder模型的另一个常见应用,它也可以应用于自动化数据收集或分析。

完整的研究团队包括DSSI计算科学家马克西姆·拉基丁和光束线科学家卢茨·维加特,他们都是论文的合著者。这项研究使用了Bluesky,这是一个主要由NSLS-II开发的用于实验控制和数据收集的软件库,以及由科学界开发的开源Python代码库,包括Jupyter和Dask。

Project Jupyter是一个非盈利的开源项目,通过Jupyter社区的共识在GitHub上公开开发。更多关于Jupyter的信息,请访问他们的About网站。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/15408.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~