物理科技生物学-PHYICA

SLAC新堀内理沙的x光激光数据系统将每秒处理一百万幅图像

物理学 2022-08-09 23:59:13

美国国家加速器实验室的尼巴·奥黛丽·尼马尔 学分:格雷格·斯图尔特/SLAC国家加速器实验室 当能源部SLAC国家加速器实验室的X射线激光器升级完成时,这种强大的新机器将每秒捕获高达1tb的数据;这一数据速率相当于在一秒钟内流式传输大约1000部完整长度的电影,并在超快进模式下分析每部电影的每一帧

随着直线加速器相干光源(LCLS)的升级在未来几年内上线,实验室的数据专家正在寻找方法来处理如此大量的信息

LCLS将电子加速到接近光速,产生极其明亮的x光束

这些x光探测样本,如蛋白质或量子材料,探测器捕捉一系列图像,实时显示样本的原子运动

通过将这些图像串在一起,化学家、生物学家和材料科学家可以制作事件的分子电影,比如植物如何吸收阳光,或者我们的药物如何帮助对抗疾病

随着LCLS的升级,科学家们正从每秒120个脉冲发展到每秒100万个脉冲

这将产生10000倍亮度的X射线束,从而能够对以前无法研究的系统进行新的研究

但它也将带来巨大的数据挑战:x光激光将在给定的时间内产生比以前多数百到数千倍的数据

为了处理这些数据,由LCLS数据系统部主任贾娜·塞耶领导的一组科学家正在开发新的计算工具,包括计算机算法和连接超级计算机的方法

塞尔的团队使用计算、数据分析和机器学习的结合来确定x光图像中的模式,然后将分子电影串在一起

随波逐流 在LCLS,数据持续流动

“当科学家们有机会进行一项实验时,要么是一天12小时,要么是一夜12小时,在下一个团队到来之前,只限于几个班次,”SLAC大学高级职员科学家瑞安·咖啡说

为了有效利用宝贵的实验时间,必须完全避免瓶颈,以保持数据流及其分析

数据的流式传输和存储对网络和计算资源提出了重大挑战,而能够近乎实时地监控数据质量意味着需要立即处理数据

实现这一目标的一个重要步骤是在存储数据供进一步分析之前尽可能减少数据量

为了实现这一点,泰尔的团队已经使用几种压缩方法实现了动态数据缩减,以减少记录的数据量,而不影响科学结果的质量

一种被称为“否决”的压缩形式会丢弃不需要的数据,例如x光未击中目标的照片

另一种叫做特征提取,它只保存科学上重要的信息,比如x光图像中某个点的位置和亮度

塞尔说:“如果我们像到目前为止一直做的那样保存所有原始数据,每年将花费我们25亿美元。”

“我们的任务是在写入数据之前找出如何减少数据

我们开发的新数据系统的一个真正整洁、创新的部分是数据简化管道,它删除了不相关的信息,并减少了需要传输和存储的数据

" 咖啡说,“这样你就节省了很多电力,但更重要的是,你节省了吞吐量

如果你必须通过网络发送原始数据,你将会在每一微秒发送图像时完全淹没它

" 该小组还创建了一个中间位置,以便在数据进入存储之前存放数据

塞尔解释说,“我们不能直接写入存储,因为如果系统出现故障,它必须暂停并等待

或者,如果出现网络故障,您可能会完全丢失数据

所以,我们有一个小但可靠的缓冲区,我们可以写入;然后,我们可以将数据移动到永久存储中

" 推动创新 泰尔强调,数据系统的建立是为了向研究人员提供与当前系统一样及时的工作结果,因此他们可以获得实时信息

它也是为了适应未来10年LCLS科学的发展而建造的

最大的挑战是跟上数据速率的大幅提升

“如果你想象从每秒分析120张图片到每秒分析100万张,这需要更多的滚动,”她说

“计算并不神奇——它仍然以同样的方式工作——我们只是增加了处理每张图片的大脑数量

" 在美国能源部最近一项奖励的支持下,该团队与美国能源部国家实验室联合体的同事合作,也在寻求结合人工智能和机器学习技术,以进一步减少要处理的数据量,并在数据出现时标记出感兴趣的特征

为了理解LCLS的数据挑战,咖啡拿自动驾驶汽车做了一个类比:“它们必须实时计算:它们不能分析一批刚刚录制的图像,然后说“我们预测你应该在第10幅图像上左转

“SLAC的数据速率比这些汽车中的任何一辆都要高得多,但问题是一样的——研究人员需要引导他们的实验去寻找最令人兴奋的目的地!” 推动数据速率和性能大幅提升的升级将在未来几年分两个阶段进行,包括LCLS II和随后的高能升级

数据专家的工作将确保科学家能够充分利用这两者

“最终,它将对我们能做的科学类型产生戏剧性的影响,打开今天不可能的机会,”咖啡说

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/wulixue/21286.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~