布鲁克海文国家实验室的阿丽亚娜·曼格拉维蒂 显示训练机器学习模型以基于分子的已知结构预测x射线吸收(XAS)光谱的步骤的示意图
分子的结构用图形表示,原子作为节点,化学键作为边
这种表示捕捉了原子的连接性——这里是碳、氧、氮和氢——以及连接它们的化学键的类型和长度
由此产生的XAS光谱包含了关于吸收原子的局部化学环境的丰富信息,例如它们的对称性和相邻原子的数量
学分:布鲁克海文国家实验室 x光吸收光谱(XAS)是一种流行的表征技术,用于探测材料和分子的局部原子结构和电子性质
因为每种元素的原子都以特有的能量吸收x光,所以XAS非常适合绘制样品中元素的空间分布
通常,科学家在同步加速器光源上进行XAS实验——比如国家同步加速器光源二号(NSLS二号)——因为它们提供非常明亮、可调的x光
通过测量样品在不同x光能量下的吸光度,科学家可以生成一个叫做x光吸收光谱的图
“对于布鲁克海文国家实验室的NSLS二号和功能纳米材料中心(CFN)的用户来说,XAS是一项关键能力
S
CFN理论和计算小组的物理学家鲁德玉说
“有了正确的分析工具,XAS可以在纳米科学研究中提供巨大的洞察力
开发这些工具是我们作为用户设施的核心任务
" 对当地化学环境进行分类 x光吸收光谱的不同区域对样品中材料性质的不同方面敏感
例如,x光吸收近边缘结构(XANES)集中在光谱的近边缘区域,刚好在足以将电子从原子内壳层激发到空态的起始能量之上
XANES编码了关于样品中吸收原子的局部化学环境的丰富信息——包括它们的几何坐标、对称性和电荷状态(从化学键中获得或失去的电子数量)
但是分析光谱数据非常具有挑战性,因为它们是抽象的
“与可以直接看到结晶度或缺陷等特征的材料的显微镜图像不同,光谱编码的信息需要领域专家来解释,”卢解释说
对XANES光谱中信号的标准解释依赖于被称为“指纹”的特征,这种特征是从对参考材料的测量中构建出来的
然而,当样品不是简单的晶体并且相关的参考材料不能容易地被识别时,这种指纹方法失败
来自原子结构模型的大规模基于理论的模拟可以为解释实验XANES光谱提供非常有用的见解;然而,这些模拟通常在计算上是昂贵和耗时的,并且它们的精确度很大程度上取决于所选择的理论近似值和所研究的系统
因此,稳健的光谱解释是目前XAS研究的瓶颈
此外,XAS光谱的实时解释已经成为研究材料在操作条件和自主实验下的动态演化的新挑战
在同步加速器光源中,对稳健、高效的光谱解释的需求正变得越来越普遍
“对x光散射和光谱测量(如x光吸收、荧光和衍射)进行实时、准确的解释,对于在NSLS二号和其他同步加速器光设施进行研究的用户来说是一项重要的能力,”默罕默德·托普萨卡尔说,他是布鲁克海文核科学技术部能源应用材料组的科学助理,正在开发先进的x光光谱数据分析和机器学习技术
“每年,成千上万来自世界各地的科学家来到NSLS二号探索各种材料的特性
一个最先进的光谱分析管道将允许用户在实验进行的同时获得关于他们样本的有用反馈,并在运行中进行调整以指导实验
问题是,我们如何进行实时光谱解释来揭示结构-光谱相关性?" 用机器学习提取信息 利用大数据和机器学习,陆和托普萨卡尔着手回答这个问题,他们邀请了布鲁克海文实验室计算科学倡议(CSI)的计算科学家柳真才和哥伦比亚大学的博士
D
候选人和美国能源部计算科学研究生马修·卡本
“美国能源部计算科学研究生奖学金给了我一个独特的机会,让我超越我的化学物理博士学位
D
与布鲁克海文的科学家合作,在哥伦比亚大学进行研究,探索机器学习算法的力量
“机器学习利用大量数据集构建高度感知的模型,一旦经过训练,就可以对新数据进行即时预测
这种模型可以用来绕过昂贵的量子化学计算,支持操作性材料表征
" 这个团队的成员和合作者已经在光谱到结构和结构到光谱的映射上工作了几年
2017年,他们开发了机器学习模型来预测XANES光谱中金属纳米粒子的平均配位数
去年,他们创建了一个XANES数据库来解析光催化应用中无定形氧化钛涂层的局部结构
他们还建立了一个机器学习模型,能够根据过渡金属氧化物的模拟XANES光谱预测吸收体原子的局部对称性
“当执行基于领域专业知识的光谱解释时,我们倾向于关注根据我们的直觉设计的特定特征,”陆说
“机器学习能够以统计显著的方式提取我们需要的信息,从而消除人类的偏见
" 该团队基于光谱的本地化学环境分类框架示意图
他们用计算x射线吸收光谱数据库(左)训练机器学习模型(中),以预测带正电荷的过渡金属离子周围的局部几何形状(右)
学分:布鲁克海文国家实验室 预测x光吸收光谱 在他们过去成功的基础上,该团队接受了一个更具挑战性的问题:训练一个机器学习模型,根据已知的分子结构快速预测光谱
这种模型将绕过计算上昂贵的模拟,这在操作实验中是不可行的,当科学家在操作条件下研究材料时
尽管机器学习在预测材料的化学性质方面做出了越来越多的努力,但还没有实现对真实材料光谱函数的直接预测
“一个技术难点是建立一个分子结构的最佳表示,它可以将分子的固有对称性编码为机器学习模型的输入特征,”柳说
采用谷歌科学家最近提出的一个想法,Topsakal和Carbone建立了一个机器学习模型,该模型基于分子的图形表示作为输入,其中原子表示为节点,化学键表示为边
“计算机不能像我们一样看到分子,”托普萨卡尔说
“图表是一种自然的方式来编码分子的结构和连接性——捕捉哪些原子是连接的,以及连接它们的化学键的类型和长度
此外,这种表示对于诸如平移和旋转之类的变换是不变的
这个概念类似于图像识别中的概念,在图像变换后,背景中的物体如猫或狗仍然可以被正确分类
" 为了训练该模型进行原理验证,该团队使用了一个完善的数据库(称为QM9),其中包含134,000个小分子的计算结构和化学信息,每个原子类型(碳、氮、氧和氟)最多有9个重原子
从这个数据库中,他们选择了两个训练子集——一个子集包含至少一个氧原子的分子,另一个子集包含至少一个氮原子的分子——并计算了它们相应的XANES光谱
然后,他们使用训练好的模型来预测氧和氮吸收边的XANES光谱,这些吸收边对应于各个原子最内层的电子激发
机器学习模型再现了几乎所有重要的吸收峰,并以非常高的精度预测了峰的位置(峰出现的能量)和高度(吸收强度)
该模型还自动利用了x光吸收光谱对官能团或具有相似化学性质和反应性的原子团敏感的领域知识
根据吸收体原子属于哪个官能团,光谱中会出现不同的特征
“我们是第一个证明机器学习模型可以用来直接从真实物理系统的结构中准确预测它们的全光谱函数的人,”托普萨卡尔说
“虽然我们在研究中侧重于x光吸收光谱,但这种方法可以推广到预测其他流行技术的光谱信息,包括红外和伽马射线光谱
" “一旦我们训练了机器学习模型,我们就不需要运行耗时的物理模拟,这需要几分钟、几小时甚至几天的时间,”柳说
“我们不仅实现了实时光谱预测,还通过使用多个图形处理单元或图形处理器同时生成了成百上千个光谱推论
这种技术是实现自动束线控制和加速科学发现的关键
结合取样材料结构的方法,这些模型可用于快速筛选相关结构,以推动材料设计和发现
" 接下来,该团队希望将他们的模型中的概念结合起来,该模型根据XANES光谱预测局部对称性,而新模型根据分子结构预测XANES光谱
最终,他们的目标是从实验测量中提取关于局部化学环境甚至整个分子结构的更全面的信息
“机器学习工具,例如那些用于图像和语音识别以及药物发现的工具,正在迅速发展,”卢说
“关键是找出如何以创新的方式调整这些工具来解决材料科学问题
" “我们开发人工智能和机器学习技术的目标是通过采用这些领域的最新技术突破和提出有助于各自研究社区的新方法来解决独特的科学挑战,”柳补充说
来源:由phyica.com整理转载自PH,转载请保留出处和链接!