作者:约翰·斯皮奇里,阿尔贡国家实验室 使用ALCF的太塔超级计算机,通过双重实验和计算化学数据途径,自动生成紫外-可见(紫外-可见)吸收光谱数据库
学分:杰奎琳·科尔和乌尔里希·迈尔/剑桥大学 剑桥大学和阿尔贡大学合作开发了一种技术,利用人工智能和高性能计算生成自动数据库来支持特定的科学领域
即使在数据驱动的发现出现之后,在大量的科学文献中寻找支持某个想法的信息或找到解决某个特定问题的关键,对于研究人员来说也一直是一件乏味的事情
杰奎琳·科尔非常了解这个训练
她是英国剑桥大学分子工程的负责人,职业生涯的大部分时间都在寻找具有光学特性的材料,这些材料有助于更有效地收集光线,比如有朝一日可能为太阳能窗户提供能量的染料分子
“我知道很多信息在文献中是以非常分散的形式保存的,”她回忆道
“但是如果你整理成千上万的文件,那么你就可以形成自己的数据库
" 科尔和他在剑桥和美国的同事
S
能源部的阿贡国家实验室就是这样做的,在《科学数据》杂志上展示了这一过程
科尔说,这篇论文描述了如何使用自然语言处理和高性能计算来建立数据库,后者大部分是在美国能源部科学用户办公室下属的阿贡领导计算设施(ALCF)完成的
使数据库独一无二的因素包括项目的规模,以及它包含关于物质结构的实验和计算数据的事实,这些数据描述了一个事物的原子或化学基础,以及物质属性,这些不同结构提供的功能
科尔说:“这可能是第一次如此大规模的数据库编辑,有5380对相似的实验和计算数据。”
“因为它的数量如此之大,它本身就像一个仓库,真正打开了预测新材料的大门
" 许多新的大型数据库完全建立在计算的基础上,其固有的缺点是它们没有经过实验数据的验证
后者,也许是最重要的,提供了材料激发态的精确图像,它定义了电子的动态,并被用来计算材料的功能性质——在这种情况下是光学性质
这个萌芽中的激发态目录可以帮助计算尚未被设想的物质的性质,进一步扩展数据库
科尔解释说:“想象一下,人们希望发现一种新型的光学材料来适应定制的功能应用,而我们的数据库并不包含这种特殊的光学特性。”
“我们根据数据库中每个属性可用的激发态来计算感兴趣的光学属性,并创建具有定制功能的材料
" 该团队使用ALCF的太塔超级计算机,对每个提取了光学材料数据的结构进行了量子化学计算,从而创建了成对实验和计算结构及其光学特性的数据库
“最大的挑战之一是从40万篇科学文章中提取可用作太阳能电池染料的候选化学物质,”阿尔贡计算科学部门的计算科学家阿尔瓦罗·巴斯克斯-玛雅戈蒂亚说
“我们开发了一个分布式框架,在ALCF世界级的超级计算机上应用人工智能方法,例如自然语言处理中使用的方法
" 为了自动提取这些信息并将其存储在数据库中,该团队转向了名为“化学数据提取器”的新型数据挖掘应用程序
这是一个自然语言处理工具,它被设计用来专门从化学和材料文献中挖掘文本,科尔说,“这些信息散布在成千上万的论文中,以高度碎片化和非结构化的形式呈现
" 科尔称开发该应用的动力是来自挫折的创新,而不是手动的文章搜索
最初,她尝试了更通用的NLP包,但注意到“它们不只是失败,它们失败得非常厉害
" 问题出在翻译上,与其说是从人类语言的立场,不如说是从科学的语言,虽然有一些相似之处
例如,作家可以使用语音识别程序,一种自然语言处理的形式,来转录笔记或采访
该节目主要是根据作者的声音进行训练,提取模式和细微差别,并开始相当准确地转录
现在加入一个带有外国口音的采访,事情开始变得不稳定
在科尔的世界里,外语就是科学,每个领域代表一个不同的国家
目前,你只能用一种“语言”来训练这个项目,比如化学,即使那样,你也必须学习这门科学的特殊方言
无机化学家可能会用不熟悉的著名化学元素符号表示来提出一个公式,而有机化学家更喜欢在插图框中编号的化学草图
对于大多数采矿程序来说,从这两者中提取信息通常都太难了
“这只是一点化学反应,”科尔指出
“因为人们描述事物的方式是如此多样,所以领域特异性的多样性绝对至关重要
" 为此,该团队的数据库是紫外-可见(紫外/可见)吸收光谱属性之一,为寻求寻找具有首选光谱颜色的材料的用户提供了一个公开可用的资源
虽然该团队正在使用新的数据库搜寻可能取代太阳能电池中传统金属有机染料的有机染料,但他们已经瞄准了更广泛的应用领域
作为预测新光学材料的机器学习方法的一个有用的训练数据来源,它也可以为紫外/可见吸收光谱的用户提供一个简单的数据检索选项,这是一个在世界各地的研究实验室中广泛使用的工具,作为表征新材料的核心技术
“这个项目中使用的协议已经被用于类似的项目,”巴斯克斯-马亚戈蒂亚补充道
“例如,该团队最近利用化学数据提取器和ALCF计算资源,建立了潜在电池化学品、磁性和超导化合物的庞大数据库
" 光学材料数据库的研究出现在《科学数据》的文章“紫外/可见吸收光谱的实验和计算属性的比较数据集”中
其他作者包括爱德华·J
剑桥大学的比尔德和阿尔贡国家实验室的加内什·西瓦拉曼和文卡特拉姆·维斯瓦纳特
一篇详细介绍他们在磁性和超导材料方面工作的论文已经发表在npj计算材料杂志上
包含超过290,000条数据记录的电池材料数据库已经在《科学数据》上发表
来源:由phyica.com整理转载自PH,转载请保留出处和链接!