洛桑联邦理工学院 这一观点的五个核心论点
学分:自然化学(2022)
多伊:10
1038/s41557-022-00910-7 现代化学最具挑战性的方面之一是管理数据
例如,当合成一种新化合物时,科学家将经历多次反复试验,以找到反应的正确条件,在此过程中会产生大量的原始数据
这些数据具有难以置信的价值,因为像人类一样,机器学习算法可以从失败和部分成功的实验中学到很多东西
然而,目前的做法是只发表最成功的实验,因为没有人能够有意义地处理大量失败的实验
但AI改变了这一点;这正是这些机器学习方法可以做到的,只要数据以机器可操作的格式存储,供任何人使用
“很长一段时间,由于印刷期刊文章的页数有限,我们需要压缩信息,”EPFL瓦莱州沃利斯分子模拟实验室主任贝伦德·斯密特教授说
“如今,许多期刊甚至不再有印刷版;然而,化学家们仍然在与重现性问题作斗争,因为期刊文章缺少关键细节
研究人员“浪费”时间和资源复制作者的“失败”实验,并努力建立在已发表的结果之上,因为原始数据很少发表
" 但是体积不是唯一的问题;数据多样性是另一个原因:研究小组使用不同的工具,如电子实验室笔记本软件,这些软件以专有格式存储数据,有时彼此不兼容
这种缺乏标准化的情况使得团体之间几乎不可能共享数据
现在,斯密特与EPFL大学的吕克·帕蒂尼和凯文·贾布隆卡在《自然化学》上发表了一篇论文,提出了整个化学工作流程的开放平台:从项目的开始到发表
科学家们设想该平台“无缝”集成了三个关键步骤:数据收集、数据处理和数据发布——所有这些对研究人员来说成本最低
指导原则是数据应该是公平的:容易找到、可访问、可互操作和可重用
“在收集数据时,数据将自动转换成标准的公平格式,从而可以自动发布所有‘失败’和部分成功的实验以及最成功的实验,”Smit说
但是作者更进一步,提出数据也应该是机器可操作的
“我们在化学领域看到越来越多的数据科学研究,”贾布隆卡说
“事实上,机器学习的最新成果试图解决一些化学家认为无法解决的问题
例如,我们小组在使用机器学习模型预测最佳反应条件方面取得了巨大进展
但是,如果这些模型也能学习失败的反应条件,它们将会更有价值,否则,它们仍然是有偏见的,因为只有成功的条件才会被公布
" 最后,作者提出了该领域创建公平的数据管理计划必须采取的五个具体步骤: 化学社区应该接受自己现有的标准和解决方案
如果存在社区标准,期刊需要强制存放可重复使用的原始数据
我们需要接受“失败”实验的出版
应避免使用不允许将所有数据导出为开放的机器可操作形式的电子实验笔记本
数据密集型研究必须进入我们的课程
“我们认为没有必要发明新的文件格式或技术,”帕蒂尼说
“原则上,所有的技术都在那里,我们需要接受现有的技术,并使它们能够互操作
" 作者还指出,仅仅将数据存储在任何电子实验室笔记本中——目前的趋势——并不一定意味着人类和机器可以重复使用这些数据
相反,数据必须以标准化的格式进行结构化和发布,并且它们还必须包含足够的上下文来支持数据驱动的操作
“我们的视角提供了一个愿景,我们认为这是弥合数据和机器学习之间在化学核心问题上的差距的关键组成部分,”Smit说
“我们还提供开放的科学解决方案,EPFL可以在这方面处于领先地位
"
来源:由phyica.com整理转载自PH,转载请保留出处和链接!