物理科技生物学-PHYICA

机器学习方法创建了一个可学习的化学语法来构建可合成的单体和聚合物

化学 2023-04-17 00:02:03

麻省理工学院的劳伦·欣克尔 信用:Pixabay/CC0公共领域 化学工程师和材料科学家一直在寻找下一个革命性的材料、化学品和药物

机器学习方法的兴起正在加快发现过程,否则这可能需要数年时间

麻省理工学院电气工程和计算机科学教授Wojciech Matusik说:“理想情况下,目标是在一些现有的化学样本上训练一个机器学习模型,然后让它产生尽可能多的同一类别的可制造分子,并具有可预测的物理属性。”

“如果你拥有所有这些成分,你就可以构建具有最佳特性的新分子,而且你也知道如何合成它们

这是该领域的人们想要实现的总体愿景” 然而,当前的技术,主要是深度学习,需要大量的数据集来训练模型,许多特定类别的化学数据集包含少量的示例化合物,这限制了它们概括和生成可以在现实世界中创建的物理分子的能力

现在,麻省理工学院和IBM的研究人员发表了一篇新论文,利用生成图模型来解决这个问题,在与训练数据相同的化学类别中构建新的可合成分子

为了做到这一点,他们将原子和化学键的形成视为一张图表,并开发了一种图表语法——一种用于单词排序的系统和结构的语言学类比——包含一系列构建分子(如单体和聚合物)的规则

使用从训练集推断的语法和产生式规则,该模型不仅可以对其示例进行反向工程,还可以以系统和数据高效的方式创建新的化合物

“我们基本上建立了一种创造分子的语言,”Matusik说,“这种语法本质上是生成模型

" Matusik的合著者包括麻省理工学院研究生郭,他是第一作者,北辰李以及IBM Research的研究人员Veronika Thost,Payal Das和

Matusik、Thost和Chen隶属于麻省理工学院-IBM沃森人工智能实验室

他们的方法,他们称之为数据高效图语法(DEG ),将在国际学习表征会议上发表

“我们想用这种语法表示法来生成单体和聚合物,因为这种语法是可解释的和有表现力的,”郭说

“仅用少数几个产生式规则,我们就能生成许多种结构

" 分子结构可以被认为是图形中的符号表示——由化学键(边)连接在一起的一串原子(节点)

在这种方法中,研究人员允许模型采用化学结构,并将分子的亚结构折叠成一个节点;这可能是由一个键连接的两个原子,一个键合原子的短序列,或一个原子环

这一过程重复进行,在此过程中创建产生规则,直到只剩下一个节点

然后,这些规则和语法可以以相反的顺序应用,从零开始重新创建训练集,或者以不同的组合进行组合,以产生相同化学类别的新分子

“现有的图形生成方法一次只能生成一个节点或一条边,但我们正在寻找更高层次的结构,特别是利用化学知识,因此我们不会将单个原子和键视为一个单元

这简化了生成过程,也提高了数据学习的效率,”陈说

此外,研究人员优化了这项技术,使自下而上的语法相对简单明了,这样它就可以制造出可以制造的分子

“如果我们交换应用这些产生规则的顺序,我们会得到另一个分子;更重要的是,我们可以列举所有的可能性,并产生大量的可能性,”陈说

“这些分子中有些是有效的,有些是无效的,所以学习语法本身实际上是找出一个最小的产生式规则集合,这样实际上可以合成的分子的百分比就最大化了

”虽然研究人员专注于每组不到33个样本的三个训练集——丙烯酸酯、扩链剂和异氰酸酯——但他们指出,这一过程可以应用于任何化学类别

为了了解他们的方法的表现,研究人员将DEG与其他最先进的模型和技术进行了对比测试,考察了化学有效和独特分子的百分比,所创建分子的多样性,逆合成的成功率,以及属于训练数据单体类的分子的百分比

“我们清楚地表明,在可合成性和隶属度方面,我们的算法大大优于所有现有的方法,而在其他一些广泛使用的指标方面,它是可比的,”郭说

此外,“我们算法的惊人之处在于,我们只需要大约0

15%的原始数据集,与在数万个样本上训练的最先进方法相比,可以获得非常相似的结果

我们的算法可以专门处理数据稀疏的问题

" 在不久的将来,该团队计划扩大这一语法学习过程,以便能够生成大型图表,并产生和识别具有所需属性的化学物质

研究小组指出,研究人员看到二甘醇方法的许多应用,因为它不仅可以产生新的化学结构

图表是一种非常灵活的表示形式,许多实体都可以用这种形式进行符号化,例如机器人、车辆、建筑物和电子电路

“本质上,我们的目标是建立我们的语法,以便我们的图形表示可以广泛用于许多不同的领域,”郭说,“DEG可以自动设计新的实体和结构,”陈说

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/huaxue/26052.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~