物理科技生物学-PHYICA

森下まや训练神经网络来正确命名有机分子

技术工程 2021-12-28 21:55:28

Neural network trained to properly name organic molecules展示SMILES标记化(上)和IUPAC名称标记化(下)。学分:10.1038/s 41598-021-94082-y Skoltech莫斯科国立大学和Syntelly初创公司的研究人员和他们的同事开发并训练了一个神经网络,根据IUPAC命名系统生成有机化合物的名称。他们发表在《科学报告》上的研究表明,现代神经网络能够有效地处理精确的算法问题。化学使用国际纯化学和应用化学联合会的命名系统,作为给有机化合物命名的普遍接受的语言。例如,在IUPAC术语中,蔗糖被称为(2R,3R,4S,5S,6R)-2-[(2S,3S,4S,5R)-3,4-二羟基-2,5-双(羟甲基)氧代-2-基]氧-6-(羟甲基)氧烷-3,4,5-三醇,扑热息痛,退热药如泰诺的活性成分,是N-(4-羟苯基)乙酰胺。

由于IUPAC名称是化合物结构的完整表示,因此复杂分子的名称往往冗长乏味。即使省略一个数字或符号也是不可接受的,所以化学家必须注意他们写下的内容,并对IUPAC的众多规则有深刻的了解。产生IUPAC名称的现成软件工具在市场上随处可见,但开源软件却没有。

“最初,我们想为我们的AI化学平台Syntelly创建一个IUPAC名称生成器。很快我们意识到,通过数字化IUPAC规则来创建一个算法需要一年多的时间,因此我们决定利用我们在神经网络解决方案方面的经验,”这项研究的主要作者、Syntelly初创公司的联合创始人、Skoltech研究科学家Sergey Sosnin说。

该团队使用最强大的机器翻译神经网络之一Transformer架构作为他们研究的基础,并训练它将分子的结构表示转换为IUPAC名称,反之亦然。

新网络是使用PubChem进行培训和测试的,PubChem是世界上最大的开放化学数据库,包含超过1亿种化合物。该网络在大约六周的时间内设计完成,学会了以与基于规则的算法解决方案几乎相同的精度(约99%)进行转换。

此外,研究表明,神经网络可以相当准确地解决算法问题。“对于人类和神经网络来说,区分图片中的猫和狗是一项同样容易的任务,而没有办法做出高效的纯算法解决方案。与此同时,多位数相乘对人类来说很难,但对一个能立即产生绝对准确结果的原始计算器来说却很容易。这一任务和IUPAC名称生成都是纯粹算法问题的例子,”索斯宁解释道。

“我们已经表明,神经网络可以处理精确的问题,推翻了以前流行的观点,即它们不应该用于这种问题。在机器翻译中,用同义词替换一个单词是很有可能的,而在我们的任务中,一个错误的符号会导致一个不正确的分子。然而,《变形金刚》成功地完成了这项任务,”索斯宁补充道。

新的解决方案已在Syntelly平台上实施,并可在线获得。研究人员希望他们的方法可以用于化学符号之间的转换以及其他与技术符号相关的任务,例如生成数学公式或翻译软件程序。

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/6846.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~