物理科技生物学-PHYICA

识别分子世界的暗物UM-245质

化学 2021-11-10 00:01:30

作者汤姆·里奇,太平洋西北国家实验室 信用:CC0公共领域 想象一下,你的脸书订阅带来了一个诱人的难题

你会看到一些关于一个人的片段——眼睛颜色、头发颜色、年龄和身高——你只有一分钟的时间从数百个个人资料中挑选出这个人的名字和身份

如果你这样做,你将赢得1亿美元

但是你只知道其中10个人的名字

对于其他人来说,你只有很少的数据可以利用

有些年轻,有些不那么年轻

有些是金发,有些是黑发

他们的一些名字听起来很熟悉,但你不能确切地说出你是如何认识他们的

研究代谢组学的PNNL研究人员面临着这种情况——一项看似不可能完成、回报巨大的任务

这是对小分子的研究,这些小分子构成我们生活的基础,并为我们生活的方方面面提供信息,包括能源生产、地球命运和我们的健康

科学家估计已知的小分子不到1%

一个典型的市售代谢组学文库可能有5000种化合物,但科学家知道还有数十亿种

他们如何“识别”自己知之甚少的东西?这就像要求伽利略在400多年前使用第一批望远镜中的一架来识别太空深处无法探测到的恒星

进入黑暗化学,一个由PNNL科学发现敏捷投资深度学习资助的研究项目

瑞安·伦斯洛领导的团队正在将人工智能带到谈判桌前,以解决困扰汤姆·梅斯等研究人员的大量未知代谢物,汤姆·梅斯是PNNL代谢组学研究的负责人

“现在,我们只是略读潜在可知的东西,告别非常有趣的数据,因为我们无法识别我们的技术检测到的绝大多数代谢物,”梅兹说

“深度学习为解决这一难题提供了新的途径

" 伦斯勒和他的同事肖恩·科尔比和杰米·努内斯采用了深度学习原则,这些原则通常用于语言翻译等应用,并将其应用于分子世界的这一黑暗领域

早期的结果值得注意:该团队的黑暗化学网络可以在毫秒内计算出分子的关键特征,误差减少13%,而运行PNNL旗舰量子化学软件NWChem的超级计算机只需40小时

“我们对黑暗化学公司的出色表现感到震惊,”伦斯洛说

网络不是简单地通过处理数据来编译结果

相反,网络利用人工智能

黑暗化学的发展是为了发现人类未知的新事物

足球和碰撞截面 在这种情况下,研究小组训练程序去理解和预测一种叫做碰撞截面的化学性质

虽然CCS掩盖了一个令人生畏的科学首字母缩略词,但任何看过足球比赛的人都见过类似CCS的东西在起作用

想象一下一个球托砸穿了对方球员

一个更小的玩家可能会有更少的碰撞,但是当他们与一个对手碰撞时,效果与一个像绿巨人一样的马休·林奇进入野兽模式并摆脱几次碰撞时不同

通过观看足球运动员相互碰撞,你可以了解到很多

同样,通过充满气体分子的实验室仪器跟踪代谢物离子之间的碰撞,可以告诉科学家许多关于代谢物离子结构的信息——它们的大小、质量和其他特征

碳捕获和储存是这一作用的数学度量,它是解开分子气相化学结构——真正的“识别”——的核心

伦斯洛和他的团队训练了DarkChem来计算化学结构的碳捕获和储存,然后放松了对5000多万种化合物的计算——这是PubChem库的一部分

这个程序很快就解决了那个任务

虽然这是一个有希望的进步,但该团队对所有这些尚未识别的小分子的影响更加兴奋

该网络既可以向前运行,也可以向后运行——也就是说,它可以解决分子的碳捕获和储存问题,并预测其他性质,但它也可以基于人们正在寻找的性质产生新的化学结构

例如,伦斯洛的团队利用黑暗化学提出了几种新的化学结构,这些结构有可能影响与记忆和其他重要大脑功能相关的NMDA受体

网络不是简单的记忆数据

事实上,该团队有意在网络面临的挑战中增加一些数字模糊性,以防止网络记忆

“这就像教计算机识别一只狗,”伦斯洛说

“它可以简单地记住图片,但你希望网络能够识别各种各样的狗,所以你可以把图片倒过来,拉伸一点,改变它的颜色

你扰乱了图像,因此程序被迫归纳和依赖它所学到的知识和规则

" 教网络学习 为了创建网络,该团队使用了一种叫做转移学习的人工智能形式,网络从一个数据集学习,然后将其知识应用到另一个数据集

培训主要包括三个步骤: 该项目仔细研究了PubChem中5000多万个已知分子,学习化学基础知识以及如何用数学方法表示化学结构

但是该数据库缺乏关于碳捕获和储存的信息,碳捕获和储存是了解代谢物的一个重要手段

然后,研究小组让黑暗化学公司接触了PNNL开发的一组计算碳捕获和储存数据,大约有70万个分子

这有助于训练程序如何将它所学的关于化学结构的一般信息与碳捕获和储存联系起来

最后,研究小组利用一个由大约1000种化学结构组成的小型、可靠的数据集对网络进行了微调,这些化学结构的碳捕获和储存测量值是通过实验室的艰苦工作确定的

计算未知分子的临界二氧化碳浓度的能力——分子存在的唯一线索可能是质谱实验中的一条细线——增加了一个重要的特征,以帮助科学家区分一种代谢物和另一种代谢物

照亮黑暗分子物质

科尔比说:“你增加的每一个维度都给你带来了更好的分辨率。”他正在帮助DarkChem分析其他可能的分子特征,如红外光谱、碎片模式和溶剂可及的表面数据

这类似于磨练我们识别脸谱网上成千上万熟人的能力

“你可以说某人是男性,戴着眼镜,”伦斯洛说

“但如果你能补充说他已经54岁了,还开着一辆红色奔驰,你就限制了候选人

“与代谢产物没有太大区别

我们不断增加我们可以测量的特征,最终宇宙中只有一个分子符合这种数据组合,”他补充道

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/huaxue/3824.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~