物理科技生物学-PHYICA

机器学习变得更加智能,以加速药物发现

技术工程 2022-04-08 21:55:13

Machine learning gets smarter to speed up drug discovery研究人员开发了一个自我监督的学习框架,该框架利用了其他模型无法利用的大量未标记数据。鸣谢:卡耐基梅隆大学机械和人工智能实验室快速准确地预测分子特性对于推进从材料科学到制药等领域的科学发现和应用非常重要。由于探索潜在选项的实验和模拟既耗时又昂贵,科学家们已经研究了使用机器学习(ML)方法来帮助计算化学研究。但是,大多数最大似然模型只能利用已知的或标记的数据。这使得准确预测新化合物的性质几乎是不可能的。在像药物研发这样的行业中,有数百万种分子可供选择用于潜在的候选药物。小到1%的预测误差都会导致对一万多个分子的错误识别。利用有限的数据提高ML模型的准确性将在开发新的疾病治疗方法中发挥重要作用。

虽然标记分子数据的数量有限,但可行但未标记的数据数量却在快速增长。卡内基梅隆大学工程学院的研究人员思考他们是否可以使用这些大量的未标记分子来建立ML模型,这些模型在属性预测方面比其他模型表现得更好。

他们的工作最终发展成一个名为MolCLR的自我监督学习框架,是图形神经网络表示的分子对比学习(GNNs)的缩写。该发现发表在《自然机器智能》杂志上。

“MolCLR通过利用大约1000万个未标记的分子数据,显著提高了ML模型的性能,”机械工程助理教授Amir Barati Farimani说。

为了简单解释有标签和无标签的数据,博士生王渔洋建议考虑两组狗和猫的图像。在一套中,每种动物都标有其物种名称。在另一组中,图片没有标签。对一个人来说,这两种动物的区别可能是显而易见的。但是对于机器学习模型来说,区别并不明显。因此,未标记的数据不是可靠有用的。将这种类比应用于数百万未标记的分子,这些分子可能需要人类数十年才能人工识别,因此对更智能的机器学习工具的迫切需求变得显而易见。

该研究小组试图通过对比增强分子图表示的正负对来教会其MolCLR框架如何使用未标记的数据。由同一分子变换而来的图被认为是正对,而由不同分子变换而来的图是负对。通过这种方式,相似分子的表示保持彼此靠近,而不同的分子被推得很远。

研究人员应用了三种图形增强来从未知分子中移除少量信息:原子掩蔽、键删除和子图移除。在原子掩蔽中,关于分子的一条信息被消除了。在键删除中,原子间的化学键被删除。两种扩充的组合导致子图移除。通过这三种类型的变化,MolCLR被迫学习内在信息并进行关联。

当该团队将MolCLR应用于ClinTox(一个用于预测药物毒性的数据库)时,MolCLR明显优于其他ML基线模型。在另一个数据库Tox21上,MolCLR从其他ML模型中脱颖而出,具有区分哪些环境化学品对人类健康构成最严重威胁的潜力。

Barati Farimani说:“我们已经证明,MolCLR有望实现高效的分子设计。”“它可以应用于各种各样的应用,包括药物发现、能量储存和环境保护。”

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/14137.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~