物理科技生物学-PHYICA

机器学习为想象中的人类生朝?}海音成现实的基因组

生物 2022-08-31 00:03:23

爱沙尼亚研究委员会 一条染色体从随机数字噪声中出现

信用:布拉克·叶尔曼 多亏了新的算法和计算机技术的进步,机器现在可以学习复杂的模型,甚至可以生成高质量的合成数据,比如照片般逼真的图像,甚至是虚构人物的简历

最近发表在国际期刊《公共科学图书馆遗传学》上的一项研究使用机器学习来挖掘现有的生物库,并生成不属于真实人类但具有真实基因组特征的人类基因组块

“现有的基因组数据库是生物医学研究的宝贵资源,但由于合理的伦理考虑,它们要么无法公开获取,要么被漫长而又令人精疲力竭的应用程序所掩盖

这给研究人员制造了一个重大的科学障碍

该研究的第一作者、塔尔图大学现代群体遗传学初级研究员布拉克·耶尔曼说:“机器生成的基因组,或者我们称之为人工基因组,可以帮助我们在安全的伦理框架内克服这个问题。”

多学科团队进行了多次分析,以评估生成的基因组与真实基因组相比的质量

“令人惊讶的是,这些从随机噪音中产生的基因组模仿了我们在真实人类群体中观察到的复杂性,而且对于大多数属性,它们与我们用来训练算法的生物库的其他基因组没有区别,除了一个细节:它们不属于任何基因供体,”博士说

卢卡·帕格尼是这项研究的资深作者之一,也是一名Mobilitas Pluss研究员

生成器机器形成随机噪声,而鉴别器机器对照可用真实数据的数据库测试生成的数据

一旦这个过程完成,算法将生成看起来像真实的,但实际上是全新的人工数据

信用:Yelmen等人

2021 这项研究还包括评估人工基因组与真实基因组的接近程度,以测试原始样本的隐私是否得到保护

“尽管检测成千上万个基因组中的隐私泄露似乎是大海捞针,但结合多种统计方法使我们能够仔细检查所有模型

令人兴奋的是,对复杂泄漏模式的详细探索可以导致生成模型评估和设计的改进,并将推动机器学习领域的发展

弗洛拉·杰伊,该研究的协调人和跨学科计算机科学实验室(LRI/LISN,巴黎萨克莱大学,法国国家科学研究中心)的CNRS研究员

总的来说,机器学习方法为少数想象中的人类提供了面孔、传记和其他多种特征:现在我们对他们的生物学有了更多的了解

这些具有真实基因组的假想人类可以作为所有真实基因组的代理,这些真实基因组不能公开获得或需要长期的应用程序或合作,因此消除了基因组研究中的一个重要的可及性障碍,特别是对于代表性不足的人群

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/shegnwu/22621.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~