物理科技生物学-PHYICA

人工智能模型在解释人类基因变异的良性或致病性方面显示出非凡的能医院被迫赔30万力

医学研究 2022-03-17 21:52:13

Credit: CC0公共域 没有两个人是相同的,这是一个生物奇点,编码在构成我们个体DNA的分子的独特排列中

变异是生物学的一个基本特征,是多样性的驱动力,也是进化的引擎,但它也有黑暗的一面

DNA序列的改变和由此产生的构建我们细胞的蛋白质有时会导致生理功能的严重破坏并引发疾病

但是哪些基因改变是正常的或者至少是无关紧要的,哪些预示着疾病? 对于少数众所周知的基因突变来说,答案是显而易见的,然而,尽管基因组测序技术在过去20年里取得了巨大的飞跃,但我们解释通过这种测序识别的数百万种遗传变异的意义的能力仍然落后

为了搞清楚这一切,哈佛医学院和牛津大学的研究人员设计了一个名为EVE(变体效应的进化模型)的人工智能工具,它使用一种复杂的机器学习来检测数十万个非人类物种的遗传变异模式,然后用它们来预测人类基因变异的意义

在10月发表的一份分析报告中

27在《自然》杂志上,研究人员使用EVE评估了3600万个蛋白质序列和3219个疾病相关基因,跨越多个物种

结果表明,256,000个以前鉴定的目前意义未知的人类基因变异,实际上应该被重新分类为良性或致病性

研究人员表示,该工具可以用来增强目前用于确定基因变异含义的临床方法

并且,当与这些工具结合使用时,EVE可以提高诊断、预后和治疗选择的精确性和准确性

“越来越多的人可以对他们的基因组进行测序,但是理解数据并不总是简单的

这项研究的资深作者黛博拉·马克斯(Debora Marks)说,关于它对疾病或疾病进展的可能性意味着什么的信息非常少。黛博拉·马克斯是英国卫生研究院布拉瓦茨尼克研究所的系统生物学副教授,他与牛津大学的同事亚林·加尔、哈佛医学院的第一作者乔纳森·弗雷泽和玛法达·迪亚斯以及牛津大学的帕斯卡·诺廷共同领导了这项研究

研究人员强调,EVE不是一种诊断测试,但它的计算能力可以增强遗传学家和其他医生用来进行诊断、预测疾病进展,甚至根据某些致病基因突变的存在来选择治疗的当前临床工具

“我们相信我们的方法可以作为当前临床评估中的一个附加工具,并提供了一个强大的新方法来减少不确定性和澄清决策,尤其是在临床环境中,”Marks补充道

事实上,该分析表明EVE在预测临床效果方面优于其他计算预测模型,并且在目前测试突变对生物功能影响的金标准高通量实验中得分高达或高于

准确解释基因变异的意义是非常重要的

将良性变异解读为致病可能会导致错误诊断,引发一连串的进一步检测、焦虑,甚至不必要的医疗干预

相反,当可能需要密切观察、进一步检测和预防措施时,将一个人的DNA上由疾病引发的变化误解为无关紧要或良性可能会提供虚假的保证

Gal说:“我们希望这种方法能够产生强大的数据,使前线的临床医生能够做出正确的诊断、预后和治疗决策。”

有了更多的数据,更多的问题 2003年人类基因组的历史性测序建立了一个参考人类基因组,与新测序的基因组进行比较

然而,这个参考基因组并不是“正常”人类基因组的标准或基线

随着研究人员更好地理解遗传变异的含义,来自DNA测序的快速增长的数据量使得参考基因组不再是一个标准,而是一个不断变化的基线

将人类基因组的特定变化与疾病的发生联系起来继续困扰着临床遗传学领域,因为人类群体中的变异数量使科学家能够研究的数量相形见绌

尽管只有一小部分人类被测序,但研究人员已经看到了数百万个变异体,它们的意义和意义尚不清楚

在这些变体中,只有2%被归类为良性、中性或致病性

其余98%的已鉴定基因变体目前被认为具有“未知的重要性”

" 在人类基因组中,仅蛋白质编码区就占了数百万个观察到的6

500万个突变,涉及由基因制造的蛋白质中单一氨基酸的位置

这些所谓的错义突变可能对蛋白质的功能没有影响,或者它们可能使蛋白质功能失调,导致疾病

事实上,研究人员估计,在居住在地球上的90亿人的基因组中,除了致命的蛋白质位置之外,每个蛋白质位置都可能有一个变体

与其他人和参考人类基因组相比,每个人的基因组中都有许多变异

给已经编辑好的图表增加了另一个转折,人类继承了每个基因的两个版本——一个来自父母

而且,随着年龄的增长,基因可能会发生变化,这就是所谓的体细胞突变

马克斯说:“有很多方法可以让一个人不仅仅只有一个基因组。”

“你可能在一个基因的一个拷贝上有不同的变异,随着我们年龄的增长,会出现各种各样的身体变异——不仅与癌症发展有关,还与神经退化有关,这两种变异都是由突变驱动的与年龄相关的过程

" 可以肯定的是,有许多疾病相关基因的研究人员已经确定了携带临床疾病高风险的突变,例如乳腺癌和卵巢癌的BRCA1和BRCA2,以及一系列癌症的肿瘤抑制基因p53

但即使是这些基因也显示了其他未经研究的突变,其意义仍不清楚

马克斯说,所有这些都迫切需要阐明人类遗传变异的重要性——在这个过程中,计算将在提供答案方面发挥越来越重要的作用

进入人工智能 神经网络的一个决定性特征是,随着新数据的出现,它们能够不断重新评估和更新假设的概率

这意味着神经网络可以使用新知识重新评估证据,因此可以检测传统方法遗漏的模式和意义

在目前的研究中,研究人员使用了一种被称为无监督机器学习的复杂分析,这是一种人工智能形式,它不是基于预定义的参数和规则,而是涉及自适应学习

这意味着当呈现新数据时,机器学习算法将随着时间的推移变得更好地识别模式

相比之下,在有监督的机器学习中,算法学习从预先标记的数据中检测模式——它的训练是有监督的

在信息员给出的一个经典例子中,该算法给出了猫和狗的图像,并在面临识别未标记的猫和狗的图像的挑战之前被告知哪些是哪些

在无监督机器学习中,算法被赋予一组猫和狗的图像,而不被告知哪些是哪些

它必须自己辨别模式

这两种类型都为特定任务提供了优势

无监督模型的一个优点是,没有机会通过向它们提供预先标记的数据来偏置它们的学习

此外,它们可以随着数据的变化进行调整,以执行更复杂的分析

研究人员表示,目前用于评估基因变异重要性的大多数计算方法都采用基于临床标签的监督训练,这可能会使这些工具产生偏差,并导致现实世界中预测的准确性被夸大

Gal说:“因为算法不需要事先知道哪些图像是猫,哪些图像是狗——它只需要一堆猫和狗的图像——没有办法使用它不应该知道的信息。”

正是无监督机器学习从从未遇到过的数据中检测新模式的能力,使得这种方法特别适合分析非人类的遗传序列

来自我们进化亲戚的线索 在这项工作中,研究人员转向了一个古老的希望——通过研究多个物种的遗传变异,他们可能会收集到关于人类变异重要性的线索

进化倾向于保留对跨物种的功能和生存至关重要的特征

因此,跨物种重复出现的氨基酸排列是生物学重要性的标志,表明它们对生物体的功能及其进化适应性很重要

因此,这种高度保守序列的改变可能会带来麻烦,并且与致病性有关

马克斯说:“从进化的角度来说,这些物种还有很长的路要走,而且有许多基因差异,但综合起来,它们给了我们信息。”

“这就是为什么该模型在与人类和人类变异相关的模式方面如此强大

" EVE寻找进化上保守的模式来得出结论

它分析了14万个物种的数据,包括濒危和灭绝的生物

多年来,科学家们一直使用比较遗传学来检测DNA或蛋白质序列中的相似区域,从而得出意义

哈佛-牛津团队使用神经网络在更大的范围内做到了这一点

训练EVE 在对2.5亿个蛋白质序列进行训练后,EVE估计了每个单一氨基酸变体是良性还是致病性的可能性

为了确定EVE是否做出了准确的预测,研究人员将其分数与已知意义的人类突变进行了比较

研究小组发现,该工具的结果与临床数据非常一致

接下来,研究人员将EVE应用于一组3219个与疾病相关的人类基因

研究人员说,EVE对所有基因的突变是致病性还是良性做出了正确的判断,包括60个“可临床操作”的基因

当研究人员将EVE的性能与其他有监督和无监督的工具进行比较时,它显示出明显更高的预测准确性

但是,与实际临床实验的发现相比,EVE的预测结果如何?实际临床实验是评估基因突变如何影响生理功能的金标准。 为了回答这个问题,研究小组将EVE的分数与临床实验的结果进行了比较,这些实验涉及五个基因中经过充分研究的突变,其中包括与各种癌症、几种癌症综合征和心律失常有关的基因

EVE的预测与来自实验数据的当前标签重叠

马克斯说:“我们的结果远比我们预期的要好。”

“似乎通过简单地训练一个模型来适应整个进化过程中的序列分布,我们提取了信息,使我们能够对特定基因变异引起的疾病风险做出不可预测的精确预测

" 信任的问题 EVE相对于当前方法的一个显著优势是它分配了一个连续的分数,而不是二进制分数

这是因为即使基因变异被标记为良性或致病性,变异在生理上的表现也更加微妙

“有一个完整的致病性连续体,”马克斯说

“连续评分对于预测致病水平非常重要

这种变异是意味着我的小脚趾会痛,还是我明天就会死?" 该工具的另一个重要方面是,它在逐个基因的基础上分配预测置信度得分

这可以帮助临床医生了解任何预测的确定程度

换句话说,对于每一个基因变异,EVE告诉专家他们能有多信任它的召唤

研究人员说,这是一个值得信赖的问题,是对模型的信心问题

“我们不仅仅是给临床医生提供一个数字,还会给他们带来一定程度的不确定性,”Gal说

“这是专家可以在决策过程中采用和使用的东西

这个工具可以说,‘我认为那个变体属于那一堆,但我以前从未见过任何这样的变体,所以半信半疑地接受吧。’

或者工具也可以说,‘我认为另一个变体属于这一堆,我在过去看到过非常相似的变体,我看到它们属于这一堆,因此我将非常自信地将其分配给这一堆

在工具和专家之间建立信任是这项工作的一个重要方面

" 展望未来 研究人员说,这种建模仍然处于初级阶段,很明显,进化和遗传变异仍然可以教会我们很多关于疾病的知识。他们还补充说,他们计划将这项工作扩展到蛋白质编码区以外的基因组其他部分

然而,在不久的将来,当务之急是在临床上利用我们已经有所了解的遗传变异

为此,研究人员已经与一家基因组测序公司合作,并通过陈·扎克伯格倡议与多个团体合作

该团队还参与了变体效应联盟图谱,这是一项全球研究工作,其任务是绘制整个基因组的变异效应图,并创建一个包含所有可能的人类e代变体及其对蛋白质功能和生理影响的综合图谱

这项工作的最终目标是改善人类疾病的诊断、预后和治疗

该研究的合著者包括牛津大学的艾登·戈麦斯和哈佛医学院的约瑟夫·明和凯利·布洛克

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/yixueyanjiu/12576.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~