物理科技生物学-PHYICA

加快生命或佐佐木梦之树中的序列比对

生物 2021-11-15 00:02:27

马克斯·普朗克学会 信用:CC0公共领域 图宾根的马克斯·普朗克发展生物学研究所和加青的马克斯·普朗克计算和数据设施的一组研究人员开发了新的搜索功能,可以比较生命之树中不同物种的生化组成

它的准确性和速度的结合是前所未有的

人类与其他物种共享构成我们基因的许多核苷酸序列——特别是与猪,但也与老鼠,甚至香蕉

因此,我们身体中的一些蛋白质——根据基因蓝图组装的氨基酸串——也可以与其他物种中的一些蛋白质相同(或相似)

这些相似性有时可能表明两个物种有一个共同的祖先,或者它们可能只是在两个物种对某个特征或分子功能的进化需求碰巧出现时才出现

打破比较基因组学研究的黄金标准 但当然,找出你和猪或香蕉分享的东西可能是一项艰巨的任务;搜索一个包含你、猪和香蕉的所有信息的数据库在计算上是相当复杂的

研究人员预计,超过1

500万真核生物物种——包括所有动物、植物和蘑菇——将在未来十年内被测序

“即使现在,只有几十万个基因组可用(大部分代表细菌和病毒的小基因组),我们已经在寻找多达3.7亿个序列的数据库

位于图宾根的马克斯·普朗克发育生物学研究所分子生物学部的计算生物学小组组长哈吉·格奥尔格·德罗斯特解释说:“大多数目前的搜索工具都是不切实际的,而且要花太长时间来分析我们预期在不久的将来会出现的如此大规模的数据。”

“很长一段时间,这种分析的黄金标准曾经是一种叫做BLAST的工具,”德罗斯特回忆道

“如果你试图追踪一种蛋白质是如何通过自然选择维持的,或者它是如何在不同的系统发育谱系中发展的,BLAST在这个尺度上给了你最好的匹配

但是可以预见的是,在某个时候,数据库对于全面的BLAST搜索来说会变得太大

" 大海捞针——但要快! 问题的核心是速度和灵敏度之间的权衡:就像你会错过一些小的或隐藏得很好的复活节彩蛋一样,如果你只是短暂地扫描一个房间,加快在数据库中搜索蛋白质序列的相似性通常会带来丢失一些不太明显的匹配的负面影响

“这就是为什么不久前,我们开始设计钻石算法,希望它能让我们在合理的时间内处理大数据集,”合作者本杰明·布赫芬克回忆道

D

德罗斯特研究小组的学生,自2013年以来一直在开发钻石

“的确如此,但也有不利的一面:它无法获得一些更遥远的进化关系

“这意味着,尽管最初的钻石可能已经足够灵敏,能够检测到黑猩猩身上的特定人类氨基酸序列,但它可能对进化上更遥远的物种中类似序列的出现视而不见

未来研究的有力工具 虽然对研究直接从环境样本中提取的材料很有用,但其他研究目标需要比最初的钻石搜索算法更敏感的工具

来自图宾根和加青的研究团队现在能够修改和扩展DILMAN,使其与BLAST一样灵敏,同时保持其更高的速度:有了改进的DILMAN,研究人员将能够以BLAST 80-360倍的计算速度进行比较基因组学研究

“此外,戴蒙德使研究人员能够以真正大规模并行的方式,在超级计算机、高性能计算集群或云上以类似BLAST的灵敏度进行比对,使得在可处理的时间内进行极其大规模的序列比对成为可能,”马克斯·普朗克计算和数据设施的合作者克劳斯·路透补充道

" 一些在超级计算机上需要其他工具两个月才能完成的查询,可以在几个小时内用新的钻石基础设施完成

“考虑到可用基因组数量的指数增长,钻石的速度和准确性正是现代基因组学需要从所有基因组的整个集合中学习的,而不是由于缺乏敏感的搜索能力而不得不只关注少数特定物种,”德罗斯特预测

因此,该小组相信,钻石的全部优势将在未来几年变得明显

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/shegnwu/4190.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~