物理科技生物学-PHYICA

脱氧核糖核酸数据库:新方法将索引从美剧老板几周缩短到几小时,搜索缩短到几分钟

技术工程 2021-12-11 21:54:55

genome Credit: CC0公共领域莱斯大学的计算机科学家正在派遣RAMBO去营救基因组研究人员,他们有时要等上几天或几周才能从巨大的DNA数据库中获得搜索结果。DNA测序如此受欢迎,基因组数据集的规模每两年翻一番,搜索数据的工具也没有跟上步伐。研究人员在基因组间比较DNA或研究导致新冠肺炎病毒的生物进化时,往往要等上几周,软件才能索引大型“宏基因组”数据库,这些数据库每个月都会变大,现在是以千兆字节为单位进行测量的。

RAMBO是“重复和合并的bloom filter”的缩写,是一种新方法,可以将此类数据库的索引时间从几周缩短到几小时,并将搜索时间从几小时缩短到几秒钟。莱斯大学的计算机科学家上周在计算机械协会数据科学会议SIGMOD 2021上介绍了RAMBO。

“用传统方法在大型数据库中查询数百万个脱氧核糖核酸序列,在大型计算集群上可能需要几个小时,在单个服务器上可能需要几周时间,”RAMBO的联合创建者托德·特兰根说,他是莱斯的计算机科学家,他的实验室专门研究宏基因组学。“随着基因组数据库的规模继续以令人难以置信的速度增长,减少数据库索引时间以及查询时间至关重要。”

为了解决这个问题,特伦根与莱斯计算机科学家安舒玛利·施赖瓦斯塔瓦(Anshumali Shrivastava)以及研究生高拉夫·古普塔(Gaurav Gupta)和·严(Yan)合作,前者擅长创建算法,使大数据和机器学习更快、更具可扩展性,后者是同行评议的RAMBO会议论文的共同主要作者。

RAMBO使用的数据结构比最先进的基因组索引方法具有更快的查询时间,以及其他优势,如并行化、零假阴性率和低假阳性率。

“RAMBO的搜索时间比现有方法快35倍,”电气和计算机工程专业的博士生古普塔说。在使用170万亿字节微生物基因组数据集的实验中,古普塔说,RAMBO将索引时间从“复杂的专用集群上的6周缩短到共享商品集群上的9小时。”

计算机科学博士生严(音译)说,“在这个巨大的档案库里,RAMBO可以用100台机器的标准服务器在几毫秒甚至几毫秒内搜索到一个基因序列。”

RAMBO改进了Bloom filters的性能,Bloom filters是一种有半个世纪历史的搜索技术,在之前的许多研究中已经应用于基因组序列搜索。作者在研究中写道,RAMBO改进了早期用于基因组搜索的Bloom filter方法,采用了一种被称为count-min sketch的概率数据结构,这种结构比早期方法“带来了更好的查询时间和内存权衡”,并且“通过实现非常健壮、低内存和超快速的索引数据结构,击败了当前的基线”。

古普塔和严说,RAMBO有潜力使基因组搜索民主化,使几乎任何实验室都有可能用现成的计算机快速、廉价地搜索庞大的基因组档案。

“RAMBO可以减少生物信息学中大量研究的等待时间,例如在全球废水宏基因组中寻找新型冠状病毒的存在,”闫说。"例如,RAMBO可以在癌症基因组学和细菌基因组进化的研究中发挥作用."

来源:由phyica.com整理转载自PH,转载请保留出处和链接!

本文链接:http://www.phyica.com/jishugongcheng/5716.html

发表评论

用户头像 游客
此处应有掌声~

评论列表

还没有评论,快来说点什么吧~