中国学者开发新算法:测序数据分析时间首次少于数据产出时间

澎湃新闻记者 贺梨萍
2019-12-10 19:03
来源:澎湃新闻

在第三代基因测序下,完成个人全基因组测序仅需1天时间、费用低于5万元。然而,背后还有的挑战是:完成这样数据规模的全基因组组装分析,在2014年需要消耗50万个CPU小时,只能在超大计算机集群上进行。

这种情况下,同时对大量个体进行组装分析是难以想象的,然而以全基因组组装方式对群体进行测序分析已经成为生物和医学研究的趋势。毫无疑问,基因组学技术飞速进步既源于测序技术的发展,同时也依赖于数据分析技术的提高。

北京时间12月10日,中国农业科学院农业基因组研究所研究员阮珏团队在国际学术期刊《自然·方法学》(Nature Methods)上发表第三代测序数据组装算法wtdbg2,该算法极大提高三代测序数据的分析效率。

值得一提的是,此前的4月1日,美国加州大学圣地亚哥分校Pavel A. Pevzner团队在《自然·生物技术》(Nature Biotechnology)上发表论文“Assembly of long, error-prone reads using repeat graphs”,他们开发出Flye算法,这种长读取序列组装算法比此前的一些算法快了一个数量级。

阮珏团队提到,相比于Flye算法,wtdbg2分析速度提升了5倍,并首次将测序数据分析时间降低到少于测序数据产出时间。

Wtdbg算法的开发得益于一个新的组装图理论(Fuzzy Bruijn Graph,模糊布鲁因图)的提出。模糊布鲁因图借鉴了德布鲁因图(de Bruijn Graph)的思想,将测序数据切分为固定长度的短串,再从短串构建出的图上恢复出全基因组序列。

德布鲁因图以速度优势常用于第二代测序数据的组装分析,但因测序噪音极高的难题,从未成功应用在第三代测序数据。模糊布鲁因图则重新对短串进行定义,使之能够容忍高噪音数据,并随后对生成组装图和恢复基因组序列做了大量相应的重构,使其兼具高效率和高容错的优点。

这项研究始于2013年,由阮珏与美国哈弗医学院博士李恒合作完成。研究成果自2016年起对所有人免费开放使用,不仅被几十篇学术论文引用,还被国内多家基因测序分析公司作为主要组装分析工具。正式发表之前,该论文已在今年1月率先发表在了bioRxiv预印本网站上。

值得注意的是,针对数据产出速度远高于数据分析速度,生物信息学领域的科学家们近年来纷纷致力于改变这一尴尬状况,不断开发出更高效的组装分析算法。中国农业科学院农业基因组研究所在成立之初就布局成立组学技术研究中心,致力于将前沿测序技术引入农业科学研究中,阮珏团队多年来即始终专注于测序数据分析方法如组装算法的开发,力求推动测序数据的分析速度更快、分析质量更高。

    责任编辑:李跃群
    校对:张亮亮