一个人的全基因测序数据量有多大?答案是约300G。“一个人有46条染色体,全部读取存储下来约3G,而在实际测序中,通常需要复制50-100份,这样一来,一个人的数据量可达300G。”魏彦杰近日在接受记者采访时如是说。
应对海量基因数据,传统电脑的分析工具已经远远无法满足高效分析的需求,深圳先进技术研究院数字所的魏彦杰博士团队与华大基因及美国阿贡国家实验室合作,借助超级计算机,开发了一套快速分析基因大数据的软件算法,并将数据结果用于探寻自闭症等复杂疾病的病因。
把剪碎的基因片段拼起来
近年来,随着基因测序技术的快速发展,全球范围内产生了海量的基因数据。据悉,仅华大基因目前的基因数据总量就达到约50PB,数据量相当于约262万部高清电影(一部1080P高清电影约20G),导致高昂的存储和分析费用,而对基因数据快速分析,能够大大降低基因测序成本。魏彦杰团队研发的软件系统就借助超级计算机,实现了快速基因组组装。
△ 第二代测序中基因被剪成片段
什么是基因组组装?这要从第二代基因测序原理说起。据魏彦杰介绍,在第二代基因测序中, 46条染色体在实验过程中被剪成很小的基因片段。
“正常的基因长度含几千甚至上万个碱基,而在测序中被剪成了约100个碱基的长度。”魏彦杰说,“就像给你一本剪碎的百科全书,拿到任何一个碎片都读不出它的全貌。而第二代基因测序给出的就是这样一堆碎片,现在要用计算机的方法将它的每页每章节恢复出来。”
据魏彦杰介绍,基于超级计算机Mira,团队研发的软件系统可在10分钟内处理4T的基因数据,数据量相当于约204部高清电影。作为开源系统,可在所有超算上运行,自2014年上线以来,下载量达600多次,已被阿贡国家实验室、俄亥俄州立大学等机构广泛使用,接下来还将继续对算法进行优化,使之更高效。
强大的超算需要优质的软件
在对基因大数据的快速分析处理中,超级计算机扮演了重要角色。据魏彦杰介绍,由于数据量巨大,只有利用超算的分布式内存,通过联合使用的方式才能完成大数据的导入和计算。
也就是说,一台计算机无法完成的工作,现在通过多台计算机合作可以完成。而如何提高计算机间的通讯效率,使每台计算机发挥最强计算能力,则需要通过算法设计来实现。
“一个人一小时能完成的工作,两个人做未必是半小时。超级计算机也是同理,一个处理器100小时能够完成的计算,两个处理器未必50小时能完成,这其中存在通讯和沟通成本。”魏彦杰打比方说道。
△ 团队测试软件使用的Mira超级计算机
据介绍,团队开发的软件在系统扩展性和系统效率上已处于全球领先水平,目前基因组装分析软件在Mira超级计算机扩展性达到25万核,系统效率达到30%以上,并通过了第三方测试。
“现在我们有了E级超算,但怎么用是关键。这么多资源,这么大的机器,需要运行更高效的软件。”魏彦杰说,中国的超算硬件已经处于世界前沿,但软件相对滞后,尤其是众多超算的商业软件仍由国外主导,我国需要更多优质软件,以更好发挥超算的作用。
融合多源大数据探究自闭症病因
完成基因测序后,将测序结果用于复杂疾病的机理研究是主要应用方向之一。据介绍,复杂疾病不由单一基因决定,而受到多基因遗传和环境等复杂因素的影响,因此需要借助多种数据来研究复杂疾病病因,自闭症就是其中一种。
据2017《中国自闭症教育康复行业发展状况报告》显示,我国自闭症患者已超1000万,其中0到14岁儿童病患达200万,而医学界至今也未能找出自闭症的确切病因和发病机制。
△ 自闭症儿童症状
魏彦杰介绍,自闭症是一种由多个基因决定的复杂性遗传疾病,如果能通过基因检测等手段,对自闭症患儿进行早期筛查,就能尽早进行康复训练,提高治疗效果。
为此,魏彦杰团队与深圳市儿童医院等机构合作,从基因和自闭症的关联角度做交叉分析,采集基因数据的同时,加入了患者大脑的影像数据,基于深度学习的方法,探索自闭症的早期诊断方法。
△ 受访者魏彦杰博士
“从前的数据相对孤立,现在可以将不同来源的数据进行融合分析,比单一数据分析得到更多、更全面、更立体的信息。“魏彦杰认为,生物医学数据正进入量变到质变的阶段,如何利用强大的算力进行数据融合分析,深度挖掘数据间的关联,将是未来生物大数据挖掘的重要方向。
文/严偲偲
编辑/春儿
如果您对上述项目感兴趣,欢迎留言与我们联系,或致电0755-86392046冯老师。如果您想把自己研究团队的成果在我们的微信平台上进行展示,欢迎投稿至siat_news@siat.ac.cn。
「读创」客户端是深圳报业集团重点打造的综合性APP融媒体项目,是国内首个以「科技+财经」为主要特色的平台级主流移动新闻客户端,由深圳报业集团旗下四大主报之一的深圳商报整体转型来推进建设。SIAT与读创客户端就「项目来了」展开合作,点击原文阅读读创平台的精彩解读:
领取专属 10元无门槛券
私享最新 技术干货