首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

能够识别基因突变?你想多了,谷歌AI工具没那么厉害

作者史蒂芬·萨尔斯伯格是约翰霍普金斯大学彭博生物医学工程、计算机科学和生物统计学的杰出教授,2005-2011年,任马里兰大学帕克分校计算机科学系的Horvitz教授、生物信息学和计算生物学的中心主任。必须强调的是,他曾在基因组研究所工作,还参与了人类基因组计划,同时也是流感病毒测序项目的共同创始人。

大多数科学家不会专门使用公关手段来炒作个人工作。在阅读了上周Google基因组发布的公告之后,我意识到也许这是个好事。

上周五,《连线》杂志的一篇文章报道称:“Google发布了可以为你构建基因组序列的AI。”这太吸引眼球了!两项高科技创新技术(AI和基因组)囊括在同一个标题中!然而,事实并非如此。结果表明Google的新“AI”软件仅仅是对现有软件的一点改进,甚至比这更少。

我将不得不引入一点技术方面的知识来进行解释,因为这是唯一正确表述记录的办法。《连线》的这篇文章开头是这么介绍这项有趣挑战的:

“如今,只需要一小勺唾液和一百块钱就可以得到你的DNA的快照,但是要想获得基因组中全部30亿对碱基对的全貌,就费力多了。

作者(Megan Molteni)似乎在谈论基因组组装——将数十亿个DNA片段组合在一起来重建整个染色体。这是我近20年来一直在做的事情,这个问题非常吸引人,但同时也相当复杂。

那么Google真的有一个新的基因组组装程序吗?是基于某种gee-whiz人工智能算法吗?

不,甚至完全不相关。让我们来看看Google发布公告的一些方式,以及随后发布的在线文章,这些方式要么误导大众,要么过度宣传。

1.Google程序不会组装基因组。尽管《连线》文章以“获取”基因组“全貌”的承诺开篇,但新的Google程序DeepVariant在此方面并没有任何建树。DeepVariant可以识别小突变,主要指单个字母的变化(称为SNPs)。这被称为变体调用或SNP调用,大概十多年就已经有了。很多程序都可以做到这一点,而且其中大部分都做得很好,精度超过了99.9%。

那么《连线》文章怎么会出现这样的失误呢?其实,这篇文章是基于Google几天前发布的一篇名为“DeepVariant:深度神经网络的高精度基因组”的报道,由软件开发者撰写。那些作者明知道他们的软件可以做什么事情,却误导性地将DeepVariant描述为:“一种可以从HTS测序仪数据中重建真正的基因组序列,获取比经典方法更高准确率的深度学习技术。”

听起来好像是在组装一个基因组,对吗?然而,如果你继续阅读,很快就会发现,DeepVariant只是一个变种的调用者。这个软件不会“重建真正的基因组序列”。这种说法极其错误。要重建序列,您需要使用基因组组装器,这是一个更为复杂的算法。

《连线》文章也指出:“今天(测序)机器产生的数据仍然只是生成不完整,拼凑的和有很多小故障的基因组。”

这是真的。但同样,DeepVariant也没有解决这个问题。它不能组装一个基因组,也不能改善“不完整,拼凑的”基因组的组装。

2.超级夸张。在线文章标识图像上的标题写着“Deep Variant比所有的现有方法都更精确”。Google的新闻稿,大概是这个标题的来源,声称DeepVariant“与经典方法相比显著提高了准确率”。

其实并非如此。这是你在科技论文中永远不能掉以轻心的一种说法,除非你能严格证明你的方法比其他所有方法都好。谷歌的团队没有这样做,但这是一个新闻稿,他们显然只是做了比较。

那么它有多好?首先,我想指出变体调用程序已经有了很长的一段时间了,而且它们工作得很好。有改进当然是好事,但它不能称作“变革”或“突破” ——这种Google团队毫不犹豫地在他们的新闻稿中使用的词语。他们还使用了“重要”这个词,这是他们在科技论文中永远不会轻易使用的,除非有统计数据的支持。

大约一年前,Google团队在bioRxiv上发布了一个预印本,表明他们的方法比较早的GATK方法更准确(仅基于有限的数据集),GATK是由同一作者Mark DePristo在MIT工作时开发的,后来他离开MIT并加入谷歌。GATK相当不错,使用非常广泛,但其他更新的方法要快得多,而且至少有时更准确。在他们的预印本中,Google团队基本上忽略了所有其他的变体调用程序,所以我们无法得知DeepVariant与所有这些程序相比是好还是差。如果他们想要在同行评审的期刊上发表这个预印本,恐怕还得做一些更好的工作。

3.更加夸张的是,Google新闻稿的开头包含这句话:“在基因组学领域,重大突破常常是由新技术带来的。”

然后,继续介绍DNA测序技术方面的几项真正的突破,如Sanger测序和微阵列技术,Google团队并没有为其中任何一项技术做出贡献。然后–让我们暂停,深呼吸。一段的停顿以后-他们说:“今天,我们宣布了DeepVariant的开源版本。”

什!么?我只能惊奇地摇头。Google团队真的相信DeepVariant对于Sanger测序而言是一个重大突破?对于曾在1980年使Fred Sanger获得了诺贝尔化学奖的Sanger测序?简直傲慢到了极点!

4.DeepVariant计算效率很低。即使它比以前的程序更好,但DeepVariant要慢得多。其他程序仅在通用的硬件上运行,但似乎Google的DeepVariant需要一个大型专用的并行计算机群。该《连线》文章解释,两家公司(DNAnexus和DNAStack)必须投资新的基于GPU的计算机硬件才能运行DeepVariant。一项独立评估发现,DeepVariant比竞争对手慢10到15倍。也许是巧合吧,Google的新闻稿也宣布那些想要运行DeepVariant的人可以使用Google云平台。

不用了,谢谢。我的实验室将继续使用16GT或Samtools,或其他更快速完成工作的变体调用程序们,而且无需使用Google Cloud。正如一位同事在推特上说的,“‘深度学习’的神奇魔法”和“谷歌”并不一定会让事情变得更好。

基因组学确实取得了很大的进展,虽然我赞赏谷歌将自己的一些科学工作奉献给基因组学,但是夸大迄今为止所做的工作并没有什么帮助,尤其是夸张到这个程度。Google新闻稿和《连线》文章都包含使公众不信任科学报道的夸大之词。我们并不需要这样做来激发公众对科学的兴趣。

编辑:DeepBlue

图片:部分源自网络

本文为未来图灵(futureturing)独家文章,转载请申请授权并注明来源。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171215A0425L00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券