首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

人工智能+蛋白质组

这篇文章通讯作者是加拿大滑铁卢大学计算机学院讲座教授李明(加拿大皇家学会院士,ACM & IEEE Fellow),主要致力于机器学习,算法平均复杂度、信息距离、生物信息学等。在Nature、PNAS等发表多篇高水平文章。

本篇文章作者提出了一个利用DIA的数据从头测序的解决办法,发展了一种基于深度学习的模型---DeepNovo,关键思想是应用神经网络来更好地学习碎片离子和肽序列的特征:提取了母离子的M/Z,电荷,保留时间以及强度信息以及每个母离子,收集了所有的MS/MS谱图,这些谱图在保留时间内以及DIA的窗口覆盖到了这个离子,进一步选择母离子保留时间距离中心最近的一点的谱得到其最强的碎片离子的峰所在的谱。将前体及其相关的MS/MS谱提供给DeepNovo-DIA神经网络,从而对(i)沿m / z和保留时间维度的碎片离子的三维形状,(ii)母离子与其碎片离子之间的相关性,和(iii)肽序列模式。进一步观察到,与许多复杂的优化算法相比,DeepNovo的迭代排序框架使得可以扩展到DIA而不会增加复杂性。作者利用原来获得的64名受试者的尿样数据集上训练DeepNovo-DIA。进一步利用DeepNovo-DIA对来自不同受试者的另外两个数据集(被诊断出患有卵巢囊肿:六个受试者或尿路感染:六个受试者),我们还在之前获得的血浆样本数据集上对DeepNovo-DIA进行测试,且在模型开发期间未使用测试数据集。

进一步构建了一个内部数据库搜索工具来生成训练数据。他们参考了DIA-Umpire的方法,即从每个母离子的特征以及对应二级谱生成伪谱。然后进一步使用传统的DDA数据库搜索工具PEAKS DB来搜索针对人类数据库的伪谱。他们的训练集一共包括2177667张谱,202114个标记的母离子特征以及14400个肽段。最终显示当作者在内部数据库搜索工具利用标记的特征进行分析,DeepNovo-DIA可以精确预测63.8–68.1%的氨基酸以及37.4–52.4%肽段,当作者将DeepNovo-DIA应用于所有特征时,高置信度预测的肽段提高到90%,进一步作者发现DeepNovo-DIA对于UTI和OC的样品表现比血清要好,可能是前两者与训练集更加相似的原因。进一步作者利用血清的样品对将DeepNovo-DIA与PECAN和Spectronaut相对比,发现1023个在DeepNovo-DIA鉴定到的肽段也可以在PECAN或是Spectronaut中鉴定到。而对于PECAN和Spectronaut都坚定到的肽段可以视为高置信度的数据库搜索结果,DeepNovo-DIA鉴定到了778(37.2%),与现有的利用DDA的从头测序软件的性能相当,进一步也有1730个肽段只在DeepNovo-DIA中被鉴定到。作者进一步将1023个数据库里鉴定到的肽段与只被DeepNovo-DIA鉴定到的肽段,两者进行比较,发现DeepNovo-DIA对低丰度肽段鉴定效果更好。

另一篇是广州医科大学第一附属医院院长何建行教授与加州大学圣地亚哥分校(UCSD)人类基因组医学研究所所长张康教授在《Nature Medicine》上发表的一篇综述,梳理和预测了AI技术在医疗健康领域的实施现状与未来发展。

“AI+医疗”指的是人工智能通过机器学习、表征学习、深度学习和自然语言处理等各种技术,利用计算机算法从数据中获取信息,以协助制定临床决策为目的,实现辅助诊断、疗法选择、风险预测、疾病分诊、减少医疗事故和提高效率等一系列功能。

在医疗健康领域,AI发挥重要影响的应用将涵盖四大方向:诊断,治疗,人口健康管理,监督和调控。

研究人员预测了基于AI的技术在临床实施应用的几种方式。

首先是作为分诊和筛查工具,理论上可以降低医疗系统的压力,把资源分配给最需要医疗帮助的患者。例如,通过深度学习,AI工具可以检查视网膜图像,确定哪些患者有致盲性眼病并及时转诊给眼科医生。还有英国Babylon公司开发的一款移动应用,可以和用户直接互动的聊天机器人,实质上就是基于AI的分诊工具,用于区分患者是否需要找医生做进一步检查。

AI技术还可以在一些理论上不复杂但时间紧、耗人力的任务上作为替代人手,让医疗工作者可以去处理更复杂的任务。例如,自动化分析射线成像,估测骨龄;自动化分析光学相干断层扫描(OCT)影像,诊断可以治疗的视网膜疾病;自动化分析心血管图像,量化血管狭窄和其他指标,等等。

最能体现AI价值的方式或许是让AI辅助专业医师。让临床医生与AI结合,产生1+1>2的协同效应,支持实时的临床决策,助力精准医疗。

临床实践实施AI技术的关键议题

虽然医疗相关的AI技术不断实现突破,但把技术“转化”为真正实施于临床的应用,目前还存在一定距离。要真正实现“产业化”,需要获得大批量数据,把AI嵌入实际的临床工作流程,并配合监管框架。研究人员认为,需要解决以下几大问题。

数据共享

无论是对AI的初始训练还是对算法的验证和改进,数据都是核心依托。目前,像Cardiac Atlas Project,放射学视觉概念提取挑战赛VISCERAL(Visual Concept Extraction Challenge in Radiology),英国生物样本库“UK Biobank”和Kaggle数据科学杯赛 (Data Science Bowl)等国际项目,提供了成像和非成像数据的大规模数据集。不过,研究人员认为,要在医疗健康领域更广泛的采纳AI技术,数据共享的程度还需要进一步加大。

数据和算法的准确性和透明度

透明度涉及多个层面。例如在监督式学习中,预测准确性很大程度上依赖于输入到算法中的注释的准确性。大量(上万至十万级)高质量标注好的数据是算法准确性的根本条件,也是稀缺资源。另外输入数据的标签透明度对评估监督式学习算法的训练过程是否准确起到关键作用。

透明度还影响到模型的可解释性,也就是让人类可以理解或阐释特定预测或决策所产生的逻辑。应用于医疗的AI技术需要打开“黑箱”,有足够的透明度来评判诊断、治疗建议或预测结果的合理性。

透明度的另一个重要原因在于,AI技术可能存在算法偏差,会放大种族、性别或其他特征造成的歧视。训练数据的透明度和模型的可解释性使我们可以检查潜在的偏差。理想情况下,可以用算法解决算法偏差,如果设计时可以根据已知的偏差做出弥补,甚至可以通过机器学习来解决群体之间在健康上的遗传和生物差异。

患者的安全

问责制度是与患者安全有关的一个重要问题。当AI技术对我们的身体造成伤害时,谁应该为此负责?无疑,AI技术将改变传统的医患关系。多国政府和WHO的监管机构正在做出努力,试图在保护患者安全和促进技术创新之间取得微妙的平衡。

数据标准化

鉴于医疗保健数据的复杂性和大规模,AI技术要有效利用各种方式收集的数据,在初始开发阶段就应做好数据标准化的工作,将数据转化为在不同工具和方法中都能被理解的通用格式。

典型的临床工作流程由多个部分组成,对互操作性提出了要求。以AI辅助放射学为例,用于检查操作的算法、研究优先级、特征分析和提取,以及自动化生成报告,可能是由不同的供应商提供的产品,算法之间需要创建一套工作流互操作性标准进行整合,并让算法可以在不同设备上运行。如果不尽早优化互操作性,AI技术实际应用的效果会受到严重制约。

嵌入现有临床工作流程

医学数字成像与通信(DICOM)标准和医学影像存档与通讯系统(PACS)为数据管理提供的一致性平台使医学影像发生了革命性巨变,类似的标准也应该应用到AI技术,开发统一的命名,方便数据的存储和检索。

例如,以实现临床转化为目的的快捷健康互操作资源(FHIR)框架就是目前全世界范围内快速发展的一套标准,基于一系列被称为“资源”的模块化组件来构建。这些资源能够很容易地组装进工作系统,方便在电子病历、移动端应用程序、云通讯等之间进行数据共享,这对于未来AI技术在医疗保健领域的实施至关重要。

经济考量和人才配备的问题

研究人员特别提出,鉴于临床决策的复杂性和潜在的滥用后果,在医学领域实施AI技术需要所有利益相关者的积极参与,在医生、医疗服务提供者、数据科学家、计算机科学家和工程师之间形成沟通和协作。

评估安全性和有效性的政策和监管环境

美国FDA在2017年7月推出数字健康创新行动计划(Digital Health Innovation Action Plan),对医疗软件提出监管新举措,在此基础上,已经有一些AI技术获得了FDA批准。例如,第一款获得FDA批准使用AI的医疗设备——“自主”诊断系统IDx-DR,用AI算法为患者自动检测是否出现轻度糖尿病视网膜病变(DR),根据筛查结果提供是否需要转诊给眼科专家的建议,适用于基层医疗机构。这款AI产品的上市过程就是走了FDA针对低到中度风险的“De Novo重新分类”途径,并获得了突破性产品(Breakthrough Device)资格。

此外,FDA启动软件预认证计划,着重审查软件技术开发商而非单个产品,改善技术获取方式,将资源集中在高风险的产品上。

原文索取请到QQ群中!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190112G07XQ800?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券