首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

美研究人员开发出利用更少的数据实现诊断的AI系统

随着人工智能系统的不断进步,AI已经更好地识别和分类图像,它们在扫描医学图像和诊断疾病(如皮肤癌)方面变得非常可靠。但是,即使检测模式再好,AI也不会很快取代你的医生。即便用作工具,图像识别系统仍然需要专家来标记数据,并且需要大量数据:它需要健康和病人的图像。使用算法在训练数据中找到模式,并在尝试识别新图像时使用它。但是,专家获取和标记每个图像是耗时且昂贵的。为了解决这个问题,卡内基梅隆大学工程学院的一个研究小组开发了一种主动学习技术,该技术使用有限的数据来诊断糖尿病视网膜病或皮肤癌等疾病的高度准确性。

左侧是含有病变的视网膜,称为渗出物(在盒子内),与糖尿病性视网膜病变有关。右侧是包含称为出血的病变的视网膜,其也与糖尿病性视网膜病变有关。

研究人员的模型开始使用一组未标记的图像。模型决定要标记多少图像以获得准确的训练数据集。它标记了一组初始随机数据,然后将其绘制在分布上,因为图像会因年龄,性别,物理属性和其他参数而异。要根据这些数据做出正确的决策,样本必须覆盖大型数据。然后,算法考虑当前的数据分布,决定应该将哪些数据添加到数据集中。该算法测量在添加一组新数据后分布的好坏,然后会选择出一个能够改进整个数据集的新数据集。重复该过程,直到数据集的分布足够好以用作训练集。这种方法称为MedAL(用于医学主动学习),仅使用425个标记图像检测糖尿病视网膜病变的准确率为80% - 与标准不确定性采样技术相比,所需标记实例数量减少32%,并且40%与随机抽样相比减少。

该过程首先训练模型并使用它来查询未标记数据集中的示例,然后将其添加到训练集中。提出了一种更适合深度学习模型的新查询功能。该模型用于从oracle和训练集示例中提取特征,并且该算法过滤掉具有低预测熵的oracle示例。最后,选择oracle示例,该示例平均是所有训练示例的特征空间中最远的。

研究人员还测试了其他疾病的模型,包括皮肤癌和乳腺癌图像,以显示它可以在各种不同的医学图像上工作。该方法是可推广的,因为它的重点是如何战略性地使用数据而不是试图找到疾病的特定模式或特征。它也可以应用于使用深度学习但具有数据约束的其他问题。

CMU的主动学习方法将基于预测熵的不确定性采样和学习特征空间上的距离函数相结合,以改进未标记样本的选择。该方法还通过有效地仅选择提供关于整体数据分布的最多信息的图像来克服传统方法的限制,从而降低计算成本并提高速度和准确性。

该图文消息由医研资讯汇编整理,如需转载请注明。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190322A057BD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券