利用二维卷积神经网络进行乳腺癌分类
Submitted on 7 Jul 2020 (v1), last revised 29 Jul 2020 (this version, v2)
回复 ts15获取论文及项目源码
摘要
乳腺癌是女性最常见的癌症。对有临床记录的癌症/非癌症患者的分类需要高的敏感性和特异性来进行可接受的诊断试验。然而,目前最先进的分类模型——卷积神经网络(CNN),却不能用于以一维格式表示的临床数据。CNN被设计用于处理一组二维矩阵,这些矩阵的元素与相邻元素有一定的相关性,比如图像数据。反之,除了时间序列数据以外,用一组一维向量表示的数据示例不能用于CNN,而可以用于其他分类模型,如人工神经网络或随机森林。我们提出了一些新的数据纠偏预处理方法,将一维数据矢量转换为CNN上待处理域之间具有适当相关性的二维图形图像。我们在威斯康星原始乳腺癌(WBC)和威斯康星诊断乳腺癌(WDBC)数据集上测试了我们的方法。据我们所知,这项工作在非时间序列数据的非图像到图像数据转换方面是新颖的。使用VGGnet-16与CNN处理的转换数据显示了WBC数据集的竞争性结果,并优于其他已知的WDBC数据集的方法。
概述
ML方法在医学应用领域广泛
近年来,由于数字技术的进步和数据收集方法的改进,人们对医学数据集的机器学习(ML)模型的发展越来越感兴趣。越来越多的基于ML的系统被设计为慢性疾病的早期预警或诊断工具,例如诊断抑郁症、糖尿病和癌症[1]。乳腺癌可以说是女性最致命的癌症之一,全世界有数百万例报告病例,其中许多病例会致命[2,3]。乳腺癌是由乳腺或乳腺导管内壁的某些乳腺细胞(导管上皮细胞)异常生长引起的[4,5]。与健康细胞相比,这些细胞分裂更快,积累更快,形成肿块或团块。在这一阶段,细胞变为恶性,并可能通过乳腺扩散到淋巴结或身体的其他部位。
CNN方法对二维数据处理较为有效
CNN已经被证明对二维形式的数据最有效,比如图像和音频光谱图[33]。这是因为CNN的卷积技术要求数据样本至少有二维。相反,CNN也研究了特定于应用程序的一维数据。其中包括基因测序数据,如作为文本数据(词的序列)[34]处理的DNA序列,以及文本挖掘、词检测和自然语言处理(NLP)中的信号和序列[35,36]。
CNN在时间序列分类(TSC)领域的研究背景
更具体地说,用于时间序列分类(TSC)的CNN最近已经用一些新方法进行了探索,如多尺度CNN (MCNN)[25],以及在incep -v4架构上与AlexNet集成的CNN模型[37,38]。这些方法与最先进的集成方法(如Flat-COTE和hif - cote)一起,在分类器的准确性方面取得了显著的提高[39,40]。此外,原始时间序列数据也被用于一维CNN中,通过计算信号的面积进行卷积,具有更好的时间复杂度和可扩展性[41,42]。然而,很多数据仍然以一维的格式存在,如病历的临床数据,因此,CNN是否能够有效地训练这些数据进行分类,这是一个具有挑战性的研究问题。为了填补这一空白,本文提出了一种新的非时间序列一维数据到二维数据的转换方法,并用CNN对其进行处理。
图10所示,用CNN对非图像数据进行分类的完整过程
总结
本文的目的是将乳腺癌数据集WDBC和WBC的非图像数据(非时间序列形式)处理为CNN能输入的数据,因为它具有最先进的性能,并消除了在图像识别应用中手工特征提取的问题。CNN的使用主要局限于图像数据,除了一些特定领域的数据转换技术,如NLP和语音识别。我们提出了将非时间序列数据转换为图像数据的新方法。这个转换过程非常简单,效率不超过O(Nd^2)。分类准确率实验结果表明了这些方法的竞争力。进一步改进这些方法以取得更突出的结果也具有很大的潜力。例如,可以尝试不同形状、大小、颜色甚至排列的柱状图。类似地,距离矩阵可以增强,以获得更多的信息,如邻近元素的均值/方差。其他具有不同类型和不同方向的数值数据的应用在将非图像数据转换为图像数据后,如何响应CNN还有待观察。直观地说,数据上的信息越多,用组合方法观察到的结果就越好。最后,没有对1-D CNN进行任何复杂的数据变换的数值数据,其分类精度无法得到满意的结果。
领取专属 10元无门槛券
私享最新 技术干货