原文信息
题目:Application of Classification Models and Spatial Clustering Analysis to a Sewage Collection System of a Mid-Sized City
作者: I-S. Jung
作者单位:Department of Civil and Environmental Engineering, Carnegie Mellon University
期刊:American Society of Civil Engineers
时间:2014
文章简介
本文主要介绍了分类模型和聚类思想在失效排水管道识别中的应用,从而建立管道性质、地理条件等变量与管道失效与否(本研究中主要指漏损)之间的联系。
本研究以一个中型城市的部分排水管网为例,利用自动监测机器人获取城市管网信息,包括管道长度(位置信息)、管道状况(失效与否)、管道直径、管道材料等信息。另外,通过其他渠道获得了土壤类型信息和管道高程信息。
图1 管道状态分布图
(深色表示管道失效)
由于在城市管网中失效管道毕竟是少数(即分类问题中的数据不平衡问题),数据分析时容易被当作异常值去掉,或是由于数量过少而无法在分类和聚类分析中体现出来(分类效果不够理想)。针对数据不平衡问题,一般有采样(sampling)和代价敏感学习(cost-sensitive)两种方法,采样方法则又分为过采样(over-sampling)和欠采样(under-sampling)两种。本研究采用的解决方法是SMOTE算法,这是过采样方法中较常用的一种。SMOTE算法的核心思想是合成新的少数类样本。研究所获取的样本数据本身都对应特征空间的点,SMOTE算法就是在这个特征空间的两个同类点之间随机选取一个新的点作为新的样本,同时认为这个新的点和原来的两个点具有相同的类别。这样操作就可以使得原本容量过小的类别拥有更多的样本,从而使得分类和聚类效果更加理想。
数据处理妥当后,本研究先对数据集进行了分类分析,选用的两种方法是贝叶斯网络和决策树。贝叶斯网络以贝叶斯公式为基础,可以实现变量间概率关系的图形化表达,是一种通过已知变量的信息来获取目的变量的概率信息的数学模型。通过贝叶斯网络分析,本研究发现“高程”这一变量对于管道失效与否的分类没有直接良好的指示作用,而管道材质、直径和土壤类型则可以作为分类的直接指标。
图2 贝叶斯网络图
决策树是另一种应用广泛的分类算法,优势在于结果可读性更高。本研究选用了C4.5决策树(ID3决策树的拓展),这种算法具有更好的剪枝性,能够很好地表现出变量间重要性的差异。通过决策树分析,本研究发现管道材料和管道直径是分类的重要指标。
使用分类模型分析后,本研究还进行了聚类分析,希望可以找到管道及地理属性和管道状态之间的其它联系。本文采用了四水平的聚类分析,并比较不同水平聚类分析的结果,最终发现土壤类型是聚类分析的重要影响因素。
图3 聚类分析部分结果
编者点评
本文采用的数据处理方法、分类模型和聚类分析方法都是目前应用广泛的方法。笔者认为,更值得借鉴的是本研究的研究思路,即先进行分类分析,继而进行聚类分析。
作为一种监督式学习,分类模型相较于聚类分析(无监督学习)更可以融入分析者的主观理解(包括分类指标选取和类别划定等),而聚类分析则是从数据本身出发的,可能会带来一些意想不到的聚类结果,从而指出一条新的研究方向。
领取专属 10元无门槛券
私享最新 技术干货