一般来讲,数据的挂接就像之前的推送中所写的那样,挂接所基于的属性必须是完全一致的。如果数据稍有不同,则会出现挂接不上的情况。但是在实际的工作中,数据的质量可能并没有那么好,而又要将这些数据挂接起来,所以就需要进行模糊匹配。
模糊匹配有很多的算法,对应这些算法,也有很多的工具。在本次推送中,我向大家推荐一款开源的ETL——kettle(现在叫Spoon,本文中所涉及到的)。
使用到的数据为历史推送中的使用FME获取POI信息中的结果,经过简单的处理来使用(将name中括号及内部内容去掉)。数据处理前后分别如下图所示:
模糊匹配结果(图片较大,建议横屏查看):
首先使用步骤(在kettle中step类似FME中的转换器)将Excel加载进来,接着使用模糊匹配的步骤进行匹配,随后再使用步骤将数据写出为Excel。
先来截图吧:
上面图片中所使用到的步骤,是这次转换的核心,再转换中,使用Fuzzy match步骤进行模糊匹配,对步骤进行如上图的配置就可以实现数据的模糊匹配了。
选择合适的平台,可以让难以解决的问题变得容易解决了。做数据的相关处理,没有两三把刷子是不行的,不能把所有的问题都丢给一个软件、一个平台。今天就先这样了,文中如果有什么阐述不清的,还请见谅,或者可以与我直接沟通。