前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >如何进行模糊匹配

如何进行模糊匹配

作者头像
数据处理与分析
发布2019-07-31 16:37:20
发布2019-07-31 16:37:20
3.6K0
举报
为什么要进行模糊匹配

一般来讲,数据的挂接就像之前的推送中所写的那样,挂接所基于的属性必须是完全一致的。如果数据稍有不同,则会出现挂接不上的情况。但是在实际的工作中,数据的质量可能并没有那么好,而又要将这些数据挂接起来,所以就需要进行模糊匹配。

使用到的工具

模糊匹配有很多的算法,对应这些算法,也有很多的工具。在本次推送中,我向大家推荐一款开源的ETL——kettle(现在叫Spoon,本文中所涉及到的)。

用到的数据及处理结果

使用到的数据为历史推送中的使用FME获取POI信息中的结果,经过简单的处理来使用(将name中括号及内部内容去掉)。数据处理前后分别如下图所示:

模糊匹配结果(图片较大,建议横屏查看):

转换(transformation)思路及整体概览

首先使用步骤(在kettle中step类似FME中的转换器)将Excel加载进来,接着使用模糊匹配的步骤进行匹配,随后再使用步骤将数据写出为Excel。

使用到的Steps解析

先来截图吧:

上面图片中所使用到的步骤,是这次转换的核心,再转换中,使用Fuzzy match步骤进行模糊匹配,对步骤进行如上图的配置就可以实现数据的模糊匹配了。

结语

选择合适的平台,可以让难以解决的问题变得容易解决了。做数据的相关处理,没有两三把刷子是不行的,不能把所有的问题都丢给一个软件、一个平台。今天就先这样了,文中如果有什么阐述不清的,还请见谅,或者可以与我直接沟通。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-09-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据处理与分析 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 为什么要进行模糊匹配
  • 使用到的工具
  • 用到的数据及处理结果
  • 转换(transformation)思路及整体概览
  • 使用到的Steps解析
  • 结语
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档