数据出现重复值是我们日常工作中经常会遇到的问题,例如下面这个EXCEL表格里,订单编号这一列里出现了多个重复值,这个时候我们就要对数据进行去重了。去重的方法有很多,这里介绍两种方法:1、通过EXCEL去重;2、通过Python去重。
先给大家说一下在EXCEL里去重的基本方法,非常简单,先点击EXCEL工具栏上的“删除重复项”:
在弹出的界面里可以对去重的字段进行勾选,默认是全选的状态下,EXCEL会对所有相同行数的字段进行去重,如果只勾选某一列,EXCEL会对该列里重复的字段进行去重,这里我们只勾选订单编号这个字段:
点击确定,EXCEL便会完成去重的操作,这个方法非常简单,相信很多小伙伴都知道如何操作,下面重点给大家介绍一下如何通过Python进行去重。
用Python做数据分析需要先到官网安装Python的程序和PyCharm等其他的编辑器,还得安装一些数据分析常见的库,例如pandas,整个过程需要耗费不少时间。如果嫌麻烦,你也可以不用安装,直接登录智分析的官网并利用ETL功能去编写Python脚本,一样也可以实现Python的全部功能。
话不多说,我们进入智分析的网页端,把数据源上传到网页端,然后进入ETL的界面,把关系数据源的组件用鼠标拖拽到中间,这个时候我们需要对数据源进行选择,点击右边的参数,我们可以找到上传到网页端上的数据源文件,执行这个程序,数据源便可以成功加载到ETL里:
数据源加载后,我们可以用鼠标点击关系数据源组件对数据源进行预览,我们可以看到这份数据源有8568条,并且订单编号这一列是有重复值的:
这个时候我们点击左边脚本模块里的下拉菜单,把Python脚本的组件拉拽进来,并与关系数据源的组件进行相连:
点击Python脚本的参数设置,便会弹出Python的脚本编辑框,以下脚本是系统默认的存在的,已经提前预置的:
我们只需要在最后一句代码里加入drop_duplicates这个去重函数,然后指定是哪一列就可以了,这里我们以第一列为去重的目标字段:
最后我们看一下数据去重后的效果,去重后的数据只剩下了5489条:
完成去重后,我们可以选择把数据源以EXCEL的形式进行输出,这里教大家一个非常方便的方法,在ETL里选择已数据集的形式进行输出,然后在EXCEL进行调用是最方便的。我们先把数据集的组件拉拽过去,与上面的组件进行相连,并点击执行:
回到EXCEL里,打开智分析插件里的数据集面板,搜索刚刚保存成功的数据集,把数据集拉拽到EXCEL里,点击刷新,通过Python去重后的数据源便会全部显示在EXCEL中,是不是非常方便和简单呢?
通过上面的案例,我们可以看到Python结合ETL的功能去对数据进行清洗是非常方便的,一来是可以节省大量写代码的时间,二来可以利用ETL去和EXCEL完美地结合起来,真正地让EXCEL与其他工具做到无缝连接,在实际工作中真是非常的实用,如果你想学习Python但是苦于没有学习的方法的话,就赶紧来学习一下这种新的数据清洗方法吧。
领取专属 10元无门槛券
私享最新 技术干货