今天的文章有点儿长,步骤有点儿多,但这个综合操作很值得练好,以后扩展应用的空间很大。
小勤:Excel里删除重复项很简单,但要保留重复项怎么做?比如下面这个数据,保留其中有重复的项目:
最近,有位朋友在一个实际工作问题中,在表2使用合并查询从表1的结果中匹配最高(阶段)项,眼看着表1的结果是对的,但表2里却得到了错误的返回结果,具体情况如图所示:
所有要进行操作的文件下载链接: https://pan.baidu.com/s/10VtUZw8G-Ly-r4VypntjiA 密码: y5qu 下载成功后,整个文件夹如下图所示。
之前听大佬讲过 ALL VALUES DISTINCT 的区别,一直懵懵懂懂。通过学习,今天终于算是“搞懂”了。
本文通过Excel的新功能Power Query结合数据有效性功能,实现最简单实用的去掉重复数据并在表格中下拉显示的效果。
最近,有朋友在用Power Pivot构建表间关系的时候,出现了一个问题:明明我已经删除了重复项,但构建表间关系的时候,还是说我两个表都有重复的数据!结果表间关系建立不起来!
导语:Power Query 是可证明的,在这个星球上性价比最高的数据处理工具,如果你的工作中需要处理数据,注意,是处理,不是分析,那么此工具必须掌握。对此,90%的鼠标点击,5%的猜测以及5%的公式能力足以。本文来自《Master Your Data》的第十章,非常重要,必须掌握。
不同的公式可以达到同样的效果,所以观察产生结果的公式就很重要,别把公式栏给隐藏了,需要打开它,如图1所示。例如:删除列和删除其他列可能得到的效果是一样的,但是如果数据有变动刷新后得到的结果却有可能不同。
忽略指定过滤器后进行计算。 之前这个使用All函数生成忽略学科教师平均分的度量值,如果用AllExpect函数则可以写成
在Excel中,我们可以通过单击功能区“数据”选项卡上的“删除重复项”按钮“轻松”删除表中的重复项。确实很容易!然而,当数据集太大,或者电子表格中有公式时,这项操作有时会变得很慢。因此,我们将探讨如何使用Python从数据表中删除重复项,它超级简单、快速、灵活。
导语:花10%的时间,熟练掌握Power Query的基础操作,解决80%的问题,再或10%的时间,掌握一些儿基础的M函数,再解决15%的问题,剩下的5%,需要的时候问人吧。
Excel里部分人工资调整,要引入到原表中,并保持未调整的人员数据和位置不变,这是典型的部分数据替换问题,若要使得到的结果位置完全不变,通过直接的数据复制粘贴是无法完成的,但可以通过公式或者构建排序参考表来完成,下面先以公式法为例进行说明:
在用Power Query处理数据表的过程中,经常碰到一个问题——标题行是变化的,比如下面这个例子,日期随着数据的变化而更新:
dbf文件是一种比较经典(就是说很老的意思咯)的数据库文件,以前用FoxPro开发程序的老朋友应该很熟悉,有兴趣了解的新朋友也可以百度知道一下:
中讲解了在Power BI中对两个表进行合并查询,数据集大小影响了效率。尤其是在进行合并查询之前删除了不需要的列,可以较大地提升合并查询的效率。但是我们不禁要问:
导语:数据记录的不规范不完整会导致后续数据处理的严重复杂化,虽然针对特定场景总能找到对应的处理办法,但是,一定要尽可能从源头规范起来!
合并来自多个文件数据的传统方法是极其繁琐和容易出错的。每个文件都需要经历导入、转换、复制和粘贴的过程。根据转换数据量的大小和复杂程度、文件的数量以及解决方案运行的时长,这些问题可能形成可怕的积累效应。
1. Union A. 语法 Union (
在Power Query里,如果遇到空值(null),就要注意对其进行操作(对比判断、筛选、计算等)时可能出现的特殊情形。
文章背景:在使用文件夹的方式批量导入多份Excel文件时,由于Excel文件中存在隐藏的筛选行,所以导致数据重复录入,后来看了赵文超老师的一篇文章(见文末的参考资料1),对这一问题有了新的认识。
首先打开微信开发者工具创建一个新的小程序项目,但是可以不选择任何模板,进入新建的小程序,先将index中的js,wxml,wxss中的原有格式删除,保留空白页面。首先在index.js中重新建立page,加入data数据,先是获取城市id,然后再获取数据,以及获取结果,在获取的结果中输入要使用的api的请求示例;使用的是url:’’(请求示例)和key:’’(密钥);注意,要使用的请求示例只是api接口中的一部分。加入请求示例后要输入个人申请的qpi的密钥,密钥是每一个申请的用户都有的独一的一份密钥,在此之前就需要去注册一份个人api用户;然后就是获取成功后的语句,再次设定结果就可以多次获取想要的城市的天气预报了。
小勤:大海,公司有个关于网点的客户数量统计问题,涉及到非重复计数的问题,这么常用的功能,Excel里居然不支持!
Ø 在Excel2016里已经是一个完全融合在一起的功能,跟数据透视等等功能一样,也没专门叫Power Query,所以导致你可能不知道它的存在而已。
数据专业人员经常做的工作之一是将多个数据集追加到一起。无论这些数据集是包含在一个 Excel 工作簿中,还是分布在多个文件中,问题是它们需要被纵向【追加】到一个表中。
在深入到 Power Query 数据转换的广阔世界之前,最好先确保为将来的成功做好准备。从实际来说,往往一开始的项目或案例都很小,但随着时间的推移,最终会变得越来越复杂。本章描述的方法将有助于确保随着问题的规模变大和复杂性增加,也可以应对。
1.可视化对象导出CSV格式限制3万行数据,这对于数据量动辄上百万甚至上亿的表来说是不可接受的;
最近一位学员问了一个问题:对每一行内容,只提取开头的数字,比如下图中第1行的“123”,第2行中的“345”……
这主要是Power Query可视化操作“所见即所得”的优势带来的“缺陷”,即Power Query需要针对每一个查询步骤都直接生成相应的可视化结果数据给你“看”!
作为一名数据专家,日常工作很可能都是在使用数据之前对其进行导入、操作和转换。可悲的是,许多人都没有机会接触到拥有精心策划过的数据的大数据库。相反,被不断地喂食 “TXT” 或 “CSV” 文件,并且在开始分析之前,必须经历将它们导入到 Excel 或 Power BI 解决方案的过程。对用户来说,重要的商业信息往往是以以下格式存储或发送给用户的。
导语:在做多表数据汇总时,经常存在表头行重复的情况,处理这个问题往往需要根据实际情况选择不同的方法。
接着上次《PQ网抓基础:接入省市区代码之1-获取省级编码及名称》的内容。
假如说,这个文本里就只有空格(1个或多个),添加到Power Pivot数据模型时,空格会被删掉,问题是,删掉空格后的内容,到底是一个空值(blank)呢?还是一个空的文本("")?
有时候,我们希望只将Power Query相关的查询结果给用户,又或者需要将查询的结果固化下来(不随新数据的加入而刷新),而被其他查询引用(比如有些工作中需要做不同阶段的数据检查、校验等),就需要对Power Query生成的查询或查询连接进行删除。
首先,对于Excel里去掉单元格内的字母只留数字先给出我最常用的2种比较容易掌握的处理办法:
👆点击“博文视点Broadview”,获取更多书讯 传统的Excel单表虽然可以有100万行数据的承载量,但是在实际分析时,20万行的数据就已经让传统的Excel非常吃力了。 但是,如果使用Excel中的Power Query和Power Pivot商务智能组件,即使是上百万行数据,也可以在短时间内快速完成处理和分析。 Power Query在Excel和Power BI Desktop中都是内置组件,并且管理界面和知识体系保持了高度一致。 其实,Power BI中的Power Query和Power P
本章专门讨论 Power Query 新手会面临的两个常见问题:理解 Power Query 是基于数据类型(而不是数据格式)的工具,以及如何理解和处理 Power Query 查询中的错误。
在数据库的各种优化中,加索引是一种特别常见而立竿见影的优化方法。当然,在做某些事情时,也需要增加索引。
Power Query提供了大量数据连接器。 这些连接器从 TXT、CSV 和Excel文件等数据源到Microsoft SQL Server等数据库,以及 Microsoft Dynamics 365 和 Salesforce 等常用 SaaS 服务。 如果未在 “获取数据 ”窗口中看到数据源,则始终可以使用 ODBC 或 OLEDB 连接器连接到数据源。
有一个数据集,包含四张工作簿,每个工作簿是一张表,其中可以销售表可以划分为事实表,产品表,日期表和门店表为维度表。 工作簿名称、字段含义和数据集的对应关系如下图:
在Power Query里,拆分列的功能非常强大,除了按分隔符、字符数等基本拆分功能外,还支持如从大写到小写或相反,从数据到非数字或相反等等特殊方式,相信很多朋友也都使用过:
本系列是数据可视化基础与应用的第02篇,主要介绍基于powerbi实现一个连锁糕点店数据集的仪表盘制作。
关于excel里将一张工作表拆分成多个工作表的方法有很多,如果是偶然一次性的,而且需要拆分的表格也不多,那么手工筛选复制一下也不复杂。
小勤:嗯。光想着PowerQuery自己怎么玩儿了,忘了和Excel功能的结合了。我再去试试月份的,货品代码的貌似用选择的方式也不是很好,货品代码太多了。呵呵。
分析师面临的普遍问题是,无论从哪里获得数据,大部分情况都是一种不能立即使用的状态。因此,不仅需要时间把数据加载到文件中,还得花更多的时间来清洗它,改变它的结构,以便后续做分析的时候能更好的使用这个数据。
如果当excel为电子表格的人,做了一辈子的工作也是重重复复的“复制—粘贴”的工作,因为Excel中有VBA编程的功能,能使用很多重复的工作一个小程序是搞掂,所以就是“Excel”了。
小勤:大海,有个按最右侧某个符号为标志提取两边数据的问题,为什么Excel里的find函数不支持从右侧查起啊?写公式好麻烦,比如这个,按最右侧的星号(*)将前面的内容和后面的数量分开:
最近,视频群里有朋友在问一个关键词统计的问题:一个订单的描述里有几个“安装服务”?
下午,我正爽歪歪地喝着咖啡,看着Power BI每秒钟刷新一次,静静等待某个分公司完成本月绩效任务,自动调用Python在钉钉群中发送喜报:
从A地到B地,以及从B地到A地,视为重复的数据,只需要其中一条(对于多条相同起止——如A-B的情况已删重复):
领取专属 10元无门槛券
手把手带您无忧上云