前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >灵活拆分列:从数字到非数字拆分,只要拆分1次怎么办?| PBI函数及技巧

灵活拆分列:从数字到非数字拆分,只要拆分1次怎么办?| PBI函数及技巧

作者头像
大海Power
发布于 2023-09-09 06:57:58
发布于 2023-09-09 06:57:58
5990
举报

这是来自一位星友的提问:数字汉字混合的情况,只要拆分一次,怎么办?

这个问题在很多提取问卷题目、答案,或者财务报表的项目序号等有一定的借鉴意义。

我们知道,在Power Query里,有一项拆分列的选项是“按照从数字到非数字的转换”进行拆分,通过这个选项,可以很轻松地将数字和非数字间隔出现的情况拆开:

拆分后,所有内容会被一次性拆解完毕,步骤公式和输出内容如下:

到了这里,可能有的朋友会说,这个问题不是好简单吗?再将第2项及后面的内容合并不就好了吗?

但是,这是不可取的——为什么?自己可以先想一下。

显然,拆分后的结果被分成了很多列,并通过公式中最后一个列表参数进行控制,所以,我们这里可以修改其中的输出内容,只取所需要的列(1列,并且可以直接修改输出的列明),如“首段数字”:

得到了首段数字之后,我们就可以通过剔除首段内容的方式,得到剩下的全部内容,这里提供两种方法:

  1. Text.ReplaceRange

这个方法很简单,因为我们已经得到了前面的数字内容,所以,很容易通过Text.Length函数计算出首段内容的长度,然后,通过Text.ReplaceRange函数把原内容中的前面几个字符替换为空白即可。

  1. Text.TrimStart

这个方法本身也很简单,即用Text.TrimStart这个函数直接对内容进行“掐头”。

但是,可能很多朋友对Text.TrimStart这个函数不是很熟悉。也借这个机会跟大家讲一下。

注意,这里不会删除中间存在的列表中的字符,大家可以自己体会一下。

再回到前面的问题,为什么不直接通过再合并的方式,把除第一项以外的内容直接做合并?这是因为,从数字到非数字的转换拆分出来的列是按现有内容进行固定拆分的,比如目前的内容拆出来只有5项,那如果后面新增的内容有6项甚至更多,我们再用这个拆分合并的过程,就会丢失那些多出的内容

总的来说,这个问题不难,方法也很多,核心的思路是,当我们不能一下子得到最终全部结果时,我们可以先得到部分结果,然后再构造出剩下的结果——步步为营,是我们拆解问题、解决问题的常用思想,不仅仅是Power Query或Power BI

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-08-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Excel到PowerBI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
一个函数搞定年月日时分秒所有信息拆分提取! | PQ技巧
导语:将年月日时分秒等信息拆分往往需要分开操作,但实际上,完全可以一个函数搞定!
大海Power
2024/02/05
4900
一个函数搞定年月日时分秒所有信息拆分提取! | PQ技巧
无码实现​从非数字到数字拆分到行,是怎么做到的?| Power Query技巧
在Power Query里,拆分列的功能非常强大,除了按分隔符、字符数等基本拆分功能外,还支持如从大写到小写或相反,从数据到非数字或相反等等特殊方式,相信很多朋友也都使用过:
大海Power
2022/11/07
1.2K0
无码实现​从非数字到数字拆分到行,是怎么做到的?| Power Query技巧
公式来了!PQ里的列表排序函数超级好用!
昨天,在文章《将内容按字符出现次数排列?这个在Excel里的难题因为PQ而轻松解决!》,通过多个步骤的操作,实现了相应的排序效果,但是,原文中的操作方法也存在一个bug:
大海Power
2021/08/31
2.1K0
有小数时从数字到非数字的拆分会出错!咋整?顺便试了一把chatGPT,呵呵!|PowerBI技巧
最近,有朋友在使用Power BI进行数据整理的时候,要把合在一列里的内容进行拆分:
大海Power
2023/09/09
3160
有小数时从数字到非数字的拆分会出错!咋整?顺便试了一把chatGPT,呵呵!|PowerBI技巧
提取字符串开头的数字内容,竟然这么简单!| Power Query实战技巧
最近一位学员问了一个问题:对每一行内容,只提取开头的数字,比如下图中第1行的“123”,第2行中的“345”……
大海Power
2022/11/07
2.4K0
提取字符串开头的数字内容,竟然这么简单!| Power Query实战技巧
快速提取首个任意汉字前数字,2个方法,其实都很简单! | PBI实战技能
这是微信里一位朋友提的问题:将“亿”、“万”等不同单位(汉字)前的数字给提取出来:
大海Power
2021/08/31
1.2K0
我用Lookup从杂乱文本中提取数字,Power Query做不到?|PBI实战
在日常工作中,经常会碰到从内容里面提取数值,比如下面这个例子,要把数量和单位分开来:
大海Power
2023/09/09
4720
我用Lookup从杂乱文本中提取数字,Power Query做不到?|PBI实战
SaaS|架构与背后的技术思考
同时我们也必须面向未来,如何在抽象能力以及沉淀了产品的基础上,把所承载和沉淀的业务能力快速输出,贡献给整个行业,或为整个社会商业生态提供基座支撑。面向未来,将平台产品进行 SaaS 化升级,真正将能力进行有价值开放输出是我们提前要布局的核心方向。
heidsoft
2021/01/27
3.7K0
SaaS|架构与背后的技术思考
硬刚Hive | 4万字基础调优面试小总结
Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。
王知无-import_bigdata
2021/06/01
2.1K0
硬刚Hive | 4万字基础调优面试小总结
MySQL优化十大技巧
转自:https://m.2cto.com/database/201701/557910.html
阮键
2020/06/09
5260
MySQL优化十大技巧
五万字 | Hive知识体系保姆级教程
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
数据社
2021/08/27
2.2K0
五万字 | Hive知识体系保姆级教程
hive优化总结
hive强大之处不要求数据转换成特定的格式,而是利用hadoop本身InputFormat API来从不同的数据源读取数据,同样地使用OutputFormat API将数据写成不同的格式。所以对于不同的数据源,或者写出不同的格式就需要不同的对应的InputFormat和OutputFormat类的实现。以stored as textFile为例,其在底层java API中表现是输入InputFormat格式:TextInputFormat以及输出OutputFormat格式:HiveIgnoreKeyTextOutputFormat。这里InputFormat中定义了如何对数据源文本进行读取划分,以及如何将切片分割成记录存入表中。而OutputFormat定义了如何将这些切片写回到文件里或者直接在控制台输出。
数字悠客
2020/05/27
1.8K0
Jmeter函数助手
1.__Random:产生0-10之间的随机数【__RadomString:随机生成字符函数同__Random】
用户6780590
2020/08/10
2.5K0
【机器学习-无监督学习】概率图模型
  本文讨论无监督学习中的数据分布建模问题。当我们需要在一个数据集上完成某个任务时,数据集中的样本分布显然是最基本的要素。面对不同的数据分布,我们可能针对同一任务采用完全不同的算法。例如,如果样本有明显的线性相关关系,我们就可以考虑用基于线性模型的算法解决问题;如果样本呈高斯分布,我们可能会使用高斯分布的各种性质来简化任务的要求。上一篇文章介绍的数据降维算法,也是为了在数据分布不明显的前提下,尽可能提取出数据的关键特征。因此,如何建模数据集中样本关于其各个特征的分布,就成了一个相当关键的问题。
Francek Chen
2025/01/22
1220
【机器学习-无监督学习】概率图模型
NumPyML 源码解析(七)
The utilities module implements a number of useful functions and objects that power other ML algorithms across the repo.
ApacheCN_飞龙
2024/02/17
1770
Python 无监督学习实用指南:1~5
在本章中,我们将介绍基本的机器学习概念,即 ,前提是您具有一些统计学习和概率论的基本知识 。 您将了解机器学习技术的使用以及逻辑过程,这些逻辑过程将增进我们对数据集的性质和属性的了解。 整个过程的目的是建立可支持业务决策的描述性和预测性模型。
ApacheCN_飞龙
2023/04/24
1.3K0
Python 无监督学习实用指南:1~5
spark面试题目_面试提问的问题及答案
1.Spark master使用zookeeper进行HA的,有哪些元数据保存在Zookeeper? 答:spark通过这个参数spark.deploy.zookeeper.dir指定master元数据在zookeeper中保存的位置,包括Worker,Driver和Application以及Executors。standby节点要从zk中,获得元数据信息,恢复集群运行状态,才能对外继续提供服务,作业提交资源申请等,在恢复前是不能接受请求的。另外,Master切换需要注意2点 1)在Master切换的过程中,所有的已经在运行的程序皆正常运行!因为Spark Application在运行前就已经通过Cluster Manager获得了计算资源,所以在运行时Job本身的调度和处理和Master是没有任何关系的! 2) 在Master的切换过程中唯一的影响是不能提交新的Job:一方面不能够提交新的应用程序给集群,因为只有Active Master才能接受新的程序的提交请求;另外一方面,已经运行的程序中也不能够因为Action操作触发新的Job的提交请求; 2.Spark master HA 主从切换过程不会影响集群已有的作业运行,为什么? 答:因为程序在运行之前,已经申请过资源了,driver和Executors通讯,不需要和master进行通讯的。 3.Spark on Mesos中,什么是的粗粒度分配,什么是细粒度分配,各自的优点和缺点是什么? 答:1)粗粒度:启动时就分配好资源, 程序启动,后续具体使用就使用分配好的资源,不需要再分配资源;好处:作业特别多时,资源复用率高,适合粗粒度;不好:容易资源浪费,假如一个job有1000个task,完成了999个,还有一个没完成,那么使用粗粒度,999个资源就会闲置在那里,资源浪费。2)细粒度分配:用资源的时候分配,用完了就立即回收资源,启动会麻烦一点,启动一次分配一次,会比较麻烦。 4.如何配置spark master的HA? 1)配置zookeeper 2)修改spark_env.sh文件,spark的master参数不在指定,添加如下代码到各个master节点 export SPARK_DAEMON_JAVA_OPTS=”-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=zk01:2181,zk02:2181,zk03:2181 -Dspark.deploy.zookeeper.dir=/spark” 3) 将spark_env.sh分发到各个节点 4)找到一个master节点,执行./start-all.sh,会在这里启动主master,其他的master备节点,启动master命令: ./sbin/start-master.sh 5)提交程序的时候指定master的时候要指定三台master,例如 ./spark-shell –master spark://master01:7077,master02:7077,master03:7077 5.Apache Spark有哪些常见的稳定版本,Spark1.6.0的数字分别代表什么意思? 答:常见的大的稳定版本有Spark 1.3,Spark1.6, Spark 2.0 ,Spark1.6.0的数字含义 1)第一个数字:1 major version : 代表大版本更新,一般都会有一些 api 的变化,以及大的优化或是一些结构的改变; 2)第二个数字:6 minor version : 代表小版本更新,一般会新加 api,或者是对当前的 api 就行优化,或者是其他内容的更新,比如说 WEB UI 的更新等等; 3)第三个数字:0 patch version , 代表修复当前小版本存在的一些 bug,基本不会有任何 api 的改变和功能更新;记得有一个大神曾经说过,如果要切换 spark 版本的话,最好选 patch version 非 0 的版本,因为一般类似于 1.2.0, … 1.6.0 这样的版本是属于大更新的,有可能会有一些隐藏的 bug 或是不稳定性存在,所以最好选择 1.2.1, … 1.6.1 这样的版本。 通过版本号的解释说明,可以很容易了解到,spark2.1.1的发布时是针对大版本2.1做的一些bug修改,不会新增功能,也不会新增API,会比2.1.0版本更加稳定。 6.driver的功能是什么? 答: 1)一个Spark作业运行时包括一个Driver进程,也是作业的主进程,具有main函数,并且有SparkContext的实例,是程序的人口点;2)功能:负责向集群申请资源,向master注册信息,负责了作业的调度,,负责作业的解析、生成Stage并调度Task到E
全栈程序员站长
2022/11/16
1.9K0
Greenplum 实时数据仓库实践(9)——Greenplum监控与运维
想要一个数据库长久健康的运行,离不开完备的运维工作,切忌只运而不维。针对Greenplum分布式数据库,集群由大量服务器组成,对运维人员或DBA,不仅要关注数据库本身,还要注意集群中各硬件的状况,及时发现并处理问题。本篇介绍权限与角色管理、数据导入导出、性能优化、例行监控、例行维护、推荐的监控与维护任务六方面常规工作内容,目标是满足Greenplum系统维护、使用等方面的要求,保证提供稳定高效的数据库服务。
用户1148526
2022/04/13
4.2K0
CV深度学习面试问题记录
这是在牛客网上根据大家的面经收集过来的题目,并以自己的理解来作出回答,也查阅了很多博客和资料。水平有限,不一定是正确的,欢迎指正,铁子们要找工作的时候可以看看
棒棒鸡不棒
2022/09/02
1.1K0
CV深度学习面试问题记录
Python OpenCV 蓝图:1~5
本章的目的是开发许多图像处理过滤器,并将其实时应用于网络摄像头的视频流。 这些过滤器将依靠各种 OpenCV 函数来通过拆分,合并,算术运算以及为复杂函数应用查找表来操纵矩阵。
ApacheCN_飞龙
2023/04/27
1.9K0
Python OpenCV 蓝图:1~5
推荐阅读
相关推荐
一个函数搞定年月日时分秒所有信息拆分提取! | PQ技巧
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档