前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Power Query 反馈

Power Query 反馈

作者头像
冬夜先生
发布于 2022-09-09 07:59:40
发布于 2022-09-09 07:59:40
1K0
举报
文章被收录于专栏:csicocsico

调整相似性阈值

应用模糊匹配算法的最佳方案是,当列中的所有文本字符串仅包含需要比较的字符串,而不是额外的组件时。 例如,与比较相比,与Apples4ppl3s比比产生更高的相似性分数进行比较ApplesMy favorite fruit, by far, is Apples. I simply love them!

这是因为第二个字符串中的单词 Apples 只是整个文本字符串中产生较低相似性分数的一小部分。

查看以下数据集,该数据集包含调查的响应,该数据集中只有一个问题“你最喜欢的水果是什么?”

水果

蓝 莓

蓝色浆果只是最好的

草莓

草莓 = <3

苹果

'sples

4ppl3s

Bananas

fav 水果是香蕉

Banas

到目前为止,我最喜欢的水果是苹果。 我只是爱他们!

调查提供了一个文本框来输入值,且没有验证。

现在,需要对值进行聚类分析。 为此,请将上一个水果表加载到Power Query,选择该列,然后选择在功能区中的“添加列”菜单中读取群集值的选项。

此时将显示“ 群集值 ”对话框,可在其中指定新列的名称。 将此新列命名为 “群集 ”,然后选择“ 确定”。

默认情况下,Power Query将使用 0.8 (或 80% ) 的相似性阈值,并且上一操作的结果将生成下表,其中包含新的群集列:

完成聚类分析后,不会为所有行提供预期结果。 行号 2 (2) 仍具有值Blue berries are simply the best,但应将其聚集到Blueberries,与文本字符串Strawberries = <3fav fruit is bananas类似,以及My favorite fruit, by far, is Apples. I simply love them!

你希望确定导致此群集的原因。 为此,可以双击 “聚集值 ”步骤来恢复 “群集值 ”窗口。 在此窗口中,展开读取 模糊群集选项 的文本,并启用读取 显示相似性分数 的选项,如下图所示,然后单击“确定”按钮:

启用 “显示相似性分数 ”选项会将新列引入表,该列显示定义的群集与原始值之间的相似性分数。

仔细检查后,可以看到,Power Query在文本字符串Blue berries are simply the best的相似性阈值内找不到任何其他值,Strawberries = <3fav fruit is bananas以及My favorite fruit, by far, is Apples. I simply love them!

可以再次返回到 “群集值 ”对话框,方法是双击 “聚集值 ”步骤并将 相似性阈值 从 0.8 更改为 0.6,如下图所示:

此更改使你更接近要查找的结果,但文本字符串 My favorite fruit, by far, is Apples. I simply love them!除外。 这是因为通过将相似性阈值从 0.8 更改为 0.6 Power Query现在能够使用从 0.6 开始到 1 的相似性分数的值。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
10种常用JS代码功能常规写法和优雅写法的对比发现,这差异也太大了吧
当我们刚开始学习JS代码时,我们只需要掌握JS中对应知识点就好,随着对JS代码的熟悉程度,我们就要思考如何写出更优雅,更简洁的代码。
艾编程
2022/12/06
8390
10种常用JS代码功能常规写法和优雅写法的对比发现,这差异也太大了吧
入门 | 简易指南带你启动 R 语言学习之旅
选自TowardsDataScience 作者:Vihar Kurama 机器之心编译 参与:刘晓坤、许迪 R 语言是结合了 S 编程语言的计算环境,可用于实现对数据的编程;它有很强大的数值分析工具,对于处理线性代数、微分方程和随机学的问题非常有用。通过一系列内建函数和库,你可以用 R 语言学习数据可视化,特别是它还有很多图形前端。本文将简单介绍 R 语言的编程基础,带你逐步实现第一个可视化案例。 代码地址:https://github.com/aaqil/r-lang-fundamentals R 语言最
机器之心
2018/05/10
2K0
24.Python推导式教程:快速初始化各种序列!
推导式(Comprehension)是Python中的一种独特语法,它让我们能用一行代码创建序列(如列表、字典、集合)。就像是一个"魔法公式",帮你快速生成数据!
全栈若城
2025/04/26
1330
大模型原理:一场通透的剖析之旅
生成式 AI 太火爆了,可以说无处不在,频频刷爆我们的朋友圈。你可能已经试用过 ChatGPT 了,甚至已经把它当作你的智能小助手。
架构精进之路
2024/11/23
4440
大模型原理:一场通透的剖析之旅
基于GPT搭建私有知识库聊天机器人(一)实现原理
本系列代码已上传至github:https://github.com/sslovett/llm-application.git
夕阳也是醉了
2023/10/16
2.1K1
基于GPT搭建私有知识库聊天机器人(一)实现原理
操作数组不要只会for循环
很多时候,我们在操作数组的时候往往就是一个for循环干到底,对数组提供的其它方法视而不见。看完本文,希望你可以换种思路处理数组,然后可以写出更加漂亮、简洁、函数式的代码。 reduce 数组里所有值的和 var sum = [0, 1, 2, 3].reduce(function (a, b) { return a + b; }, 0); // sum is 6 将二维数组转化为一维数组 var flattened = [[0, 1], [2, 3], [4, 5]].reduce( fun
laixiangran
2018/04/24
6200
如何在Power Query中提取数据?——文本篇
平时我们经常用到需要根据一定的需求在数据中把符合需求的数据提取出来,那我们看下在Power Query中是如何进行操作的。
逍遥之
2020/03/23
5.6K0
【Go】Golang环境配置与语法基础
Go(也被称为 Golang)是一种开源的静态类型编程语言,由 Google 开发并于2009年首次公开发布。Go 语言的设计目标是提供一种简单、高效、可靠的编程语言,适用于构建大型项目的并发和网络应用。
DevFrank
2024/07/24
1210
1.列表的定义及增删改查
一、列表 列表由一系列按特定顺序排列的元素组成。我们可以创建包含字母表中所有字母、数字0~9,也可以将任何东西加入列表中,其中的元素之间可以没有任何关系。 鉴于列表通常包含多个元素,所以给列表指定一个表示复数的名称(如:names)是一个不错的主意。 在python中,用方括号[]来表示列表,并用逗号来分隔其中的元素。 若是直接打印列表,Python会打印列表的内部表示,包括方括号。 二、定义列表 我们创建的大多数列表都将是动态的,这意味着在列表创建之后,将随着程序的运行增删元素。 例如:你
见贤思齊
2020/11/13
1.2K0
Pandas入门1(DataFrame+Series读写/Index+Select+Assign)
1. Creating, Reading and Writing 1.1 DataFrame 数据框架 创建DataFrame,它是一张表,内部是字典,key :[value_1,...,value_n] #%% # -*- coding:utf-8 -*- # @Python Version: 3.7 # @Time: 2020/5/16 21:10 # @Author: Michael Ming # @Website: https://michael.blog.csdn.net/ # @File: pa
Michael阿明
2020/07/13
6240
Pandas入门1(DataFrame+Series读写/Index+Select+Assign)
在几秒钟内将数千个类似的电子表格文本单元分组
第1,3和5行可能指的是拼写和格式略有偏差的同一个人。在小型数据集中,可以手动清洁细胞。但是在庞大的数据集中呢?如何梳理成千上万的文本条目并将类似的实体分组?
代码医生工作室
2019/07/22
1.9K0
在几秒钟内将数千个类似的电子表格文本单元分组
Power Query 真经 - 第 10 章 - 横向合并数据
导语:Power Query 是可证明的,在这个星球上性价比最高的数据处理工具,如果你的工作中需要处理数据,注意,是处理,不是分析,那么此工具必须掌握。对此,90%的鼠标点击,5%的猜测以及5%的公式能力足以。本文来自《Master Your Data》的第十章,非常重要,必须掌握。
BI佐罗
2022/12/18
4.8K0
Power Query 真经 - 第 10 章 - 横向合并数据
Power Query中的文本函数Text.Start/Middle/Range/End/At/Length
前文说到可以用LEFT和RIGHT函数来将姓名中间字给换成“*”,步骤其实还比较复杂。
陈学谦
2021/12/08
2.6K0
Power Query中的文本函数Text.Start/Middle/Range/End/At/Length
大模型如何提升信息检索效率:语义检索与向量数据库的结合
随着信息量的爆炸式增长,传统的关键词检索技术已经无法满足用户对信息检索效率和准确性的需求。本文探讨了如何利用大模型实现语义检索,并结合向量数据库优化检索效率。通过引入大模型的语义理解能力,检索系统能够更好地理解用户意图,而向量数据库则能够高效地存储和检索高维向量数据。本文还提供了一个可运行的示例 Demo 代码模块,展示了如何在实际应用中实现语义检索。
网罗开发
2025/03/04
4071
大模型如何提升信息检索效率:语义检索与向量数据库的结合
学好Elasticsearch系列-分词器
在Elasticsearch中,分词器是用于将文本数据划分为一系列的单词(或称之为词项、tokens)的组件。这个过程是全文搜索中的关键步骤。
BookSea
2023/10/16
7030
学好Elasticsearch系列-分词器
MySQL中concat()、concat_ws()、group_concat()函数
返回值: 结果为连接参数产生的字符串,如果有任何一个参数为null,则返回值为null。
一觉睡到小时候
2022/11/16
4.5K0
Power Query 系列 (20) - 如何在外部使用Power Query提供的服务
Power Query 作为桌面端数据清理和转换的工具,能极大解放生产力,将繁琐的数据处理工作从重复的劳动中解放出来。那么,Power Query 能否对外提供计算服务呢?或者说 Power Query 有没有对外提供的编程接口? 根据我的探索,似乎没有,但在网络上找到下面的两种 walkaround 方式,都比较小众。所以如果真的需要数据处理、数据分析服务的话,不如选择其他的方案,比如 pandas 等等,拥有更大的自由度。
StoneWM
2021/03/25
2.8K0
一起学Elasticsearch系列-Query DSL
DSL是Domain Specific Language的缩写,指的是为特定问题领域设计的计算机语言。这种语言专注于某特定领域的问题解决,因而比通用编程语言更有效率。
BookSea
2023/11/13
6051
一起学Elasticsearch系列-Query DSL
Swift基础类型[通俗易懂]
假设初始值没有提供足够的信息(或者没有初始值),那你须要在变量后面声明类型,用冒号切割。
全栈程序员站长
2022/07/10
1K0
Linux技巧|Awk 比较运算符
在处理一行文本中的数字或字符串值时,使用比较运算符过滤文本或字符串对于 Awk 命令来说非常方便。
数据科学工厂
2024/04/02
3880
Linux技巧|Awk 比较运算符
相关推荐
10种常用JS代码功能常规写法和优雅写法的对比发现,这差异也太大了吧
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档