Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >Chapter 6:Similarity-Based Methods

Chapter 6:Similarity-Based Methods

作者头像
西红柿炒鸡蛋
发布于 2019-03-05 03:03:37
发布于 2019-03-05 03:03:37
6660
举报
文章被收录于专栏:自学笔记自学笔记

①Similarity Measure

相似度的衡量方法: Euclidean Distance(欧几里得距离):

Mahalanobi Distance(马氏距离):

,其中Q是一个半正定的协方差矩阵,是多维度数据之间的方差。马氏距离比高斯距离考虑的更全面,因为他把数据的维度和数据的大小都考虑了进来。中间的Q矩阵就是起到这个作用,

Cossim Similarity:这个是余弦距离,

常用于在文本向量相似度的比较之中。 Jccard Coeffcient:

这个比较方法常用于在集合的对比,也就是推荐系统的优良性度量里面。

②Nearest Neighbor

Two competing Principles: ①拟合数据并且得到较低的in-sample error ②in-sample error必须是可信的,可以作为out-of-sample的估计 规则:用最近邻的k个点的变量的类别来指定当前点的类别 Voronoi图:是由一组连续的两邻点直接的垂直平分线组成的连续多边形。 最近邻算法不需要训练过程,所以它是可以实现In-sample error为0的,因为in-sample error就是训练集里面产生的。

③VC Dismension

由于kNN算法理论上是可以拟合任何数据,所以它是可以shatter任何数据,所以它的VC维是无限的,这和凸边型是一样的。

④Feasible of Nearest

在KNN里面的label是一个固定的值,它的概率是百分之一百,我们假设他和logistic regression一样,label是由一定的概率组成。

,当

再假设

因为f(x)是我们的最优分类器,所以上面的

就是我们能够对一个点做到最好的

的结果了。

上面就是最好情况,现在来看看普通情况:

这个时候x的类别是由离x最近的那个点决定的。所以:

当N足够大的时候,在一个有限的空间里面,

可以无限接近,那么

,两边取期望:

这只是一种大概的证明方法,如果要更加细致一点: 首先由

,回到上面的式子:

,两边取期望:

如果上面的不等式满足N是非常大的一个数,而且

是平滑的而且是连续的,那么

,所以后面那一项就可以去掉了。

⑤The power of the nearest neighbor

KNN的能力上面已经证明过了,虽然VC维是无穷,以至于表面上看起来没有上面作用,但是实际证明已经表面他的最高错误界限是最优的两倍,也就是说他至少是可以做到最优化分类器的两倍。 K参数控制了这个模型的复杂度,大的K可以使我们得到更加平滑的结果。当k = N的时候,那么整一个分类器就是一个常数的了。

⑥Proper K value

一般是K = 3就够了:

很明显,k = 5的效果肯定是比k = 3要好的,但是相对来说,增长这么一点准确率根本不算什么,hardly worth the effort,不值得我们这么做。 但是这必须要满足两个假设:

这是为了保证这k个点一定要和当前点足够接近 k->+

是为了保证有足够多靠近的点 满足上面情况那么这个knn分类器是就是最优的。

⑧Improving the efficiency of Nearest Neighbor

对于KNN,有好处也有坏处。 不需要任何的训练过程,直接就可以运行,但是他的训练复杂度转移到了预测上面。优化方法有两个:

Data Condensing

数据压缩,按照最完美的方法,完美要求保留下来的数据集S要和原来的数据空间是一样的,也就是R整体实数,这是一个很苛刻的条件,基本达不到,所以退一步,只要求保留下来的数据集S和训练集空间上匹配就好了,也就是和训练集得到的预测结果一样即可。

Condensed nearest neighbor algorithm

1.初始化压缩数据集S为随机的K个来自训练集的点。 2.选择一个点,使得这个点在训练集合压缩集上的分类不是一致的。 3.把这个不一致点的最近的点放进压缩集 最多重复N步。

Data Editing and Data Condensing Data Editing是数据编辑,是去掉噪音点,如果有一个点是和大致数据走向是不一致点的,那么这个点很有可能就是噪音点。 Data Condensing是数据压缩,把一些多余的点去掉减少计算复杂度。

Efficient Search

首先要提到的就是分支界限法: 1.把整一个数据集S分成

2.如果当前点到

的中心

的距离比到

的中心

要短,我们就可以忽略

了。 3.假设a是在集合

的最近点,如果存在

,那么a就是最近点了。

Cluster algorithm for Technique above

前面的算法提到了需要聚类,现在就来提一下聚类算法。 目标是选择M个聚类出来。 1.随便选择一个初始点作为中心点。 repeat: 2.选择一个离当前的中心点最远的点,作为第二个中心点,直到凑够了M个中心点。 end; 3.用在当前聚类里面的均值来更新中心点,直到收敛即可。

⑧Nonparametric and Parametric

无参数的模型: 1.没有参数。 2.一般是存储训练数据作为预测使用。 3.如果k或者N选择适当的话,是一定收敛的。 收敛性是无参模型的一大特征。 参数模型: 1.有参数 2.使用一些参数来代表从训练数据里面学习的信息,而无需存储训练数据。 3.只有假设集包含了target function的情况下才会收敛,否则是不会收款的。 半参数模型: 1.需要特定的参数 2.总是会收敛 最典型的参数模型就是线性回归了,逻辑回归,SVM都是,而无参模型就是KNN,半参模型神经网络就是。因为神经网络在理论上是可以拟合任何的数据。

⑨The Confusing Matrix

混淆矩阵是一种可以用来痕量分类效果的一种方法。

这个矩阵就很容易可以看出哪个类别和哪个类别容易混淆。只需要计算有多少个原本类别是

分类成

的即可。

⑩KNN for regression

做回归就很简单了,直接可以使用K个最近点的均值即可。 如果k=1的时候,那么函数就会是阶梯型的阶梯函数。当

,函数是一个常数。

11.Radial Basis Function

在KNN里面,只有K个最近点会影响x的类别判断。在RBF里面,所以的点都会不同程度的为当前点做出贡献。常用的核函数有两个:高斯核,window。

高斯函数

一般我们看到的都是归一化之后的,但是这里还不需要,后面的密度估计会需要了。另外一个重要的组成部分就是r,scale。这是指定了核函数的宽度。

意思是r是长度的单位,也就是随着x增长而增长的单位长度。scale r越小,那么我们会越重视近距离点的贡献。

加上分母的原因是使得权值相加为1. 最后得到的就当前的类别。可以直接类比KNN左回归,也可以做分类,或者加上sigmoid函数做逻辑回归。

window 函数

代会原式子其实就是KNN本身。

12.RBF Networks

解释的两个方向:

一个就是刚刚的式子。这样是把高斯函数隆起的这个小山峰放在当前判断的x点上:

第二种方法就是改写上面的式子:

这样就是把高斯函数的小山峰放在了每一个点x上,在X点处就是对x左的贡献:

高度是W,在预测中需要计算的。在当前的这些bump里面,高度是不一样的,如果我们把它改写一下,把w都变成是固定的,或者说把他们变成参数在训练的时候固定下来:

这样就变成了RBF Networks了。

可以看到参数型的RBF会衰减到0,而非参数的不会。具体证明如下:

13.overfitting

N个参数,对于数据的拟合能力肯定是很强的了,那么过拟合的可能性肯定很高,这个时候就需要处理过拟合的问题了。 解决办法很简单,既然是参数多,那么减少一点参数即可:

偏执项是需要的,如果没有偏执项,在类别的均值不是0的话,整个学习曲线可能会变的扭曲。需要注意的是因为u是在高斯函数里面,所以u参数不是线性的,也就是说这个时候运行基础函数是依赖于参数的,这种情况下对于模型的性能提升是很大的。k指定的是假设集的大小,r值的就是一个假设的复杂度。

14.Learning for RBF Networks

有两个参数是需要学习,而u参数是非线性的,直接求导计算的话玩不来,所以需要先确定:

根据上面的各种需求就可以求导即可,比如regression,或者是带regular的regression直接套公式即可。

15.KMean均值

上面RBF Network的第一步就是要确定中心点,这里就可以使用k均值算法了。

对上述式子求导即可。

聚类问题是一个NP-hard的问题,但有时候没有必要找到最好的问题,只需要找到比较好的就可以了,然后后面还有w线性参数的优化调整。

16.Probability Density Estimation

x的概率密度是将聚类推广到更精细的表达。密度估计的任务是估计对于给定的x点有多少可能会生成和x相似的点。要知道这个问题,就需要知道数据集里面有多少个和x相似的点。这里的相似度指的其实是距离。

①直方图

把当前空间分成m个相等大小而互不相交的立方体,然后计算每一个立方体里面的点的个数:

加上1/N是为了积分为1,密度积分一定要为1。

但是要满足两个假设,v->0,每一个小空间要趋向于0,这样可以保证空间里面的点是足够接近x的,N*V->

,这样可以保证有足够多喝x相邻的点存在。

②KNN

KNN方法做密度估计问题。对每一个点进行按圆扩张,知道包含了k个点。

比如要计算x的密度,那么在x点按圆形扩张,知道包含了k个点,然后按照如下公式:

很明显,这样画出来的图像有小尖快,局部对称。但是要注意的是,KNN估计密度的空间必须要有边界,因为上面的参数c就是归一化的,如果没有边界,归一化参数c是求不出来的。k要趋向无穷而k/N要趋向于0使得n远大于k,这样可以保证收敛。

RBF估计

继承了高斯函数形状以及收敛性,如果想要减少bump的话是可以增大scale r的。

17.GMMs

高斯混合模型。一个数据点是有多高斯模型互相贡献而成的,需要求这些高斯模型的参数。

w是这个模型贡献百分比,积分为1。 最大似然估计:

E-M算法求解: 先假设一个变量

,这个变量是指定当前第i个高斯分布对第j个数据点左贡献的百分比。

learning from data这本书对于E-M算法没有过多的讲解,都是直观解释,在李航老师的统计学习方法里面的公式推导较为完善,前面的博客也提到。但是对于E-M算法是有两种解释方法的,但是结果都是一样的,一般通俗的是比较好理解的。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2019.01.31 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
C51 单片机开发认识串口
串行接口,亦被简称为串口或称为串行通信接口、串行通讯接口(常指代COM接口),是一种采用串行通信方式实现的扩展接口。这种接口的数据传输方式是按位顺序进行的,即数据一位一位地顺序传送。串行接口的特点在于其通信线路的简约性,仅需一对传输线即可实现双向通信(甚至可以直接利用电话线作为传输线),从而显著降低了成本。由于其这一特性,串行接口特别适用于长距离通信场景。然而,其传输速度相对较慢。
码农UP2U
2024/07/04
2590
C51 单片机开发认识串口
TTL,COMS,USB,232,422,485电平之详细介绍及使用
如有错误敬请指导! 今天来详细介绍一下TTL,COMS,USB,232,422,485电平,以及之间的转换问题. 有些地方的引脚图可能不是规范的,具体引脚以自己的模块资料为主,这篇文章着重介绍使用... 先介绍各个电平 TTL电平------我们使用的51单片机,5V供电的那种,+5V等价于逻辑“1”,0V等价于逻辑“0”,“TTL电平”最常用于有关电专业,如:电路、数字电路、微机原理与接口技术、单片机等课程中都有所涉及。在数字电路中只有两种电平(高和低)高电平+5V、低电平0V。 COMS电平------
杨奉武
2018/04/18
3.5K0
TTL,COMS,USB,232,422,485电平之详细介绍及使用
电平转换方法_数字信号高低电平用什么表示
内容包括电平转换(含有成熟电路原理图),数字隔离IC。紫色文字是超链接,点击自动跳转至相关博文。持续更新,原创不易!
全栈程序员站长
2022/09/22
1.2K0
电平转换方法_数字信号高低电平用什么表示
TTL转RS232电路–分享原理图和参考资料
RS232串口经常用到,本文分享下RS232协议方面基本点,并介绍一种简单的串口TTL(3.3V)电平转换为RS232电平的电路,这个电路是经过制板验证过的。 使用芯片MAX3232E (tssop16封装),电源用3.3V,电路如下图
全栈程序员站长
2022/07/22
2.8K0
TTL转RS232电路–分享原理图和参考资料
树莓派基础实验35:USB TO TTL模块实验
  PC机与树莓派的常用通信方式SSH(Secure Shell)远程登录、VNC Viewer虚拟网络控制台都需要网络连接,但还有一种不需要网络的通信方式:Serial port串口通信。
张国平
2020/09/27
3.3K1
UART、RS232、RS422和RS485解读
串口通讯是硬件工程师经常接触的一个概念,你是否也分不清RS232、RS422、RS485、UART它们之间的关系,每次见到其中的一个,就像见到熟悉的陌生人,虽说认识,却不知道它有什么特点,殊途同归的感觉。
徐师兄
2022/08/29
3.9K0
UART、RS232、RS422和RS485解读
你不懂的这都有UART、I2C、SPI、TTL、RS232、RS422、RS485、CAN、USB、SD卡、1-WIRE
在单片机开发中,UART、I2C、RS485等普遍在用,对它们的认识可能模棱两可,今天我们就来好好的梳理一下。本文较长,同样干货满满,强烈建议收藏。
单片机技术宅
2021/11/02
6K0
TTL电平你真的理解了吗
TTL器件输出低电平要小于0.8V,高电平要大于2.4V。输入低于1.2V就认为是低电平(0),高于2.0就认为是高电平(1)。(0.8与1.2不同教材说法有出入,有说是0.4与0.8的,在此我们不做讨论)
单片机技术宅
2020/03/17
6.6K0
电子技术中关于TTL电平,CMOS电平,OC门,OD门的基础知识
TTL集成电路的主要型式为晶体管-晶体管逻辑门(transistor-transistor logic gate),TTL大部分都采用5V电源。
杨源鑫
2019/07/04
2.3K0
ttl电平与rs232电平转换电路(232电平定义)
1)接口的信号电平值较高,易损坏接口电路的芯片,又因为与TTL电平不兼容故需使用电平转换电路方能与TTL电路连接。
全栈程序员站长
2022/08/02
5K0
ttl电平与rs232电平转换电路(232电平定义)
TTL与LVTTL
TTL电路是晶体管-晶体管逻辑电路的缩写(Transistor-Transistor Logic),采用双极性工艺(两种载流子)制造,为电流控制元件。
根究FPGA
2020/06/30
5.2K0
TTL与LVTTL
CMOS与TTL(下):TTL、CMOS
如果只看一个芯片的外观,是无法区分TTL和CMOS的。因为它们是按照芯片的制作工艺来分类的。 CMOS内部集成的是MOS管,而TTL内部集成的是三极管。
WuShF
2023/04/12
1.8K0
CMOS与TTL(下):TTL、CMOS
单片机和5v电压的那些事
5V来自于TTL电平。5为True,0为False,之后用了压降更低的PN节,衍生出了3.3这个电平。
单片机技术宅
2021/11/18
1.3K0
单片机和5v电压的那些事
详解RS232、RS485、RS422、串口和握手
计算机与计算机或计算机与终端之间的数据传送可以采用串行通讯和并行通讯二种方式。由于串行通讯方式具有使用线路少、成本低,特别是在远程传输时,避免了多条线路特性的不一致而被广泛采用。
不脱发的程序猿
2021/01/20
2.3K0
rs232 ttl区别(新宝骏RM和RS的区别)
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/127736.html原文链接:https://javaforall.cn
全栈程序员站长
2022/07/25
6680
【雕爷学编程】Arduino动手做(59)—RS232转TTL串口模块
37款传感器与执行器的提法,在网络上广泛流传,其实Arduino能够兼容的传感器模块肯定是不止这37种的。鉴于本人手头积累了一些传感器和执行器模块,依照实践出真知(一定要动手做)的理念,以学习和交流为目的,这里准备逐一动手尝试系列实验,不管成功(程序走通)与否,都会记录下来—小小的进步或是搞不掂的问题,希望能够抛砖引玉。
全栈程序员站长
2022/07/22
1.6K0
【雕爷学编程】Arduino动手做(59)—RS232转TTL串口模块
硬件知识:串口通信基础知识介绍
在通信和计算机科学中,串行通信(Serial Communication)是一个通用概念,泛指所有的串行的通信协议,如RS232、RS422、RS485、USB、I2C、SPI等。
小明互联网技术分享社区
2023/01/08
3.7K0
硬件知识:串口通信基础知识介绍
stm32串口工作原理_rs232串口通信原理
在同步通讯中,收发设备上方会使用一根信号线传输信号,在时钟信号的驱动下双方进行协调,同步数据。例如,通讯中通常双方会统一规定在时钟信号的上升沿或者下降沿对数据线进行采样。
全栈程序员站长
2022/10/04
1.2K0
stm32串口工作原理_rs232串口通信原理
(UART/SPI/IIC) 与 (WIFI/蓝牙/Zigbee) 与 (TCP/IP/UDP)等协议精讲
其板子上主控芯片(MCU)和其他芯片之间,通信属于用的是串口UART、SPI、IIC等协议,如:因为MCU内存不够扩展一个外部Flash可以用SPI协议或者IIC协议。主控芯片和WIFI模块通信可以用串口UART。(你可以理解为硬件协议,PCB板子上用的)
Jasonangel
2021/05/28
1.1K0
4.3 51单片机-串口通信
对于单片机来说,通信则与传感器、存储芯片、外围控制芯片等技术紧密结合,成为整个单片机系统的“神经中枢”;没有通信,单片机所实现的功能仅仅局限于单片机本身,就无法通过其它设备获得有用信息,也无法将自己产生的信息告诉其它设备。如果单片机通信没处理好的话,它和外围器件的合作程度就受到限制,最终整个系统也无法完成强大的功能,由此可见单片机通信技术的重要性。
DS小龙哥
2022/01/12
1.3K0
4.3 51单片机-串口通信
推荐阅读
相关推荐
C51 单片机开发认识串口
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档