首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

机器学习漫谈(1):空间与距离

很早就想写一下关于机器学习的话题。从今天开始,会就机器学习中的重要概念和一些技术谈一下自己的一些体会和看法,也算是自己对过往学习、工作的总结和思考,并与同好分享。

各种各样的机器学习材料和教科书,都会从机器学习的概念讲起。但我觉得其中有两个特别特别根本的概念需要先谈谈----那就是“空间”和“距离”。对机器学习的从业者或者说是研究人员来说,在不同阶段对这两个概念会有不同的认识和理解,也需要我们在不同阶段不断回顾,检视自己对这两个概念的理解有没有变化

这里的“空间”不是物理学意义上的空间,而是数学意义上的空间理论上,任何一个非空集合都可以看成一个空间。这时候,这个空间是没有任何限制条件的,当然不便于研究。为了便于研究或者能够对应于物理空间,我们会给这个集合加上各种各样的条件,于是就有了各种不同的“空间”。

“空间”给了我们研究问题依赖的背景,或者说是划定了我们要研究问题的范围。而在机器学习中,也给了学习问题的背景知识以及约束条件。其中“距离”是最重要的一类约束。当我们可以在一个空间中定义距离时,这个空间就成为了可度量的“距离空间”。其在数学上的正式定义如下:

设X是非空集合,对于X中任意的两个元素x与y,按某一法则都对应唯一的实数d(x,y),而且满足下述三条公理:

(1)(非负性)d(x,y)≥0[d(x,y)=0,当且仅当x=y];

(2)(对称性)d(x,y)=d(y,x);

(3)(三角不等式)对于任意的x,y,z∈X,恒有d(x,y)≤d(x,z)+d(z,y)。

则称d(x,y)为x与y的距离,并称X是以d为距离的距离空间,记作(X,d)。通常,在距离已被定义的情况下,(X,d)可以简单地将X中的元素称为X中的点。

距离空间也称为度量空间,是最接近于欧几里得空间的抽象空间(实际上,欧氏空间是定义了我们通常理解的距离概念的度量空间的特例)。如果把度量空间上的拓扑看成是由距离决定的拓扑,度量空间也是拓扑空间的一种

度量空间有许多重要的性质可以讨论,比如完备性、点列的收敛性(极限)、稠密性等等。这些看似抽象的概念,实际上在机器学习中,我们都在不自觉地使用。也就是说,我们假设了所处理的机器学习问题空间是可度量的、完备的、大多数情况下是在某个距离定义下点列收敛的等等优良性质,这也是我们的机器学习得以进行下去的根基

而“距离”这个概念,则有更直接的应用场景。

通常的机器学习问题中,我们都使用了“欧氏距离”这一常规的距离定义方式,这导致了绝大多数机器学习的初学者都把“距离”等同于“欧氏距离”,而忽视了其他距离定义的应用。

实际上,我们还有几种常用的距离定义方式,这儿做个总结,以备查用。

(1)曼哈顿距离:其正式意义为L1-距离或城市区块距离,也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和

两个n维向量a(x11,x12,…,x1n)与 b(x21,x22,…,x2n)间的曼哈顿距离定义为:

编辑公式比较困难,直接转换成图片了,清晰度下降.....)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181227G1GOE500?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券