首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    流形学习的概念

    那流形学习是什么呢?为了好懂,我尽可能应用少的数学概念来解释这个东西。所谓流形(manifold)就是一般的几何对象的总称。比如人,有中国人、美国人等等;流形就包括各种维数的曲线曲面等。和一般的降维分析一样,流形学习把一组在高维空间中的数据在低维空间中重新表示。和以往方法不同的是,在流形学习中有一个假设,就是所处理的数据采样于一个潜在的流形上,或是说对于这组数据存在一个潜在的流形。对于不同的方法,对于流形性质的要求各不相同,这也就产生了在流形假设下的各种不同性质的假设,比如在Laplacian Eigenmaps中要假设这个流形是紧致黎曼流形等。对于描述流形上的点,我们要用坐标,而流形上本身是没有坐标的,所以为了表示流形上的点,必须把流形放入外围空间(ambient space)中,那末流形上的点就可以用外围空间的坐标来表示。比如R^3中的球面是个2维的曲面,因为球面上只有两个自由度,但是球面上的点一般是用外围R^3空间中的坐标表示的,所以我们看到的R^3中球面上的点有3个数来表示的。当然球面还有柱坐标球坐标等表示。对于R^3中的球面来说,那么流形学习可以粗略的概括为给出R^3中的表示,在保持球面上点某些几何性质的条件下,找出找到一组对应的内蕴坐标(intrinsic coordinate)表示,显然这个表示应该是两维的,因为球面的维数是两维的。这个过程也叫参数化(parameterization)。直观上来说,就是把这个球面尽量好的展开在通过原点的平面上。在PAMI中,这样的低维表示也叫内蕴特征(intrinsic feature)。一般外围空间的维数也叫观察维数,其表示也叫自然坐标(外围空间是欧式空间)表示,在统计中一般叫observation。

    03

    没有完整图时,如何使用图深度学习?你需要了解流形学习2.0版本

    机器之心编译 编辑:陈萍 流形学习,自 2000 年在著名的科学杂志《Science》被首次提出以来,已成为信息科学领域的研究热点。可能很多人会问,流形学习有什么用呢?首先流形学习可以作为一种数据降维的方式,第二,流形能够刻画数据的本质。其主要代表方法有等距映射、局部线性嵌入等。那么,具有流形学习 2.0 之称的潜图学习方法如何呢? 自从神经网络提出以来,其在人脸识别、语音识别等方面表现出卓越的性能。以前需要人工提取特征的机器学习任务,现在通过端到端的方法就能解决。 传统的深度学习方法在提取欧氏空间数据(

    02

    学界 | 深度神经网络为什么不易过拟合?傅里叶分析发现固有频谱偏差

    众所周知,过参数化的深度神经网络(DNN)是一类表达能力极强的函数,它们甚至可以以 100% 的训练准确率记住随机数据。这种现象就提出了一个问题:为什么它们不会轻易地过度拟合真实数据?为了回答这个问题,我们使用傅立叶分析研究了深度神经网络。我们证明了具有有限权重(或者经过有限步训练)的深度神经网络天然地偏向于在输入空间上表示光滑的函数。具体而言,深度 ReLU 网络函数的一个特定频率分量(k)的大小至少以 O(k^(-2))的速率衰减,网络的宽度和深度分别以多项式和指数级别帮助网络对更高的频率建模。这就说明了为什么深度神经网络不能完全记住 delta 型的峰函数。我们的研究还表明深度神经网络可以利用低维数据流形的几何结构来用简单的函数逼近输入空间中存在于简单函数流形上的复杂函数。结果表明,被网络分类为属于某个类的所有样本(包括对抗性样本)都可以通过一条路径连接起来,这样沿着该路径上的网络预测结果就不会改变。最后,我们发现对应于高频分量的深度神经网络(DNN)参数在参数空间中所占的体积较小。

    01

    CVPR 2023 | 由点到面:可泛化的流形对抗攻击,从个体对抗到流形对抗

    机器之心专栏 机器之心编辑部 来自东方理工的研究团队提出了一种广义流形对抗攻击的新范式,将传统的 “点” 攻击模式推广为 “面” 攻击模式。 声称准确率 99% 的人脸识别系统真的牢不可破吗?事实上,在人脸照片上做一些不影响视觉判断的改变就可以轻松攻破人脸识别系统,例如让邻家女孩和男明星被判断成同一个人,这便是对抗攻击。对抗攻击的目标是寻找自然的且能够让神经网络混淆的对抗样本,从本质上讲,找到对抗样本也就是找到了神经网络的脆弱之处。 近日,来自东方理工的研究团队提出了一种广义流形对抗攻击的范式(Genera

    03

    MAGIC||利用流形学习还原单细胞的基因表达

    单细胞转录组测序数据由于测序技术的问题,常常难以捕获到低表达的基因,从而出现大量的零值,这些零值通常被称为“dropout”。这些基因信号的缺失,将影响对基因间调控关系的解释,因此scRNA-seq数据的稀疏可能会阻碍下游的分析,难以建模和处理。有2种解决数据稀疏的方法,(i)使用合适的数据构建统计模型,对scRNA-seq数据的稀疏、抽样差异及噪音进行固有建模;(ii)填补零值,使其更好地接近真实的细胞表达水平,但不适合处理大量缺失。 2018年7月26日,哥伦比亚大学Dana Pe'er教授在Cell上发表MAGIC(Markov affinity-based graph imputation of cells),利用流形学习还原单细胞的基因表达,并基于还原后的数据发现新的基因调控关系。

    04
    领券