Loading [MathJax]/jax/output/CommonHTML/config.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >北大张志华:机器学习就是现代统计学

北大张志华:机器学习就是现代统计学

作者头像
大数据文摘
发布于 2019-05-17 04:42:39
发布于 2019-05-17 04:42:39
9130
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘出品

内容来源:智源论坛

数学最重要的魅力在于帮助我们提出解决问题的思路或途径。

机器学习在一定程度上正是数学和工程的完美结合,毕竟用数学里面的概率论、随机分析等工具研究AI早已不是什么新鲜事情。例如机器学习的四个基本原则性的问题,即泛化性、稳定性、可计算性和可解释性就可以用数学工程手段来解决。

在5月 9日的北京智源人工智能研究院主办的“智源论坛——人工智能的数理基础”系列报告中,北京⼤学的张志华教授对机器学习和数学工程的内在关系进行了阐述。在报告中,他提到:统计为求解问题提供了数据驱动的建模途径;概率论、随机分析、微分方程、微分流形等工具可以引入来研究 AI 的数学机理等等。

除此之外,张志华教授还回顾了机器学习发展的⼏个重要阶段,以及重点强调机器学习和人工智能之间并不能画等号,毕竟机器学习实际上是研究算法的学科,而人工智能志在模拟人的思维和行为。

在回答现成观众问题的时候,其也提到机器学习就是统计学的一个分支,机器学习比统计学更接地气。

以下张志华教授的演讲速记,文摘菌做了有删改的整理,请欣赏~

机器学习发展现状的认识

机器学习与人工智能有着本质上的不同,前者志不在模拟人的思维和行为,主要是想通过经验和交互的方式改善性能,是基于规则的学习。机器学习实际上是研究算法的学科,算法是基于数据型算法,然后反馈到数据中去。 可以简单地把机器学习的过程看作这样一个思路,然后可以基于此看看机器学习发展的历程:

传统方法:基于规则学习

第一个历程是基于规则的学习,它的目的就是为了规则,有规则它就可以做预测。但是重点不是怎么形成规则,而是数据到表示,即通过认知的手段,把人对数据的认识过程,用计算机记录下来。从而成一种形式化的方式,自然而然就有一种规则和逻辑的方式去做预测。它主要代表有两个,一个是专家系统,包括知识库和推理基,其中重点就是知识库。另外一个是句法模式识别,模式的目的也是怎么样把一个对象通过一种形式化的方式表示出来。

但这一阶段也暴露出一些问题,其一便是基于规则学习的方法虽然对于浅层推理比较有效,但遇上深层推理需求,如果形成规则过多,在其中搜索就容易出现前面的分享提到过的维数灾难问题。

为了解决问题,一个用一个强大的非线性学习模型来弱化数据到表示过程的作用,基于这样的理论,机器学习发展至第二个阶段。

统计机器学习黄金发展的十年

第二阶段是90年代中期到2005年左右十年的时间。在这一阶段为了解决维数灾难,出现了一个数论:即基于规则的方式,环成一个非线性的一种模型,或者用计算的手段运作模型,然后反过来可以弱化数据到表示的过程。

这一阶段的神经网络(80 年代就已经出现神经网络模型)则相对趋于比较低落的时期,表现平平,发展遇冷。主要原因在于时期的机器学习方法比神经网络要更为简单,性能也要更好,属性性质相对完美,自然而然地就取代了神经网络。

但随着统计方法发展到一定阶段,大家发现“数据到表示”这件事情还是绕不过去。而应对这一问题地一个简单的思路就是通过学习的途径来求解表示问题,从而弱化研究者对于领域背景高度掌握的要求,也就是通过一个自动化的方式来解决这一问题。

基于深度表示的学习

大模型+大数据+大计算使得这种思路变得可行,机器学习也进入了第三阶段。AlexNet 网络的提出在后来为问题带来了突破性进展,很多做计算机视觉的人在网络方面不停跟进,这些发展主要是基于视觉的。

那么在机器翻译自然语言处理,自然而然也想到深度学习既然可以解决视觉问题,当然就可以把深度学习拿到机器学习来,所以现在在机器学习里面它的主要的模型也是基于深度。虽然模型可能不是卷积神经网络,但是核心确是LSTM这种东西。但是不管怎么样,相对于机器学习,自然语言处理深度学习,在自然语言处理它的效果或者它的作用远远没有那么好。

在上述时期,用深度学习它的目的还不是为了表示,主要是为了什么?还是为了非线性的拟合,在自然语言处理,个人理解目前为止还没有找到一种非常有效的,像卷积神经网络有效表示图像的网络,所以导致自然语言处理没有像图像那么强大。

那这整个过程,知道都是在一个有监督的方式里面去做的,本质上就是把数据到表示用一个模型和计算的方式做。而表示到预测、决策也是通过模型计算的,整个可以看到从数据到预测是端到端的优化学习过程。

深度学习目前现状:无监督问题突出

深度学习发展到现在,主要讲是有监督的学习,但是现在很多问题是无监督的,就是无监督的问题远远比有监督的问题要多,而且要复杂。那么一个简单的思想就是要把无监督的问题要形成与有监督类似的学习的过程,有一个优化的过程,用机器学习的方法解决事情,在统计里面,现在假设X要生成它,那么如果X是连续的,可以假设X是高斯,但是如果X来自高斯假设很强,但是可以说X是来自什么?是一个高斯混合体,如果X是一个连续的向量,那它总是可以用一个高斯混合体去逼近它,是没有任何问题的。

但是时候发现X是一个抽象的数学意识,并没有具体的物理意义,那么自然神经网络这些技术能不能对一个图像进行生成了,对语言进行生成,而不是对数学意义上的X去生成。现在发展比如有一个生成对抗网络,它就是解决这样的问题,它的目的不是为了生成一个抽象数学意义上的X,是生成一个真正的图像或者语言,那么它的框架实际上就是怎么样形成一个优化问题。

强化学习目前的复兴是因为深度学习

另一个发展方向是强化学习,强化学习是什么呢?它利用规则与环境交互或者奖赏,然后形成一个学习优化问题,形成一个优化问题。

对于强化学习,不是最近才发明出来的。其主要的数学手段是马尔可夫决策过程,它通过马尔可夫决策过程去描述问题,描述问题之后要去解问题,发现问题最优解,最后把它定成贝尔曼方程,那么解贝尔曼方程的话发现是可以用不动点定理来描述贝尔曼方程。那么有了不动点定理支撑,现在主要是有两个思路,第一个思路是基于Value,也就是用Value迭代找到最优值。另外一种就是Polic迭代,因为本质上不是找Value,是找Polic,所以就直接在Polic方面去做迭代。

现在很多实际问题实际上对环境是不会已知的,也就是说对卷积概率是不会知道的。这时候发展就是一个所谓的Q-Learning,实际上Q-Learning定义了一个新的函数叫Q函数。那么在Q-Learning基础上,就发展出来深度的Q网络,目前现在主要做的比如像Polic的梯度方法,这是强化学习或者深度强化学习目前发展的一个主要结点。

机器学习的技术路线

机器学习有三个问题。一个是有监督、无监督和强化学习。原来认为机器学习是统计的分支,现在认为机器学习就是现代统计学。机器学习和统计还有微妙的关系,机器学习是分类问题,而统计是回归问题,分类和回归也没有太本质的区别。

第二,机器学习往往会形成优化问题。刚才说要形成优化过程,它跟优化是什么区别?一个优化的学者,或者优化领域里面它纯粹就关注找到最优值。但是对于机器学习的学者来说,最紧急的是要找到预测数据。

现在看来,现代的机器学习它主要成功就在于表示,就是深度学习是一个表示,它不是单纯的是一个非线性模型,主要是一个非线性的表示。当然想到机器学习它的目的是预测,而预测是通过计算得出。

但是深度学习也遇到很多挑战,第一个是需要大数据的要求,大家网络是非常多,所以往往导致过参数的问题。另外就是在做表述是基于多层的表述,所以问题是高度的非凸化。

另外,现在机器学习要关注的重点问题有四个方面。第一个是可预测性、第二个可计算性、第三个是稳定性、第四个就是可解释性。可能现在认为主要重点就是在稳定性和泛化性方面,因为觉得神经网络没有可解释性。

最后,张志华教授就机器学习和数学工程之间的关系给出了这样的阐述:

  • 统计为求解问题提供了数据驱动的建模途径;
  • 概率论、随机分析、微分方程、微分流形等工具可以引入来研究 AI 的数学机理;
  • 无论从统计角度还是从数学角度来研究 AI,其实际性能最后都要通过计算呈现出来: 1.数值分析,即求解连续数学问题的算法; 2.离散算法,即求解离散结构问题的算法; 3.大规模计算架构
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2019-05-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
数学 + 统计 + 脑科学 = 破解 AI “黑盒子” 的密匙?
AI 科技评论按:2019 年 5 月 9 日,由北京智源人工智能研究院主办的“智源论坛”在中关村国家自主创新示范区会议中心举行。“智源论坛”是一系列高水平人工智能技术分享活动,将定期邀请业内顶尖学者共同探讨前沿技术、分享经验。围绕当前人工智能所面临的可计算性、可解释性、泛化性和稳定性等基础问题,主办方从数学、统计和计算的角度,设立了人工智能的数理基础重大研究方向,本期论坛主题为“人工智能的数理基础”,由 15 名学者分为三天进行分享。AI 科技评论有幸受邀出席,将现场精华记录如下。
AI科技评论
2019/05/17
8360
数学 + 统计 + 脑科学 = 破解 AI “黑盒子” 的密匙?
机器学习算法地图
很多同学在学机器学习和深度学习的时候都有一个感受:所学的知识零散、不系统,缺乏整体感,这是普遍存在的一个问题。在这里,SIGAI对常用的机器学习和深度学习算法进行了总结,整理出它们之间的关系,以及每种算法的核心点,各种算法之间的比较。由此形成了一张算法地图,以帮助大家更好的理解和记忆这些算法。
SIGAI学习与实践平台
2018/07/05
1.4K1
机器学习算法地图
机器学习、深度学习、演化学习
机器学习是一门涉及统计学、系统辨识、逼近理论、神经网络、优化理论、计算机科学、脑科学等诸多领域的交叉学科,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,是人工智能技术的核心。基于数据的机器学习是现代智能技术中的重要方法之一,研究从观测数据(样本)出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测。根据学习模式、学习方法以及算法的不同,机器学习存在不同的分类方法。
深度学习视觉
2022/03/10
7040
首发|机器学习未来十年:你需要把握的趋势和热点
CSDN 出品的《2018-2019 中国人工智能产业路线图》V2.0 版即将重磅面世!
AI科技大本营
2018/12/06
7650
Jupyter笔记本实现,慕尼黑工大220页免费书籍介绍基于物理的深度学习
机器之心报道 编辑:杜伟、陈萍 物理知识和深度学习已经成为了解决现实问题的绝佳组合,但如何更有效地将物理模型引入深度学习领域缺少一个全面的综述。慕尼黑工业大学计算机科学副教授 Nils Thuerey 团队编写的这本书籍对基于物理的深度学习展开了详尽的介绍。 书籍地址:https://arxiv.org/pdf/2109.05237.pdf 项目地址:https://github.com/thunil/Physics-Based-Deep-Learning 网站地址:https://www.physics
机器之心
2023/03/29
5960
Jupyter笔记本实现,慕尼黑工大220页免费书籍介绍基于物理的深度学习
谷歌大脑工程师Eric Jang 2017机器学习总结:从表达能力、训练难度和泛化能力讨论机器学习模型
【导读】谷歌大脑工程师Eric Jang在2017年11月20日发表一篇名为《Expressivity, Trainability, and Generalization in Machine Learning》的博客,本博客是对2017年度机器学习领域研究的一个很好的总结,作者探讨了机器学习中模型的三个最重要的问题:表达能力、训练难度和泛化能力,并利用这三个标准评价机器学习模型的贡献,并分别讨论了有监督学习、无监督学习和强化学习在这些方面的表现。相信你读完本文之后能对机器学习有更全面、更深刻的理解。专知内
WZEARW
2018/04/12
9260
谷歌大脑工程师Eric Jang 2017机器学习总结:从表达能力、训练难度和泛化能力讨论机器学习模型
数学与 AI「融通」 ,徐宗本院士进行超强“迁移学习”
9 月 21 日至 22 日,为期两天的 CCAI 2019 正在秋意浓浓的中国青岛胶州隆重举行。本次会议选址室外体育馆召开,为原本严肃的学术会议增添了几分活泼、惬意的色彩。
AI科技评论
2019/09/25
4470
数学与 AI「融通」 ,徐宗本院士进行超强“迁移学习”
基于Spark的机器学习实践 (一) - 初识机器学习
◆学习一个模型,使用的数据是没有被标记过的,自己默默地在学习隐含的特征,寻找模型与规律
JavaEdge
2019/04/08
1.1K0
机器学习-波澜壮阔40年
人工智能的再次兴起让机器学习(Machine Learning)这个名词进入了公众的视野,它成为当前解决很多人工智能问题的核心基石。
SIGAI学习与实践平台
2018/08/07
4150
机器学习-波澜壮阔40年
零基础程序员数学体系课
AI在可预见的多年内还将以爆发的态势增长,AI人才需求与日俱增,但普通程序员困于没有扎实的专业数学基础,局限在AI应用层开发,在进一步构建自己的AI模型、调参优化、处理数据并评估性能方面无法突破,甚至很多教程也基于有相关高等数学基础而设计,对于大部分毕业后再未接触过数学的开发人员有相当的难度,鉴于此本课程严选AI强关联数学干货,降低学习门槛、可视化呈现、数学与代码结合的程序员友好课程设计,广泛覆盖AI所必备的数学基础,旨在消除程序员在深入AI领域的数学屏障。
奔跑企鹅907340320
2025/04/15
950
机器学习中的最优化算法总结
对于几乎所有机器学习算法,无论是有监督学习、无监督学习,还是强化学习,最后一般都归结为求解最优化问题。因此,最优化方法在机器学习算法的推导与实现中占据中心地位。在这篇文章中,SIGAI将对机器学习中所使用的优化算法做一个全面的总结,并理清它们直接的脉络关系,帮你从全局的高度来理解这一部分知识。
SIGAI学习与实践平台
2018/09/29
3.2K0
机器学习中的最优化算法总结
Machine-Learning 机器学习
机器学习是人工智能的一个重要分支,旨在通过算法使计算机能够从数据中自动学习并做出预测。它结合了统计学、概率论、近似理论和复杂算法等多学科知识,利用计算机作为工具来模拟人类的学习方式。
用户11315985
2024/10/16
1810
Machine-Learning 机器学习
学界 | 不!机器学习才不只是统计学的美化!
题图上这张在社交媒体上疯狂传播的恶搞漫画博得了不少转发,这似乎暗示着,对机器学习的炒作热度开始消退。然而,机器学习真的只是被美化的统计学吗?
大数据文摘
2018/09/20
4070
学界 | 不!机器学习才不只是统计学的美化!
什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了
导读:本文从大数据的概念讲起,主要介绍机器学习的基础概念,以及机器学习的发展过程,用一个形象的例子讲解大数据生态中的机器学习,并按照传统机器学习(包括分类、聚类、回归、关联规则、协同过滤、数据降维等)、深度学习,以及其他机器学习(迁移学习、主动学习、演化学习)进行算法讲解。
IT阅读排行榜
2019/04/24
14K0
什么是机器学习?有哪些算法和分类?又有哪些应用?看完你就懂了
机器学习基础概括
机器学习(Machine Learning, ML)是人工智能(AI)的一项核心技术,它使得计算机通过数据学习,进而做出预测和决策,而不需要明确的编程规则。机器学习的目标是构建能够从数据中自动改进的算法,减少人为干预。机器学习的核心思想是:通过数据的不断积累与分析,机器可以模仿人类的学习过程,完成特定任务。
用户11292525
2025/04/01
1560
【机器学习基础】初探机器学习
  我们生活在一个人工智能的时代!生活中现在已随处可见人工智能技术的影子。在大学的食堂,学生把打好菜的托盘放到摄像头下面,机器就可以自动识别每个餐盘的形状来自动计算这顿饭的价格;而在校园的大部分电梯里,学生可以说例如“我要去3楼”,电梯则可以自动带学生去3楼,这在疫情期间更加方便卫生。或许对于“20后”的孩子们而言,智能就像能源一样从他们记事起就随处可见、随手可得,就像移动互联网之于“10后”一样。
Francek Chen
2025/01/23
830
【机器学习基础】初探机器学习
重磅报告 | 机器学习与物理科学(一)
机器学习包含用于大量数据处理任务的广泛算法和建模工具,这些已进入近年来最科学的学科。我们以选择性的方式回顾了有关机器学习与物理科学之间的交叉领域的最新研究。这包括以物理见解为动力的机器学习(ML)的概念性发展,机器学习技术在物理学中多个领域的应用以及这两个领域之间的交叉应用。在给出了机器学习方法和原理的基本概念之后,我们介绍了如何使用统计物理学来理解机器学习中的方法的例子。然后,我们将介绍机器学习方法在粒子物理学和宇宙学,量子多体物理学,量子计算以及化学和材料物理学中的应用。我们还将重点介绍旨在加速机器学习的新型计算体系结构的研究和开发。在每个部分中,我们都描述了最近的成功以及特定领域的方法和挑战。
数据科学人工智能
2022/03/31
1.1K0
通透!!机器学习、深度学习、人工智能的区别与联系!!
没有接触过机器学习的同学,往往对机器学习、深度学习、甚至是人工智能有着模糊的概念。
Python编程爱好者
2024/01/05
8140
通透!!机器学习、深度学习、人工智能的区别与联系!!
机器学习中的目标函数总结
几乎所有的机器学习算法最后都归结为求解最优化问题,以达到我们想让算法达到的目标。为了完成某一目标,需要构造出一个“目标函数”来,然后让该函数取极大值或极小值,从而得到机器学习算法的模型参数。如何构造出一个合理的目标函数,是建立机器学习算法的关键,一旦目标函数确定,接下来就是求解最优化问题,这在数学上一般有现成的方案。如果你对最优化算法感兴趣,可以阅读SIGAI之前的公众号文章“理解梯度下降法”,“理解牛顿法”,“理解凸优化”,“机器学习中的最优化算法总结”。本文的侧重点是对目标函数的构造进行总结。
SIGAI学习与实践平台
2018/09/17
2.9K0
机器学习中的目标函数总结
如何食用《机器学习》?
如果你没有学过机器学习的话,可能你并不能看懂这几张图,哎哎哎,别丢砖头鸡蛋啊…………
学弱猹
2021/08/09
6530
相关推荐
数学 + 统计 + 脑科学 = 破解 AI “黑盒子” 的密匙?
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档