基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享03

文章来源：企鹅号 - 机器学习研究会

【导读】专知于11月24日推出胡老师的基于信息理论的机器学习报告系列教程，大家反响热烈，胡老师PPT内容非常翔实精彩，是学习机器学习信息理论不可多得的好教程，今天是胡老师为教程的第三部分（为第四章内容）进行详细地注释说明，请大家查看！

▌概述

本次tutorial的目的是，1.介绍信息学习理论与模式识别的基本概念与原理；2.揭示最新的理论研究进展；3.从机器学习与人工智能的研究中启发思索。由于时间有限，本次只是大概介绍一下本次tutorial的内容，后续会详细介绍每一部分。

胡老师的报告内容分为三个部分：

引言（Introduction）

信息理论基础（Basics of Information Theory）

二值信道的理论进展（Theoretical Progress in Binary Channel）

分类评价中的信息度量（Information Measures in Classification Evaluation）

贝叶斯分类器和互信息分类器（Bayesian Classifiers and Mutual-information Classifiers）

总结和讨论（Summary and Discussions）

想了解基于信息理论的机器学习报告系列教程，请阅读专知以前推出的报道：

胡包钢研究员个人主页：

http://www.escience.cn/people/hubaogang/index.html

胡包钢老师简介：

胡包钢老师是机器学习与模式识别领域的知名学者，1993年在加拿大McMaster大学获哲学博士学位。1997年9月回国前在加拿大MemorialUniversity of Newfoundland, C-CORE研究中心担任高级研究工程师。目前为中国科学院自动化研究所研究员。2000-2005年任中法信息、自动化、应用数学联合实验室(LIAMA)中方主任。

▌PPT

Mackay 2003年首次提议可以应用互信息来评价混淆矩阵优劣。他给出了二值分类中的两个混淆矩阵。矩阵最右一列代表了拒识类别。他没有给出具体计算公式与计算结果，但是他的例题以及提议已经表明只有互信息能够提供有效评价。我们这一章介绍的内容正是受该例题启发。在此也致谢当时课题组杨余久同学（博士）提供的该例题信息。

华人学者周绍康（Chow, C.K.）于1970年首次发展了拒识分类的基础研究工作。机器学习研究领域中又称为“弃权分类”，粗糙集研究领域中又称为“三支决策”。

拒识是人类智能中的重要决策方法之一，体现了大数据处理中的“分而治之”策略。如医学诊断中的“疑似病人”即对应了“拒识类别”。

机器学习应用中有所要考虑误差类别，特别是当小类概率很小时。为此，我们首次提出了误差类别与拒识类别同时考察的问题，并开展初步研究。

初始考察二值分类中的四个典型混淆矩阵。分别对应了不同误差与拒识类别。

在分类结果评价中，我们首次提出了“元准则”的概念与具体内容。如果将分类结果评价准则视为底层准则，那么“元准则”是关于底层准则高层知识评价的准则。“元准则”将有利于快速比较底层准则在规定考察特征上的不同。

针对拒识分类，我们提出了三个具体“元准则”用于考察底层准则的三个特征内容。分别是：Meta1. 能够与混淆矩阵对角线元素呈现单调关系。Meta2. 与拒识率相关。Meta3. 与人类分类直觉以下内容相符：小类中的一个误差（或拒识）将比大类中的一个误差（或拒识）代价更高；同类中的一个误差将比一个拒代价更高。由M3可以对四个混淆矩阵进行排序。思考为什么M2与M3无法区分，列为同序B？“元准则”可以理解为是期待底层准则要尽量可以包容的特征。Meta3是对Meta2的进一步期待要求。

基于互信息，信息散度，交叉熵这三种定义，采用不同的归一化计算公式，我们构造并考察了24个信息论指标。NI（T;Y）=0代表两个变量为完全独立，NI（T;Y）=1为两个变量为完全相关。

NI虽然是相关性的考察，它也部分反映了两个变量之间的相似性程度。由于拒识分类中混淆矩阵不是方阵，它们的两个边缘概率会出现长度不同。为此，通过“加零”方式来获得相同长度的边缘概率。该操作是符合物理意义的。

转自：专知

发表于: 2017-12-082017-12-08 22:07:18
原文链接：http://kuaibao.qq.com/s/20171208B0Z3AG00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

基于信息理论的机器学习-中科院自动化所胡包钢研究员教程分享03

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐