首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【续】分类算法之贝叶斯网络(Bayesian networks)

在上一篇文章中我们讨论了朴素贝叶斯分类。朴素贝叶斯分类有一个限制条件,就是特征属性必须有条件独立或基本独立(实际上在现实应用中几乎不可能做到完全独立)。当这个条件成立时,朴素贝叶斯分类法的准确率是最高的,但不幸的是,现实中各个特征属性间往往并不条件独立,而是具有较强的相关性,这样就限制了朴素贝叶斯分类的能力。这一篇文章中,我们接着上一篇文章的例子,讨论贝叶斯分类中更高级、应用范围更广的一种算法——贝叶斯网络(又称贝叶斯信念网络或信念网络)。 重新考虑上一篇的例子 上一篇文章我们使用朴素贝叶斯分类实现了

08

机器学习(15)——贝叶斯网络贝叶斯小结

前言: 当多个特征属性之间存在着某种相关关系的时候,使用朴素贝叶斯算法就没法解 决这类问题,那么贝叶斯网络就是解决这类应用场景的一个非常好的算法。在贝叶斯网络的应用中,隐马可夫模型最常用。 一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,可以是可观察到的 变量,或隐变量,未知参数等等。连接两个节点之间的箭头代表两个随机变量之 间的因果关系(也就是这两个随机变量之间非条件独立),如果两个节点间以一个 单箭头连接在一起,表示其中一个节点是“因”,另外一个是“果”,从而两节 点之间就会产生一个条件概率值。

06

基于马尔科夫边界发现的因果特征选择算法综述

摘要 因果特征选择算法(也称为马尔科夫边界发现)学习目标变量的马尔科夫边界,选择与目标存在因果关系的特征,具有比传统方法更好的可解释性和鲁棒性.文中对现有因果特征选择算法进行全面综述,分为单重马尔科夫边界发现算法和多重马尔科夫边界发现算法.基于每类算法的发展历程,详细介绍每类的经典算法和研究进展,对比它们在准确性、效率、数据依赖性等方面的优劣.此外,进一步总结因果特征选择在特殊数据(半监督数据、多标签数据、多源数据、流数据等)中的改进和应用.最后,分析该领域的当前研究热点和未来发展趋势,并建立因果特征选择资料库(http://home.ustc.edu.cn/~xingyuwu/MB.html),汇总该领域常用的算法包和数据集. 高维数据为真实世界的机器学习任务带来诸多挑战, 如计算资源和存储资源的消耗、数据的过拟合, 学习算法的性能退化[1], 而最具判别性的信息仅被一部分相关特征携带[2].为了降低数据维度, 避免维度灾难, 特征选择研究受到广泛关注.大量的实证研究[3, 4, 5]表明, 对于多数涉及数据拟合或统计分类的机器学习算法, 在去除不相关特征和冗余特征的特征子集上, 通常能获得比在原始特征集合上更好的拟合度或分类精度.此外, 选择更小的特征子集有助于更好地理解底层的数据生成流程[6].

04

Python3 机器学习简明教程

1 机器学习介绍     1.1 什么是机器学习     1.2 机器学习的应用     1.3 机器学习基本流程与工作环节         1.3.1 数据采集与标记         1.3.2 数据清洗         1.3.3 特征选择         1.3.4 模型选择         1.3.5 训练和测试         1.3.6 模型使用     1.4 机器学习算法一览 2 Python 3 机器学习软件包     2.1 多种机器学习编程语言比较     2.2 开发环境 Anaconda 搭建         2.2.1 Windows         2.2.2 macOS         2.2.3 Linux     2.3 Jupyter Notebook 介绍     2.4 Spyder 介绍     2.5 Numpy 介绍         2.5.1 Numpy 数组         2.5.2 Numpy 运算         2.5.3 Numpy Cheat Sheet     2.6 Pandas 介绍         2.6.1 十分钟入门 pandas         2.6.2 Pandas Cheat Sheet     2.7 Matplotilb 介绍         2.7.1 Pyplot 教程         2.7.2 plots 示例         2.7.3 Matplotilb Cheat Sheet     2.8 scikit-learn 介绍         2.8.1 scikit-learn 教程         2.8.2 scikit-learn 接口         2.8.3 scikit-learn Cheat Sheet     2.9 数据预处理         2.9.1 导入数据集         2.9.2 缺失数据         2.9.3 分类数据         2.9.4 数据划分         2.9.5 特征缩放         2.9.6 数据预处理模板 3 回归     3.1 简单线性回归         3.1.1 算法原理         3.1.2 预测函数         3.1.3 成本函数         3.1.4 回归模板     3.2 多元线性回归     3.3 多项式回归         3.3.1 案例:预测员工薪水     3.4 正则化         3.4.1 岭回归         3.4.2 Lasso 回归     3.5 评估回归模型的表现         3.5.1 R平方         3.5.2 广义R平方         3.5.3 回归模型性能评价及选择         3.5.4 回归模型系数的含义 4 分类     4.1 逻辑回归         4.1.1 算法原理         4.1.2 多元分类         4.1.3 分类代码模板         4.1.4 分类模板     4.2 k-近邻         4.2.1 算法原理         4.2.2 变种     4.3 支持向量机         4.3.1 算法原理         4.3.2 二分类线性可分         4.3.3 二分类线性不可分支持         4.3.4 多分类支持向量机         4.3.5 Kernel SVM - 原理         4.3.6 高维投射         4.3.7 核技巧         4.3.8 核函数的类型     4.4 决策树         4.4.1 算法原理         4.4.2 剪枝与控制过拟合         4.4.3 信息增益         4.4.4 最大熵与EM算法 5 聚类     5.1 扁平聚类         5.1.1 k 均值         5.1.2 k-medoids     5.2 层次聚类         5.2.1 Single-Linkage         5.2.2 Complete-Linkage 6 关联规则     6.1 关联规则学习     6.2 先验算法Apriori     6.3 FP Growth 7 降维     7.1 PCA(主成分分析)     7.2 核 PCA     7.3 等距特征映射IsoMap 8 强化学习     8.1 置信区间上界算法         8.1.1 多臂老虎机问题

03

数据挖掘十大经典算法(9) 朴素贝叶斯分类器 Naive Bayes

贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯公式计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。眼下研究较多的贝叶斯分类器主要有四种,各自是:Naive Bayes、TAN、BAN和GBN。   贝叶斯网络是一个带有概率凝视的有向无环图,图中的每个结点均表示一个随机变量,图中两结点 间若存在着一条弧,则表示这两结点相相应的随机变量是概率相依的,反之则说明这两个随机变量是条件独立的。网络中随意一个结点X 均有一个对应的条件概率表(Conditional Probability Table,CPT),用以表示结点X 在其父结点取各可能值时的条件概率。若结点X 无父结点,则X 的CPT 为其先验概率分布。贝叶斯网络的结构及各结点的CPT 定义了网络中各变量的概率分布。   贝叶斯分类器是用于分类的贝叶斯网络。该网络中应包括类结点C,当中C 的取值来自于类集合( c1 , c2 , … , cm),还包括一组结点X = ( X1 , X2 , … , Xn),表示用于分类的特征。对于贝叶斯网络分类器,若某一待分类的样本D,其分类特征值为x = ( x1 , x2 , … , x n) ,则样本D 属于类别ci 的概率P( C = ci | X1 = x1 , X2 = x 2 , … , Xn = x n) ,( i = 1 ,2 , … , m) 应满足下式:   P( C = ci | X = x) = Max{ P( C = c1 | X = x) , P( C = c2 | X = x ) , … , P( C = cm | X = x ) }   而由贝叶斯公式:   P( C = ci | X = x) = P( X = x | C = ci) * P( C = ci) / P( X = x)   当中,P( C = ci) 可由领域专家的经验得到,而P( X = x | C = ci) 和P( X = x) 的计算则较困难。   应用贝叶斯网络分类器进行分类主要分成两阶段。第一阶段是贝叶斯网络分类器的学习,即从样本数 据中构造分类器,包含结构学习和CPT 学习;第二阶段是贝叶斯网络分类器的推理,即计算类结点的条件概率,对分类数据进行分类。这两个阶段的时间复杂性均取决于特征值间的依赖程度,甚至能够是 NP 全然问题,因而在实际应用中,往往须要对贝叶斯网络分类器进行简化。依据对特征值间不同关联程度的如果,能够得出各种贝叶斯分类器,Naive Bayes、TAN、BAN、GBN 就是当中较典型、研究较深入的贝叶斯分类器。

02

数据挖掘算法之贝叶斯网络

贝叶斯网络 序 上上周末写完上篇朴素贝叶斯分类后,连着上了七天班,而且有四天都是晚上九点下班,一直没有多少时间学习贝叶斯网络,所以更新慢了点,利用清明节两天假期,花了大概七八个小时,写了这篇博客,下面讲的例子有一个是上一篇朴素贝叶斯讲过的,还有其他的都是出自贝叶斯网络引论中。我会以通俗易懂的方式写出来,不会讲得很复杂,会介绍贝叶斯网络的绝大部分知识点,看完会让你对于贝叶斯网络有个大概的了解。但是对于比较深层次的东西,我先不打算写。比如训练贝叶斯网络,因为涉及到比较加深入的数学知识,我自己暂时也不是理解得很透

010

用预测编码实现因果推断

贝叶斯和因果推理是智能的基本过程。贝叶斯推理模型观察:如果我们观察一个相关变量x,可以推断出关于y的什么?因果推理模型干预:如果我们直接改变x,y会如何改变?预测编码是一种受神经科学启发的方法,仅使用局部信息对连续状态变量进行贝叶斯推理。在这项工作中,我们超越了贝叶斯推理,并显示了在因果图已知的情况下,预测编码的推理过程中的简单变化如何实现干预和反事实推理。然后,我们扩展我们的结果,并显示如何预测编码可以推广到的情况下,这个图是未知的,必须从数据推断,因此执行因果发现。其结果是一种新颖而简单的技术,允许我们对基于预测编码的结构因果模型进行端到端的因果推理,并展示其在机器学习中潜在应用的效用。

03
领券