全文链接:https://tecdat.cn/?p=33159
相关视频
本文试图帮助客户通过研究不同种类学校的在校人数的关系,从而挖掘出学校在校人数对技校在校人数是否有影响。
问题分析
并对高等学校、中等职业教育学校 、技工学校、 普通中学、小学的人数进行贝叶斯分类分析,试图通过分类分析得到不同学校类型在校人数之间存在的关系,从而得出结论,提出建议。
WEKA 使用流程
WEKA使学习应用机器学习方便,高效和乐趣。这是一个GUI工具,它允许您加载数据集,运行算法设计及运行试验与统计结果。
1. 进入软件
启动Weka的。这可能涉及发现它在程序启动或双击该文件weka.jar。这将启动GUI的Weka选配。
Weka的GUI选择器可以让你选择资源管理器中,实验者,KnowledgeExplorer和简单CLI(命令行界面)中的一个。
2. 加载数据
该GUI让您加载数据集,运行分类算法。它还提供了其他的功能,如数据过滤,聚类,关联规则提取和可视化,但现在我们不会使用这些功能的。
点击“打开文件...”按钮,打开“数据”目录中的数据集并双击。
WEKA提供了一些常见的小机器学习数据集,你可以用它来练习上。
左右滑动查看更多
01
02
03
04
3. 进行挖掘
现在你已经加载的数据集,它的时间来选择一个机器学习算法建模的问题,并作出预测。
点击“分类”标签。这是用于运行针对Weka的一个装载数据集的算法的区域。
点击“开始”按钮,运行该算法。
数据
本次分析的数据来自广东省统计年鉴的各级各类学校在校学生数数据。《广东统计年鉴》(下简称《年鉴》)系统收录了全省及各市、县(区)在校人数的统计数据,以及1978年以来各个主要时期全省一共221条主要统计数据。
指标选取
本次分析一共选取了5个指标221个样本,分别是:高等学校、中等职业教育学校 、技工学校、 普通中学、小学。
贝叶斯网络
贝叶斯网络是一种概率网络,它是基于概率推理的图形化网络,而贝叶斯公式则是这个概率网络的基础。
由乘法公式,我们得到
P (A | B) = P (A, B) / P (B)=(P(B|A)P(A))/P(B)
这就是著名的贝叶斯公式。
贝叶斯公式几乎是所有概率推理的现代人工智能系统的基础。这个式子同样表示一组公式,每个公式处理变量的特定取值。我们还有某些场合要在某个背景证据e上使用一个更通用版本的条件化公式:
贝叶斯法则是在一个条件概率和2个无条件概率的基础上计算另一个条件概率。
贝叶斯法则对于回答在某一条证据的条件约束下的概率问题是非常有用的,而且我们已经讨论过概率信息经常是以P(结果|原因)的形式出现的。
为了解决以上问题,我们利用‘独立性’。
给定第三个随机变量Z(证据)之后,两个随机变量X和Y的条件独立性的一般定义是:
P(X,Y|Z)=P(X|Z)P(Y|Z)
也可以用以下形式来表示
P(X|Y,Z)=P(X|Z)
P(Y|X,Z)=P(Y|Z)
因此对于前面讲过的决对独立断言,允许将全联合分布分解成很多更小的分布,对于条件独立性断言也是同样成立的。
通过条件独立性,将一个大的概率领域分解城一些相互联系非常弱的子集,并允许概率系统进行规模扩展,而且条件独立性也比决对独立性断言更加普遍,称为素贝叶斯模型。
数据准备:
首先在weka中打开数据
查看每个学校的人数分布直方图
数据预处理:
为了消除数据量纲的变化,数据标准化:
然后将数据进行离散化 ,分成几个不同等级:
领取专属 10元无门槛券
私享最新 技术干货