笔者邀请您,先思考:
1 你熟悉和理解机器学习那些专业术语?举例说明
分类器
将未标记的实例映射到类的程序或函数称为分类器。
混淆矩阵
混淆矩阵,也称为关联表或错误矩阵,用于可视化分类器的性能。
矩阵的列表示预测类的实例,行表示实际类的实例。(注意:也可以反过来。)
对于二进制分类,表有两行两列。
例如:
这意味着分类器在42个案例中正确地预测了为男性,并错误地预测了8个男性案例为女性。它正确地预测了32例女性,18例被错误地预测为男性而不是女性。
正确度(错误率)
准确性是一种统计度量,定义为分类器所做的正确预测的数除以分类器所做的预测的总和。
我们前面例子中的分类器正确地预测了42个男性实例和32个女性实例。
因此,可以通过以下方法计算精度:
正确度=(42 + 32)/(42 + 8 + 18 + 32)
这是0.72
假设我们有一个分类器,它总是预测“女性”。在这种情况下,我们的准确度为50%。
我们将展示所谓的准确性悖论。
垃圾邮件识别分类器由以下混淆矩阵描述:
该分类器的精度为(4 + 91)/ 100,即95%。
下面的分类器只预测“ham”,并且有同样的准确性。
这个分类器的准确度为95%,即使它根本不能识别任何垃圾邮件。
Precision and Recall
Accuracy: (TN+TP)/(TN+TP+FN+FP)
Precision: TP/(TP+FP)
Recall: TP/(TP+FN)
监督式学习
机器学习程序同时给出输入数据和相应的标签。这意味着学习数据必须事先由人类标记。
无监督学习
学习算法没有标签。算法必须计算出输入数据的簇。
强化学习
计算机程序与它的环境进行动态交互。这意味着程序接收到积极和/或消极的反馈,以改进性能。
数据人网是数据人学习、交流和分享的平台http://shujuren.org 。专注于从数据中学习到有用知识。
平台的理念:人人投稿,知识共享;人人分析,洞见驱动;智慧聚合,普惠人人。
您在数据人网平台,可以1)学习数据知识;2)创建数据博客;3)认识数据朋友;4)寻找数据工作;5)找到其它与数据相关的干货。
我们努力坚持做原创,聚合和分享优质的省时的数据知识!
我们都是数据人,数据是有价值的,坚定不移地实现从数据到商业价值的转换!
领取专属 10元无门槛券
私享最新 技术干货