大家好,我是小轩
上一篇文章末尾说过几天写一篇多标签分类评价指标
后台已经有人催更了
现在它来了
这几天跑的模型是以论文摘要,说的再详细一些就是对摘要进行标记,然后用标记后的数据在模型中训练
下面我们多标签分类进行介绍,可能有的说的不是特别精确,但可以参考理解其意思,仅供大家选择和学习
有的同学问单标签和多标签有什么区别?
多标签就是有多个维度进行判断,单标签分类只有两个类别:高兴或不高兴。
如下图,论文摘要通过两个模型对四个维度进行训练,通过最后的训练指标可以看出哪个模型泛化能力更好
如果不了解单标签分类和什么是混淆矩阵的话,请看前面那篇文章《一文看懂机器学习指标(一)》
在多标签场景下,需要对每个维度进行计算得到混淆矩阵
下面两张图片说明一下不同维度的混淆矩阵计算
一共有四个维度,就假设第一张是兴趣,第二张是地理位置
Note:这里以0.5做正负划分
图 1 兴趣
图 2 地理位置
上面是两个维度的混淆矩阵,另外两个也一样,求混淆矩阵的方法都是一样的,这里就不展示了
多标签分类指标将F1分为F1 Micro和F1 Macro
什么意思?
上面可以通过四个混淆矩阵计算四个维度的精确率和召回率,就可以得到四组精确率和四组召回率
针对每一个维度 ,比如说第一个维度计算出来的精确率和召回率,可以得到F1 Macro值,同样计算其它三个维度的F1 Macro值,然后计算四个F1 Macro的平均数
将四个维度的混淆矩阵的TP、FP、FN、TN对应相加,得到一个混淆矩阵,然后计算精确率和召回率,最后计算得到F1 Micro值
有什么问题可以后台留言