分类是将项目分组到类别中的过程。分类问题可以自然地分层建模,通常以树或有向无环图形式(或某种组合)。这些类型的分类范围从音乐流派分类一直到识别宏基因组数据集中的病毒序列以及以 COVID-19 为例诊断胸部 X 射线图像。
树分类的平面方法是一种完全忽略类之间层次结构的方法,通常只预测叶节点。虽然对于某些没有层次特征的问题,这种方法可以轻松快速地使用,但考虑到多层次的分组会变得更加困难,因为在常规线性模型已经完成的事情之上,需要决策树或修剪。训练模型时层次结构的重要性经常被忽视。尽管如此它已被证明能够始终如一地产生更好的预测结果。因此它被用于研究。
在这篇研究论文中,波茨坦大学的研究人员介绍了HiClass,这是一个 Python 库,它实现了局部分层分类器的最常见模式。这些可以用于不同的应用领域,其中数据是分层结构的,并且具有理想的形状,如树或有向无环图,两侧的中间级别(分层)都有缺失值。
HiClass是一个完全符合scikit的本地分层分类的开源Python包。它提供了最流行的机器学习模型的实现,并包括在包含层次结构级别的数据集上评估模型性能的工具。
论文和代码链接如下。
论文:
https://arxiv.org/pdf/2112.06560v1.pdf
Gitlab:
https://gitlab.com/dacs-hpi/hiclass