1.标签编码(LabelEncode)
1)定义
LabelEncoder是对不连续的数字或者文本进行编号,编码值介于0和n_classes-1之间的标签。...所以目前还没有发现标签编码的广泛使用,一般在树模型中可以使用。
例如:比如有[dog,cat,dog,mouse,cat],我们把其转换为[1,2,1,3,2]。...2)为什么要使用独热编码
独热编码是因为大部分算法是基于向量空间中的度量来进行计算的,为了使非偏序关系的变量取值不具有偏序性,并且到圆点是等距的。...2)适用情况
每个特征中有多个文本单词;
用户兴趣特征(如特征值:
”健身 电影 音乐”)适合使用多标签二值化,因为每个用户可以同时存在多种兴趣爱好。...电影分类标签中(如:
[action, horror]和[romance, commedy])需要先进行多标签二值化,然后使用二值化后的值作为训练数据的标签值。