我正在一个酒店预订数据集上执行EDA。目标是明确说明某一客户是否会取消预订。数据集有25个特征,30244个条目。
我有两个特点,说明成年人的数量和与预订者一起出生的婴儿的数量。
当我检查数据集的偏度时,成人数和婴儿列数的偏斜度> 0.75 (我打算将日志转换应用到具有偏斜度的列中,以使它们的分布正常化)
由于这两列只包含整数值,所以我不确定是否应用转换,因为转换将给这些列提供浮动值。
我应该应用这个转换吗?斜1.710768 1.407404 0.858807
发布于 2021-09-06 14:23:55
不-不对整数特性应用日志转换。
特性的分布(包括您所称的偏度)将帮助模型学习哪些特性组合可以预测目标。
建立数据模型的一种方法是条件概率。考虑到一定数量的成人和婴儿,取消预订的可能性有多大?变换特征会扭曲条件概率的计算。
https://datascience.stackexchange.com/questions/96825
复制相似问题