首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如果我想降低该列的偏斜性,我是否应该对带有整数的列应用转换?

如果我想降低该列的偏斜性,我是否应该对带有整数的列应用转换?
EN

Data Science用户
提问于 2021-06-18 18:23:39
回答 1查看 21关注 0票数 1

我正在一个酒店预订数据集上执行EDA。目标是明确说明某一客户是否会取消预订。数据集有25个特征,30244个条目。

我有两个特点,说明成年人的数量和与预订者一起出生的婴儿的数量。

  • 成人的数量可以是1,2,3,4或5。(数据集描述中特别给出的范围)
  • 火车组的婴儿数取0、1或2(但在数据集描述中未指定范围)

当我检查数据集的偏度时,成人数和婴儿列数的偏斜度> 0.75 (我打算将日志转换应用到具有偏斜度的列中,以使它们的分布正常化)

由于这两列只包含整数值,所以我不确定是否应用转换,因为转换将给这些列提供浮动值。

我应该应用这个转换吗?斜1.710768 1.407404 0.858807

EN

回答 1

Data Science用户

发布于 2021-09-06 14:23:55

不-不对整数特性应用日志转换。

特性的分布(包括您所称的偏度)将帮助模型学习哪些特性组合可以预测目标。

建立数据模型的一种方法是条件概率。考虑到一定数量的成人和婴儿,取消预订的可能性有多大?变换特征会扭曲条件概率的计算。

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/96825

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档