3 分箱方法
有监督分箱
卡方分箱
自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。...无监督分箱
等距分箱
从最小值到最大值之间,均分为 N 等份, 这样, 如果 A,B 为最小最大值, 则每个区间的长度为 W=(B−A)/N , 则区间边界值为A+W,A+2W,….A+(N−1)W...,使得每个区间包含大致相等的实例数量。...reference:https://blog.csdn.net/Pylady/article/details/78882220
4 pandas实现数据分箱
首先创建一个长度为20的,范围在30-100...Computing with Python: Binning Data with Python and with Pandas
binning data in python with scipy/numpy