我有一个包含21个不同列的banking_dataframe,其中一个是目标,其中10个是数字特征,10个是分类特征。我已经使用pandas的get_dummies方法将分类数据转换为one-hot编码。返回的dataframe有74列。现在,我想将编码的数据帧与原始数据帧合并,这样我的最终数据就应该有一个分类列的热编码值,但数据帧的原始大小是21列。Pandas的 to get_dummies函数:
对分类要素调用get_d
我正在对一个包含大约18个不同类型值的分类列进行一次热编码。我只想为那些值创建新列,这些值显示的值超过某个阈值(假设为1%),并创建另一个名为other values的列,该列的值为1如果值不是那些频繁的值。
我在用Pandas和Sci-kit学习。我已经探索过熊猫get_dummies和sci的one hot encoder,但是我想不出如何将不那么频繁的值绑定到一个列中。