我正在对一个包含大约18个不同类型值的分类列进行一次热编码。我只想为那些值创建新列,这些值显示的值超过某个阈值(假设为1%),并创建另一个名为other values的列,该列的值为1如果值不是那些频繁的值。
我在用Pandas和Sci-kit学习。我已经探索过熊猫get_dummies和sci的one hot encoder,但是我想不出如何将不那么频繁的值绑定到一个列中。
我也是第一次在stack over flow上发帖,所以任何关于如何在其中显示表格的技巧都会受到欢迎。
无论如何,我有两列D和J,如下面前面区域中所示。我想创建一个新表,如下面的after区域所示,在该区域中,我从J列中的唯一值创建列,并在每一行中添加1,以指示该记录具有唯一值。有人推荐了熊猫图书馆的get_dummies。