我正在对一个包含大约18个不同类型值的分类列进行一次热编码。我只想为那些值创建新列,这些值显示的值超过某个阈值(假设为1%),并创建另一个名为other values的列,该列的值为1如果值不是那些频繁的值。
我在用Pandas和Sci-kit学习。我已经探索过熊猫get_dummies和sci的one hot encoder,但是我想不出如何将不那么频繁的值绑定到一个列中。
我有一个数据集,其中有一列包含个人的姓名。我正在尝试创建一些基于每个名称是否包含特定字符串的虚拟变量。我有这些字符串的列表,并将names列提取为pandas序列。我正在尝试以下代码,但无法使for循环工作。有没有人能帮我指出我正在犯的错误?import pandas as pdnames = ds['name']
list = [