如果看了今天的第一篇文章会知道其中我对店铺评论标签进行了总结,不过在数据处理的时候有一个小问题。因为我是一个店铺一个店铺采集的数据,每一个店铺都有一堆标签和数量?
所以采集完几百个店铺之后这些标签一定会有重复数据
那么接下来问题就来了,在Pandas中的去重函数.drop_duplicates只有保留第一个或者最后一个的选项,我该怎样写代码才能在去重的同时完成对重复的值进行标签求和?
下面是我的去重结果(一行代码),可以看到6000多行数据在去重求和完之后只剩下80多行
所以检验Pandas120题做的怎样的时候到了,公众号后台回复火锅获取该数据,完成之后在公众号后台给我留言相关代码,第一个提供有效代码与实现代码最简洁的用户将各获赠Python或统计学相关热门图书一本!
注1:一切借助其他软件、手动计算、第三方Python库的回答都是耍流氓!!
注2:我的测试方法为启动jupyter notebook并执行下面两行命令,之后粘贴你提交的命令,所以你无需给我提供导入读取等相关代码,仅需提供如何对df进行操作即可,也无需打印,我会自己check!
import pandas as pd
df = pd.read_excel('原始标签.xlsx')