在上一篇案例中我们通过一个产品一个产品对应计算出产品的亲和性九道门丨关联分析案例(一):揭开产品之间的“亲密”关系,今天就再教大家一个非常直接的计算方法——itertools库,这个库是python的内置模块,主要是用来操作迭代器,包含的函数都可以用来创建迭代器并用于for循环或者next()。
我们先将数据集转换成DataFrame的格式方便后期使用。
经过迭代器的计算,可以将这种组合全部取出,再通过验证计算出置信度和支持度:
大家可以看到这种方法也是可以做到各个产品之间的亲和性分析,而且使用迭代器既可以减少内存的消耗同时也不用编写繁琐的规则。
那么在最后为了方便查看以及保存,我们可以将计算之后的亲和性结果转换成DataFrame的形式。
通过上面的结果,可以很清楚的看到置信度最高的产品是哪些,当然我们这是虚拟制作的数据,本身不具有现实意义,大家可以选择自己手头的真实数据,使用同样的办法看看产品之间存在哪些暂未得知的秘密。
在关联算法中常用的数据挖掘算法还包括Aprior算法,这个算法会直接返回每一种频繁项集与之对应的置信度和支持度,感兴趣的同学也可以试用Aprior算法计算。
领取专属 10元无门槛券
私享最新 技术干货