Hello,大家好!我是MPIG2018级研究生陈守钊。在FP-growth算法讲解中,我相信前面我们的两个同学已经给大家带来了详细的讲解与说明,今天我给大家讲解的就是对FP-growth算法的具体应用框架与应用拓展。
我们知道,FP-growth算法能快速的找到频繁项集,FP-growth算法只需要对数据库进行两次扫描,而Apriori算法在求每个潜在的频繁项集时都需要扫描一次数据集,所以说Apriori算法是高效的。而如今对于大数据的处理,上百万条的信息都是一个很小的数量级,这时候算法效率就会对数据处理产生很大的影响。
今天我讲解的例子是具有百万数量级的一个数据集,利用FP-growth算法对频繁项集的查找过程。
从新闻网站点击流中挖掘
源数据集合中,它包含近100万条记录。该数据集合中的每一行包含某个用户浏览过的新闻报道。一些用户只看过一片报道,而有一些用户看过2498篇报道。用户和报道被编码成整数,所以查看频繁项集很难得到更多的东西,但是该数据对于展示FP-growth算法的速度十分有效。
首先,将数据集导入到列表
对初始集合格式化
构建FP树,并从中寻找至少被10万人浏览过的新闻报道
这是根据条件的得到的FP树
频繁项集的可视化
最后得到的所有频繁项集
对于处理好的数据集来说,FP-growth算法的处理流程并不是很复杂,对于很多算法来说,数据的输入与输出利用函数的调用就可以解决了,而对于算法的处理结果我们如何去运用到实际生活中,需要我们进行更深层次的挖掘。
生活中我们对于FP-growth算法的运用可以运用到很多的方面,下面是对于FP-growth算法的一些应用领域进行举例,具体的代码不进行分析。
FP-growth算法的其他运用场景
想要更加详细了解本讲更多细节的内容吗?那就一起来观看下面的Presentation的具体讲解吧:
领取专属 10元无门槛券
私享最新 技术干货