我在一个项目中工作,其中输入文件被提供给,它被要求首先输出最小支持0.01的所有长度的频繁类别。然后是所有的频繁类别集。
目标是在文件中写入以下具有绝对支持(计数)的数据,例如:
2851:快餐;餐馆
我以列表的形式检索所有数据
data = []
with open("categories.txt") as file:
for line in file:
line = line.replace("\n", "")
line = line.split(";")
data.append(line)
我的问题是
我想使用Apriori对交易数据进行亲和力分析。我有一个表,其中包含订单及其信息的列表。我主要需要使用OrderID和ProductID属性,它们的格式如下
OrderID ProductID
1个A
1 B
1 C
2 A
2 C
3 A
Weka要求您为每个产品ID创建一个名义属性,并使用如下所示的true或false值指定该项目是否出现在订单中:
1,TRUE,TRUE,TRUE
2,TRUE,FALSE,TRUE
3,真,假,假
我的数据集包含大约10k条记录...大约3k种不同的产品。有没有人能建议一种以这种格式创建数据集的方法?(除了手动耗时的方式...)
我面临着一个关于序列挖掘的棘手问题,比如我有10种产品,我有数百万条记录,每条记录都包含用户、产品和购买时间戳。每个用户可能只有1条记录或100条记录。例如:
user 1, p1, t1
user 1, p1, t2
user 1, p2, t3
user 1, p3, t4
user 1, p1, t5
user 2, p2, t6.....
现在我需要预测什么时候是为用户推广产品的最佳时机。
到目前为止,我的解决方案是,将时间分成几个类别。然后对数据应用Apriori,例如记录将如下所示
user 1, p1T1
user 1, p2T2
user 1, p3T2
user 1, p2T
我最近学习了Cooley算法。我想对这个算法有更深入的了解,因此决定编写我自己的(非递归的)实现。但是我不能让它起作用。我已经搞了几天了,但结果还是不太好。
输出将DFT分为偶数和奇数DFT,并递归地执行此操作,直到DFT只包含一个数据点。
我把从地面到地面的N个DFT和旋转因子结合起来,每一个频率都可以得到完整的DFT。
import math
import matplotlib.pyplot as plt
#Using numpy to work with complex numbers
import numpy as np
def twiddle(k,bits):
#Gene
我读了一些关于关联规则挖掘( Association )的文章,碰到了一个Kaggle数据集,其中一个竞争对手应用了张的规则。我想知道它是什么。我试着在网上寻找它,大部分的点击都围绕着某个中国皇帝的名字,这个名字统治着中国。而其他的事情则与此无关。如果你有什么可以分享的,比如它的意义,那就太棒了。
这里也没有以“吧”开头的标签。
我正试图想出一个算法,在同一个句子中为产品找到最常用的前三名形容词。我想使用关联规则挖掘(Apriori算法)。
为此,我计划使用twitter数据。我可以或多或少地把抽搐分解成句子,然后通过过滤,我可以找到产品名称和形容词。
例如,在过滤后,我有类似的数据;
迷你ipad,太棒了
ipad迷你,太可怕了
三星星系s2,最佳
..。等。
产品名称和形容词以前都有定义。因此,我有一套产品名称和一组形容词,我正在寻找。
我读过几篇关于情感分析和规则挖掘的论文,他们都说Apriori算法是使用的。但是他们没有说他们是如何使用它的,他们也没有给出细节。
Therefore how can I redu
我想使用数据挖掘/机器学习来解决一个问题,但我不确定是否有一个标准的算法来解决我的问题。
问题如下:有一组事件和一组潜在的触发器。每个触发器都可能导致零、一个或多个事件。我想根据它们的特性将潜在的触发器分类为不引起任何事件的触发器和不引起任何事件的触发器。到目前为止,这是一个标准的分类任务。现在出现了一个转折:对于某些事件,有多个潜在的触发因素。这通常意味着其中一个是真正的触发器,而另一个则是不小心被标记的。如果该算法生成一个规则(假设当前规则学习)覆盖事件的一个潜在触发器,则应将此事件视为“解释”,以便该事件的其他潜在触发器不必再被归类为该事件的触发器。
问题中的扭曲闻起来有点像set co