我正在使用来清理工作表(.csv)中的一些地址。如何在列中聚类精确匹配?看来,聚类算法将对几乎相似的地址进行聚类,这些地址仅在数目上有所不同。例如:
56, LORONG RENGAS, SELANGOR
76, LORONG RENGAS, SELANGOR
90, LORONG RENGAS, SELANGOR
76, lorong rengas, selangor
56, LORONG RENGAS, SELANGOR
如何使用OpenRefine根据完全匹配对这些地址进行聚类?问这个问题听起来很傻,但这件事让我失去了理智。
谢谢
我正在寻找一种算法,它能够对具有几乎相同内容的字符串列表进行分组。
这是列表的一个例子。总共有五个不同的词。
A = ['first', 'second', 'third']
B = ['first', 'forth']
C = ['second', 'third']
D = ['first', 'third']
E = ['first', 'fifth']
F = ['fourth', 'fif
我已经在python lib NetorwkX中创建了一个图,我想实现一个模块化算法,以便对我的图的节点进行聚类。我遇到了以下代码:
import community
import matplotlib.pyplot as plt
import networkx as nx
G = nx.Graph()
G = nx.read_weighted_edgelist('graphs/fashionGraph_1.edgelist')
nx.transitivity(G)
# Find modularity
part = community.best_partition(G)