我对一个非常大的数据集有一个问题(谁不呢?)它存储在块中,因此各块之间的差异很小(例如,这些块具有一定的代表性)。我想用算法来进行异步分类,但我想自己编写代码。
示例代码如下所示
start a master
distribute 10 chunks on 10 slaves
while some criterion is not met
for each s in slave:
classify the data inexactly using some kind of iterative algorithm and return to master
master waits fo