Large scale machine learning ways
main question: how to efficiently train (build model and find model parameters)?
通常,有两种发现问题:
当数据量大到一定程度时,不可能分别比较每个点与query点得距离,这样的话所用的时间是线性的,不适合解决大规模的问题。 这个时候,使用LSH(local sensitive hashing),可以缩减问题的规模,使得所用的时间是constant的。