我有一个非常大的数据集,我需要用于分类目的。但是当我尝试在MatLab中使用它时,我会得到和out of memory错误。为了解决这个问题,我试着研究PCA,因为这是针对这些问题的预期解决方案。
因此,为了更好地理解PCA,并确保我可以将PCA产生的结果与原始数据互换使用,我想从PCA分数和系数中复制原始数据集。
我使用以下代码获取PCA分数和系数,然后将其更改为原始数据集。
%all_feats is the original dataset of size 128 x 19882
[n m] = size(double(all_feats));
Amean = mean(double(a
我觉得这必须在其他地方问,但我找不到正确的搜索词来找到答案。如果这是副本,请在其他地方指出正确的答案。
像Facebook,Twitter,Tumblr这样的服务,我相信还有一大堆其他的服务可以让你关注其他用户。然后,他们的帖子会出现在墙上或仪表板上。我想知道,有了这么大的数据集,这些服务怎么能这么快地拉取帖子。我假设他们不是在使用SQL服务器,也不是在做以下事情:
SELECT * FROM `posts` WHERE `poster_id` IN ( super long list of users being followed ) ORDER BY `date` LIMIT 10;
因为