我正在对一个320k行、30列的数据集进行EDA。 我想要显示变量的分布,所以我尝试了一些基本的东西,比如 ` for col in df.select_dtypes("object"): df[col].value_counts().plot.pie(autopct='%1.1f%%')
plt.show() ` 我的jupyter手机已经运行了10分钟了…30万是不是“太多了”?使用GPU会有什么帮助吗?我注意到Colab的速度也很慢... 我也尝试了sns.pairplot(df),但在20分钟后取消了.
我使用高斯混合模型(GMM)作为密度估计,使用Python:中的这个实现。通过使用AIC/BIC准则,我可以确定元件的数量。在对GMM进行拟合后,给出了原始观测的核密度估计和从GMM提取的采样数据的核密度估计。原始的和抽样的卑劣的情节是安静的相似的(那是好的)。但是,我想要一些指标来报告有多好的拟合模型。model
samples= clf.sample(10000)[0] # generate sample data points (same # as original data point