例如,我有一个有1000行和10个变量的数据集:现在,假设我要计算前4个变量之间的相关性.我该怎么做呢?
import pandas as pd
df = pd.read_csv('random_data.csv')
df.corr()[0:4]
这段代码计算了前4个变量与数据集中的所有变量之间的相关性。我如何调整它使它成为一个4x4相关矩阵,而不是一个4x10相关矩阵?有什么帮助吗谢谢!
发布于 2022-11-22 13:10:43
为此,您需要使用仅包含所需列的dataframe的子集。
df[['col1', 'col2', 'col3', 'col4']].corr()
或
选择前4列的df.iloc[:, :4].corr()
https://stackoverflow.com/questions/74538936
复制