我正在努力寻找规范化我的数据集的方法(表示为一个矩阵,以文档为行,以列为特征),我遇到了一种称为特征缩放的技术。我在维基百科上找到了一篇关于它的文章here。
列出的方法之一是标准化,它说“特征标准化使数据中每个特征的值具有零均值和单位方差。”这是什么意思(没有双关语的意思)?
在这种方法中,“我们从每个特征中减去平均值,然后将每个特征的值(均值已经减去)除以它的标准差。”当他们说“减去均值”时,它是整个矩阵的均值还是与该特征相关的列的均值?
此外,如果应用此特征缩放方法,在对数据执行主成分分析(PCA)时,是否不必从列中减去平均值?
发布于 2018-03-23 23:45:25
基本思想是对数据集进行简单(且可逆)的转换,以使其更易于处理。您从每一列中减去一个常量,然后将每一列除以一个(不同的)常量。这些常量是特定于列的。
当他们说“减去平均值”时,它是整个矩阵的平均值还是与该特征相关的列的平均值?
与该特征相关的列的平均值。
...does在对数据进行主成分分析(PCA)时,是否必须从列中减去平均值?
对,是这样。PCA需要均值为零的数据。通常,这是通过减去平均值作为第一步来强制执行的。如果平均值已被减去,则不需要该步骤。但是,执行两次“减去平均值”操作并没有什么坏处。因为第二次均值将为零,所以什么都不会改变。从形式上讲,我们可以说标准化是幂等的。
发布于 2014-07-14 13:01:59
从这篇文章来看,我的理解是你会减去该特征的平均值。这将为您提供描述相同数据布局但已标准化的功能的一组数据。
假设您为一个新功能添加了数据。您可能希望原始功能的数据保持不变,并且不受新功能的影响。
我猜如果你减去整个数据集的平均值,你仍然会得到一个“标准化”的值范围,但那将是不同的-你可能更感兴趣的是单个特征的数据是如何围绕它的平均值的。
你也可以在math.stackexchange.com上看看(或提问)。
https://stackoverflow.com/questions/24729447
复制相似问题