首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >在数据中有零是什么意思?

在数据中有零是什么意思?
EN

Stack Overflow用户
提问于 2014-07-14 12:15:57
回答 2查看 13.7K关注 0票数 1

我正在努力寻找规范化我的数据集的方法(表示为一个矩阵,以文档为行,以列为特征),我遇到了一种称为特征缩放的技术。我在维基百科上找到了一篇关于它的文章here

列出的方法之一是标准化,它说“特征标准化使数据中每个特征的值具有零均值和单位方差。”这是什么意思(没有双关语的意思)?

在这种方法中,“我们从每个特征中减去平均值,然后将每个特征的值(均值已经减去)除以它的标准差。”当他们说“减去均值”时,它是整个矩阵的均值还是与该特征相关的列的均值?

此外,如果应用此特征缩放方法,在对数据执行主成分分析(PCA)时,是否不必从列中减去平均值?

EN

回答 2

Stack Overflow用户

发布于 2018-03-23 23:45:25

基本思想是对数据集进行简单(且可逆)的转换,以使其更易于处理。您从每一列中减去一个常量,然后将每一列除以一个(不同的)常量。这些常量是特定于列的。

当他们说“减去平均值”时,它是整个矩阵的平均值还是与该特征相关的列的平均值?

与该特征相关的列的平均值。

...does在对数据进行主成分分析(PCA)时,是否必须从列中减去平均值?

对,是这样。PCA需要均值为零的数据。通常,这是通过减去平均值作为第一步来强制执行的。如果平均值已被减去,则不需要该步骤。但是,执行两次“减去平均值”操作并没有什么坏处。因为第二次均值将为零,所以什么都不会改变。从形式上讲,我们可以说标准化是幂等的。

票数 1
EN

Stack Overflow用户

发布于 2014-07-14 13:01:59

从这篇文章来看,我的理解是你会减去该特征的平均值。这将为您提供描述相同数据布局但已标准化的功能的一组数据。

假设您为一个新功能添加了数据。您可能希望原始功能的数据保持不变,并且不受新功能的影响。

我猜如果你减去整个数据集的平均值,你仍然会得到一个“标准化”的值范围,但那将是不同的-你可能更感兴趣的是单个特征的数据是如何围绕它的平均值的。

你也可以在math.stackexchange.com上看看(或提问)。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24729447

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档