首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据的消减“策略”(二)

上篇文章中,企通查为大家介绍了数据立方合计和维度消减两种数据消减的“策略”,今天将为大家介绍另外两种:数据压缩和数据块消减。

数据压缩:

数据压缩是指在不丢失有用信息的前提下,缩减数据量以减少存储空间,提高其传输、存储和处理效率,或按照一定的算法对数据进行重新组织,减少数据冗余和存储空间的一种技术方法。

简单地说,数据压缩就是利用数据编码或数据转换将原来的数据集合压缩为一个较小规模的数据集合。

根据压缩后的数据集是否可以恢复为原来的数据集,可将数据压缩分为有损压缩和无损压缩两种。无损压缩算法通常利用了统计冗余,这样就能更简练完整地表示发送方的数据;如果能够允许一定程度上的保真度损失,那么还可以实现进一步的压缩,即有损压缩算法。

在数据挖掘领域最常使用的两种数据压缩方法——离散小波转换和主要素分析均属于有损压缩。

1.离散小波变换

离散小波变换是一种线性信号处理技术,顾名思义就是离散的输入以及离散的输出,在数值分析和时频分析中很有用。

离散小波变换可以将一个数据向量转换为另一个数据向量(为小波相关系数),且两个向量具有相同长度,这一方法可以在保留数据主要特征的情况下除去数据中的噪声,因此该方法可以有效地进行数据清洗。

此外,在给定一组小波相关系数的情况下,利用离散小波变换的逆运算还可以近似恢复原来的数据。

2.主要素分析

主要素分析是一种进行数据压缩常用的方法。

假设需要压缩的数据由 N 个数据行(向量)组成,共有 k 个维度(属性或特征)。该方法是从 k 个维度中寻找出 c 个共轭向量(c

主要素分析方法的计算量不大且可以用于取值有序或无序的属性,同时也能处理稀疏或异常数据。该方法还可以将多于两维的数据通过处理降为两维数据。与离散小波变换方法相比,主要素分析方法能较好地处理稀疏数据,而离散小波变换则更适合对高维数据进行处理变换。

数据块消减:

谈数据块消减之前需要先为大家介绍一下什么是数据块。数据块通常是指一组或几组按顺序连续排列在一起的记录,是主存储器与输入设备、输出设备或外存储器之间进行传输的数据单位。

数据块是物理记录,通常与数据的逻辑记录间有3种对应方式:1)一个块即为一个记录;2)一个块包含若干个逻辑记录;3)一个逻辑记录占用几个块。

数据块消减方法主要包括参数与非参数两种基本方法。

所谓参数方法就是利用一个模型来帮助获得原来的数据,因此只需要存储模型的参数即可(例如线性回归模型就可以根据一组变量预测计算另一个变量)。

而非参数方法则是存储利用直方图、聚类或取样而获得的消减后数据集。

主要的数据库消减方法有回归与线性对数模型、聚类、采样等。

1. 回归与线性对数模型

回归与线性对数模型可用于拟合所给定的数据集。

线性回归方法可以基于一个或多个自变量,利用一条直线模型对数据进行拟合。线性对数模型则是拟合多维离散概率分布的。

回归与线性对数模型均可用于稀疏数据及异常数据的处理,但回归模型对异常数据的处理结果要更好一些。应用回归方法处理高维数据时计算复杂度较大,而线性对数模型则具有较好的可扩展性。

2.聚类

聚类技术将数据行视为对象。

聚类分析所获得的组或类具有“同一组或类中的对象彼此相似,而不同组或类中的对象彼此不相似”的性质。

相似性通常利用多维空间中的距离来表示。一个组或类的“质量”可以用其所含对象间的最大距离(称为半径)来衡量,也可以用中心距离,即组或类中各对象与中心点距离的平均值,来作为组或类的“质量”。

在数据消减中,数据的聚类表示可用于替换原来的数据。当然这一技术的有效性依赖于实际数据的内在规律。在处理带有较强噪声数据时采用数据聚类方法常常是非常有效的。

3.采样

采样方法由于可以利用一小部分数据(子集)来代表一个大数据集,因此可以作为数据消减的技术方法之一。

假设一个大数据集为 D,其中包括 N 个数据行。几种主要的采样方法如下:

1)无替换简单随机采样方法(简称 SRSWOR 方法)

该方法从 N 个数据行中随机(每一数据行被选中的概率为 1/N)抽取出 n 个数据行,以构成由 n 个数据行组成的采样数据子集,

2)有替换简单随机采样方法(简称 SRSWR 方法)

该方法也是从 N 个数据行中每次随机抽取一个数据行,但该数据行被选中后仍将留在大数据集 D 中,最后获得的由 n 个数据行组成的采样数据子集中可能会出现相同的数据行。

3)聚类采样方法

该方法首先将大数据集 D 划分为 M 个不相交的类,然后再分别从这 M 个类的数据对象中进行随机抽取,这样就可以最终获得聚类采样数据子集。

4)分层采样方法

该方法首先将大数据集划分为若干不相交的层,然后再分别从这些层中随机抽取数据对象,从而获得具有代表性的采样数据子集。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201216A0EDFJ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券