表格数据的特征工程本是一个模块化过程,目标是对数据集进行编码以获得更好的模型精度。
表格数据的特征工程本是一个模块化过程,目标是对数据集进行编码以获得更好的模型精度。
如果想要充分提取表格数据的特征,可以顺序执行技术:
转换是指任何仅使用一个特征作为输入来生成新特征的方法。转换可以应用于横截面和时间序列数据。一些转换方法仅适用于时间序列数据(如平滑、过滤),但也有少数方法适用于两种类型的数据。
缩放会应用于整个数据集,对于某些算法尤其必要。K均值利用欧几里得距离,因此需要缩放。对于PCA,因为我们试图识别具有最大方差的特征,所以也需要缩放。
缩放方法包括:
当属性本身服从高斯分布时,通常模型更有效。此外如果使用的模型假设为高斯分布时,例如线性回归、逻辑回归和线性判别分析,标准化也是必要的。
标准话方法包括:
封顶是指对特征值设置一个下限和一个上限的任何方法。可以通过使用平均值、最大值和最小值,或任意极端值来对值进行封顶。
变换被视为传统转换的一种形式。它是将一个变量替换为该变量的函数。在更强的意义上,转换是一种改变分布或关系形状的替换。
差分是指计算连续观测值之间的差异,通常用于获取平稳的时间序列。通过计算连续观测值之间的差异,可以将非平稳的时间序列转换为平稳的时间序列。平稳的时间序列更容易建立模型和进行预测分析。
平滑的主要目的是消除数据中的噪声或波动,从而使数据更易于分析和解释。例如简单移动平均和单、双和三重指数平滑方法。
分解时间序列是一种常见的统计方法,旨在将时间序列数据拆分为趋势、季节性和残差(随机性)等组成部分,以便更好地理解和分析数据的特征。
滚动计算是指基于固定窗口大小的滚动基础上计算的特征。
滞后值是指基于现有特征的延迟值。
特征交互是使用多于一个特征来创建额外特征的方法。交互作用方法的一个例子是将两个特征相乘,以创建一个新的特征,表示这两个特征之间的相互影响。
在特征之间进行交互操作的一种常见方法是使用乘法、除法、加法和减法。
分组聚合是指根据某些特征将数据分组,然后在每个组内对数据进行聚合操作,以生成新的特征。
在决策树离散化中,决策树被用来找到最佳的分割点,以将连续的特征值划分为不同的离散区间。
映射方法是一种将特征进行重新映射以达到某种目的的技术。这些目的可能包括最大化变异性、增加类别可分性等。映射方法通常是无监督的,但也可以采用监督形式。
PCA通过线性变换将原始数据转换为一组线性无关的变量,称为主成分。PCA的目标是找到能够最大化数据方差的投影方向,从而实现数据的降维。
主成分通常是原始特征的线性组合,每个主成分都是彼此正交的,并且它们的方差逐渐减小。PCA可用于去除数据中的冗余信息,并减少特征的数量,同时保留最重要的信息。
CCA是一种多变量数据分析方法,用于探索两个数据集之间的线性关系。它通过分析两个数据集之间的相关性,找到它们之间最大化的相关性模式。
CCA 的目标是找到一组线性变换,使得在新的特征空间中,两个数据集之间的相关性达到最大。
自编码器是一种人工神经网络,用于以无监督的方式学习数据的高效编码。自编码器的目标是通过训练网络忽略噪声,学习一组数据的表示(编码),通常用于降低数据的维度。
自编码器可以学习数据的紧凑表示,从而在保留重要特征的同时,去除数据中的噪声和冗余信息。
流形学习能够有效地处理非线性结构的数据,并且相对于某些其他降维方法,它能更好地保持数据的局部结构和流形特征。
Feature Agglomeration 可以将数据中高度相关的特征合并成一个新的特征或特征组,从而降低数据的维度。
邻近点方法是一种基于距离度量的机器学习方法,它利用距离度量(如汉明距离、曼哈顿距离、闵可夫斯基距离等)来寻找与新数据点最接近的预定义数量的训练样本,并根据这些样本来编码当前样本。
特征提取阶段涉及从时间序列数据中提取有意义的特征或特性。这些特征可以捕获数据中的重要模式、趋势或信息,然后可以用于建模或分析目的。
绝对能量:衡量时间序列数据的总体能量。 CID特征:用于计算时间序列的复杂度。 平均绝对变化:时间序列数据的平均绝对变化量。 平均二阶中心导数:时间序列的平均二阶导数。 方差大于标准差的值:检查时间序列数据中方差是否大于标准差。 方差指数:衡量时间序列数据中的方差指数。 对称性检查:检查时间序列数据的对称性。 是否存在重复的最大值:检查时间序列数据中是否存在重复的最大值。 局部自相关:计算时间序列数据的局部自相关性。 增广迪基-富勒检验:用于检验时间序列数据的平稳性。 斜度峰度:衡量时间序列数据的斜度和峰度。 斯泰特森均值:计算时间序列数据的斯泰特森均值。 长度:时间序列数据的长度。 高于平均值的计数:统计时间序列数据中高于平均值的数量。 低于平均值的最长连续段:计算时间序列数据中低于平均值的最长连续段。 Wozniak特征:一种特征提取方法。 最大值的最后位置:时间序列数据中最大值的最后出现位置。 傅立叶变换系数:对时间序列数据进行傅立叶变换,获取其频谱特征。