压缩感知
第十一章 特征选择与稀疏学习
对于数据集中的一个对象及组成对象的零件元素:
统计学家常称它们为观测(observation)和变量(variable);数据库分析师则称其为记录(record...在机器学习中特征选择是一个重要的“数据预处理”(data preprocessing)过程,即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集,再利用数据子集来训练学习器;稀疏学习则是围绕着稀疏矩阵的优良性质...稀疏矩阵即矩阵的每一行/列中都包含了大量的零元素,且这些零元素没有出现在同一行/列(特征选择则考虑的是去除全为零的特征列),对于一个给定的稠密矩阵,若我们能通过某种方法找到其合适的稀疏表示(sparse...例如在文档分类任务中,通常将每个文档看作一个样本,每个字(词)作为一个特征,字(词)在文档中出现的频率或次数作为特征的取值;换言之,数据集
所对应的矩阵的每行是一个文档,每列是一个字(词),行、列交汇处就是某字...那么,这个矩阵有多少列呢?以汉语为例,《康熙字典》中有47035个汉字,这意味着该矩阵可有4万多列, 即便仅考虑《现代汉语常用字表》中的汉字,该矩阵也有3500列。