稀疏性统计的3个优势

文章来源：企鹅号 - 大快搜索

如今，人们在科学、娱乐、商业和工业各领域收集和挖掘大量数据，并对其进行研究和应用。医学家们通过研究患者的基因组选择最佳的治疗方法，并由此了解这些疾病产生的根本原因。在线电影和网上书店会研究客户的评价，以便向他们推荐新的电影或书籍。社交网络会研究其会员及好友的资料，优化在线体验。而且，现在多数大联盟棒球队都有统计员收集和分析击球手和投手的详细信息，帮助球队经理和队员做出更好的决策。

由此可知，这个世界淹没在了数据中。而 Rutherford D. Roger 等人则说： “我们淹没在了信息的海洋里，却渴求着知识。” 海量信息亟待整理，取其精华去其糟粕。为了成功完成这项工作，人们期望真实情况得以简化：也许人体内大约 30 000 个基因并非都与癌症的发展过程直接相关；也许只需要客户对 50 或 100 部电影做出评价就足以揭示他们的爱好；也许左撇子投手对付左撇子击球手会比较轻松。

这些情形背后都有简单性假设。稀疏性（sparsity）是简单性的一种形式，这也是本书的中心主题。简而言之，在一个稀疏统计模型中，仅有较少参数（也称预测子，predictor）在发挥重要作用。本书将介绍如何利用稀疏性来恢复一组数据中的基础信号。

最典型的例子是线性回归，即有 N 组观测值，每组观测值由一个输出变量 yi和 p 个相关预测子变量（也称特征）xi= (xi1, . . . , xip)T 所组成。线性回归的目标是通过预测子来预测输出值，既要正确预测将来的数据，又要找出哪些预测子在起重要作用。一个线性回归模型可设为：

其中，β0和 β =（β1, β2, . . . , βp）是未知参数，ei为误差项。这些参数可用最小二乘法来估计，即最小化最小二乘目标函数：

通常，式（1.2）的所有最小二乘估计都不为零。若 p 很大，则最终模型会变得难以解释。事实上，若 p > N ，最小二乘估计的结果并不唯一，有无穷多个解可使目标函数为零，而且大多数解都会过拟和（overfit）数据。

因此，这个估计过程需要进行约束（即正则化）。可采用 lasso（即 f1正则化）回归，通过求解问题

来估计参数，其中，范数，t 是用户指定的参数。可将t 看作参数向量的范数的预估值（budget），lasso 就在该预估值下寻找最好的拟和。

为什么要采用范数，而不采用范数或范数呢？这是因为 f1 范数很特别。如果预估值 t 足够小，lasso 会产生稀疏的解向量，即解向量仅有一些坐标不为零。若采用范数（其中 q > 1），则不会出现这种情况。对于 q

因此，稀疏性的优势在于它可以解释拟和的模型，并且计算简单。除此以外，最近几年人们对该领域进行了深入的数学分析，发现稀疏性还有第三个优势，这个优势称为押注稀疏性（bet on sparsity）原理：既然无法有效处理稠密问题，倒不如在稀疏问题上寻找有效的处理方法。

具有稀疏性的统计学习

我们可从每个参数的信息量 N/p 来研究稀疏统计学习。如果 p 》 N 且真实模型不稀疏，则样本数 N 太小，无法精确估计参数。若真实模型是稀疏的，也就是说真实模型仅含有 k

这会对 15 个类中的每一个生成 4718 个权重（或系数），以便在测试时进行区分。由于采用了 f1 惩罚，这些权重仅有一部分不为零（这取决于正则化参数的选取）。可通过交叉验证（cross-validated）来估计最优的正则化参数，图 1-1 显示了由此所得的权重。图中仅有 254 个基因有非零的权重。对该分类器进行的交叉验证，所得误差率约为 10％。也就是说，它能正确预测 90％的样本类别。相比之下，使用所有特征的标准支持向量机误差率（13％）稍高一些。lasso 所具有的稀疏性会在不牺牲精度的情况下大幅减少特征数量。稀疏性也提高了计算效率：虽然可能要估计 4178 × 15 ≈ 70 000 个参数，但图 1-1 的整个计算在一个普通笔记本上不到一分钟就可完成。第 3 章和第 5 章所介绍的 glmnet 程序包可以完成相关计算。

图 1-2 展示了另一个例子（Cand`es and Wakin 2008），属于压缩感知（compressed sensing）领域。图 1-2a 是一幅具有上百万像素的图像。为了节省存储空间，图像可用小波基（wavelet basis）来表示，见图 1-2b。将最大的 25 000 个系数保留下来，其余的全部置为零，图 1-2c 是基于这些系数重构的图像，效果非常不错。这一切都归功于稀疏性：虽然图像看似复杂，但只有相对较少的小波基系数不为零。仅用 96 000 个不相关度量（incoherent measurement），原图像就可被完全恢复。

发表于: 2018-10-262018-10-26 18:04:17
原文链接：https://kuaibao.qq.com/s/20181026B1LF5W00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

稀疏性统计的3个优势

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐