如今,人们在科学、娱乐、商业和 工业各领域收集和挖掘大量数据,并对其进行研究和应用。医学家们通过研究患者 的基因组选择最佳的治疗方法,并由此了解这些疾病产生的根本原因。在线电影和 网上书店会研究客户的评价,以便向他们推荐新的电影或书籍。社交网络会研究其 会员及好友的资料,优化在线体验。而且,现在多数大联盟棒球队都有统计员收集 和分析击球手和投手的详细信息,帮助球队经理和队员做出更好的决策。
由此可知,这个世界淹没在了数据中。而 Rutherford D. Roger 等人则说: “我们淹没在了信息的海洋里,却渴求着知识。” 海量信息亟待整理,取其精华去其糟粕。为了成功完成这项工作,人们期望真实情况得以简化:也许人体内大约 30 000 个基因并非都与癌症的发展过程直接相关;也许只需要客户对 50 或 100 部电影做出评价就足以揭示他们的爱好;也许左 撇子投手对付左撇子击球手会比较轻松。
这些情形背后都有简单性假设。稀疏性(sparsity)是简单性的一种形式,这也 是本书的中心主题。简而言之,在一个稀疏统计模型中,仅有较少参数(也称预测 子,predictor)在发挥重要作用。本书将介绍如何利用稀疏性来恢复一组数据中的 基础信号。
最典型的例子是线性回归,即有 N 组观测值,每组观测值由一个输出变量 yi和 p 个相关预测子变量(也称特征)xi= (xi1, . . . , xip)T 所组成。线性回归的目标 是通过预测子来预测输出值,既要正确预测将来的数据,又要找出哪些预测子在起 重要作用。一个线性回归模型可设为:
其中,β0和 β =(β1, β2, . . . , βp)是未知参数,ei为误差项。这些参数可用最小二 乘法来估计,即最小化最小二乘目标函数:
通常,式(1.2)的所有最小二乘估计都不为零。若 p 很大,则最终模型会变得难以 解释。事实上,若 p > N ,最小二乘估计的结果并不唯一,有无穷多个解可使目标 函数为零,而且大多数解都会过拟和(overfit)数据。
因此,这个估计过程需要进行约束(即正则化)。可采用 lasso(即 f1正则化) 回归,通过求解问题
来估计参数,其中,范数,t 是用户指定的参数。可将t 看作参数向量的范数的预估值(budget),lasso 就在该预估值下寻找最好的拟和。
为什么要采用范数,而不采用范数或范数呢?这是因为 f1 范数很 特别。如果预估值 t 足够小,lasso 会产生稀疏的解向量,即解向量仅有一些坐标 不为零。若采用范数(其中 q > 1),则不会出现这种情况。对于 q
因此,稀疏性的优势在于它可以解释拟和的模型,并且计算简单。除此以外, 最近几年人们对该领域进行了深入的数学分析,发现稀疏性还有第三个优势,这个优势称为押注稀疏性(bet on sparsity)原理: 既然无法有效处理稠密问题, 倒不如在 稀 疏问题上寻找有效的处理方法。
具有稀疏性的统计学习
我们可从每个参数的信息量 N/p 来研究稀疏统计学习。如果 p 》 N 且真实模型不稀疏,则样本数 N 太小,无法精确估计参数。若真实模型是稀疏的,也就是说真实模型仅含有 k
这会对 15 个类中的每一个生成 4718 个权重(或系数),以便在 测试时进行区分。由于采用了 f1 惩罚,这些权重仅有一部分不为零(这取决于正则 化参数的选取)。可通过交叉验证(cross-validated)来估计最优的正则化参数,图 1-1 显示了由此所得的权重。图中仅有 254 个基因有非零的权重。对该分类器进行 的交叉验证,所得误差率约为 10%。也就是说,它能正确预测 90%的样本类别。相 比之下,使用所有特征的标准支持向量机误差率(13%)稍高一些。lasso 所具有的 稀疏性会在不牺牲精度的情况下大幅减少特征数量。稀疏性也提高了计算效率:虽 然可能要估计 4178 × 15 ≈ 70 000 个参数,但图 1-1 的整个计算在一个普通笔记本 上不到一分钟就可完成。第 3 章和第 5 章所介绍的 glmnet 程序包可以完成相关计 算。
图 1-2 展示了另一个例子(Cand`es and Wakin 2008),属于压缩感知(compressed sensing)领域。图 1-2a 是一幅具有上百万像素的图像。为了节省存储空间,图像 可用小波基(wavelet basis)来表示,见图 1-2b。将最大的 25 000 个系数保留下来, 其余的全部置为零,图 1-2c 是基于这些系数重构的图像,效果非常不错。这一切 都归功于稀疏性:虽然图像看似复杂,但只有相对较少的小波基系数不为零。仅用 96 000 个不相关度量(incoherent measurement),原图像就可被完全恢复。
领取专属 10元无门槛券
私享最新 技术干货