但从最优化问题解的平滑性来看, L1范数的最优解相对于L2范数要少, 但其往往是最优解, 而L2的解很多, 但更多的倾向于某种局部最优解....L0范数本身是特征选择的最直接最理想的方案, 但如前所述, 其不可分, 且很难优化, 因此实际应用中我们使用L1来得到L0的最优凸近似....L0-范数
image.png
向量中非零元素的个数
在 Sparse Coding 中, 通过最小化 L0 寻找最少最优的稀疏特征....但难以优化, 一般转化成 L1 L2
L1-范数
曼哈顿距离
image.png
如计算机视觉中对比两张图片的不同像素点之和
L2-范数
欧几里得距离
image.png
Lp-范数
image.png...$ 表示残差, 整个式子表示残差平方和, Residual Sum of Squares
指数损失函数
Exponential Loss
image.png
如 Adaboost, 它是前向分步加法算法的特例