300字范文 > 【机器学习】一文读懂正则化与LASSO回归 Ridge回归

【机器学习】一文读懂正则化与LASSO回归 Ridge回归

时间：2018-09-20 20:20:19

该文已经收录到专题机器学习进阶之路当中，欢迎大家关注。

1.过拟合

当样本特征很多，样本数相对较少时，模型容易陷入过拟合。为了缓解过拟合问题，有两种方法：

方法一：减少特征数量（人工选择重要特征来保留，会丢弃部分信息）。

方法二：正则化（减少特征参数的数量级）。

2.正则化（Regularization）

正则化是结构风险（损失函数+正则化项）最小化策略的体现，是在经验风险（平均损失函数）上加一个正则化项。正则化的作用就是选择经验风险和模型复杂度同时较小的模型。

防止过拟合的原理：正则化项一般是模型复杂度的单调递增函数，而经验风险负责最小化误差，使模型偏差尽可能小经验风险越小，模型越复杂，正则化项的值越大。要使正则化项也很小，那么模型复杂程度受到限制，因此就能有效地防止过拟合。

3.线性回归正则化

正则化一般具有如下形式的优化目标：

（1）

其中，是用来平衡正则化项和经验风险的系数。

正则化项可以是模型参数向量的范数，经常用的有范数，范数（范数：，范数:) 。

我们考虑最简单的线性回归模型。

给定数据集，其中，，。

代价函数为：（2）

（1）范数正则化（Ridge Regression，岭回归）

代价函数为：

（3）

（2）范数正则化（LASSO，Least Absoulute Shrinkage and Selection Operator，最小绝对收缩选择算子）

代价函数为：

（4）

（3）正则项正则项结合（Elastic Net）

代价函数为：

（5）

其中，范数正则化、范数正则化都有助于降低过拟合风险，范数通过对参数向量各元素平方和求平方根，使得范数最小，从而使得参数的各个元素接近0 ，但不等于0。而范数正则化比范数更易获得“稀疏”解，即范数正则化求得的会有更少的非零分量，所以范数可用于特征选择，而范数在参数规则化时经常用到（事实上，范数得到的“稀疏”解最多，但范数是中非零元素的个数，不连续，难以优化求解。因此常用范数来近似代替）。

为什么正则化更易获得“稀疏”解呢？

假设仅有两个属性，只有两个参数，绘制不带正则项的目标函数-平方误差项等值线，再绘制，范数等值线，如图1正则化后优化目标的解要在平方误差项和正则化项之间折中，即出现在图中等值线相交处采用。范数时，交点常出现在坐标轴上，即或为0;而采用范数时，交点常出现在某个象限中，即，均非0。也就是说，范数比范数更易获得“稀疏”解。