1. 岭回归2. lasso3. 偏差和方差
1. 岭回归
岭回归,又称脊回归、吉洪诺夫正则化(Tikhonov regularization),是对不适定问题(ill-posed problem)进行回归分析时最经常使用的一种正则化方法
适定问题是指定解满足下面三个要求的问题:① 解是存在的;② 解是唯一的;③ 解连续依赖于定解条件,即解是稳定的。这三个要求中,只要有一个不满足,则称之为不适定问题。
岭回归是对最小二乘估计的一个补充,最小二乘估计法是无偏估计,而岭回归放弃了无偏估计,以损失部分信息,降低精度为代价来更好的拟合数据,常用在“病态数据”。比如,对于有些矩阵,矩阵中某个元素的一个很小的变动,会引起最后计算结果误差很大,这种矩阵称为“病态矩阵”
对于一个适定问题, X X 通常是列满秩的,采用最小二乘法,(通常样本数量n要大于特征数量p,才有唯一解)我们最后可以得到求解公式 其中,
当 X X 不是列满秩的时候,或者某些列之间的线性相关比较大时,
转化为适定问题:为损失函数加上一个正则项,得岭回归的损失函数为 L=12∥Xθ−y∥2+12∥Γθ∥2 L = 1 2 ‖ X θ − y ‖ 2 + 1 2 ‖ Γ θ ‖ 2 对 θ θ 求导,定义 Γ=αI Γ = α I , 可得 θ(α)=(XTX+αI)−1XTy θ ( α ) = ( X T X + α I ) − 1 X T y , 其中 I I 是单位矩阵,
随着 α α 的增大, θ(α) θ ( α ) 各元素 θ(α)i θ ( α ) i 的绝对值均趋于不断变小,它们相对于正确值 θi θ i 的偏差也越来越大。 α α 趋于无穷大时, θ(α) θ ( α ) 趋于0。其中, θ(α) θ ( α ) 随 α α 的改变而变化的轨迹,就称为岭迹。实际计算中可选非常多的 α α 值,做出一个岭迹图,看看这个图在取哪个值的时候变稳定了,那就确定 α α 值了。
详细的图示见参考链接
refer:
岭回归与最小二乘估计的区别
岭回归-简书
2. lasso
损失函数为 L=12∥Xθ−y∥2+λ∑ni=0|wi| L = 1 2 ‖ X θ − y ‖ 2 + λ ∑ i = 0 n | w i |
与岭回归的区别就在于正则项不同,lasso更容易产生解为0的情况,可以起到筛选变量的目的
refer:
岭回归,lasso 回归
3. 偏差和方差
偏差bais:误差,数据的准确性,分为系统误差和随机误差(只能尽量减少,不能避免),在线性回归中常用b来表示,
方差 variance: 预测出来的数据的分散程度
残差:观测值与真实值之间的差距,衡量的是预测的准确性。与数据本身的分布特性以及回归方程的选择有关。 y−y^ y − y ^
残差平方和: residual sum of squares W∥Y−Y^∥2 W ‖ Y − Y ^ ‖ 2
refer: 残差 方差 离差