机器学习—岭回归,Lasso,变量选择技术

算法 Haran 8年前 (2016-11-24) 7843次浏览 0个评论

上一节介绍了在多元回归中变量选择的三种方法,但如果b的估计出现伪逆时,也就是奇异性
机器学习—岭回归,Lasso,变量选择技术
前面的方法可能就不适用,通常有两种情况:1、变量比样本多;2、出现共线性。第二种情况,前面的方法还是适用的,但第一种情况,前面的方法就不适用了,需要给b的估计计算加上惩罚函数。

           岭回归(Ridge Regression)就是在出现上述两种情况的处理方法,通过给回归估计上增加一个偏差度,来降低标准误差,简答的说就是在残差平方和上面添加一个惩罚项
原来的b估计是这样的:
机器学习—岭回归,Lasso,变量选择技术
添加惩罚函数后是这样子的:
机器学习—岭回归,Lasso,变量选择技术
这样计算出来的就是岭回归估计参数,添加参数的作用是降低X’X的奇异性

        LASSO:类似岭回归,只是添加惩罚函数不同而已,LASSO是一次损失函数,能够减少变化程度并提高线性回归模型的精度
岭回归添加惩罚函数后的估计是:
机器学习—岭回归,Lasso,变量选择技术
LASSO添加惩罚函数的估计是:
机器学习—岭回归,Lasso,变量选择技术
可以看到两者有个通式
机器学习—岭回归,Lasso,变量选择技术
跟欧式距离,曼哈顿距离的通式是类似的

可以看到LASSO和岭回归有一点不同,再看它的原型岭回归是用的二次损失函数L2(Y,f(X))=(Y−f(X))2,而LASSO是用的一次损失函数L1(Y,f(X))=E|Y−f(X)|,它的惩罚函数使用绝对值,这导致惩罚值会使得参数估计的结果等于零,有助于特征的选择,所以LASSO比岭回归跟进一步。

 

          弹性网:ElasticNet是Lasso和Ridge回归技术的混合体
          LAR最小角回归:LASSO虽然能极高模型的精度,但是它的计算量很大,很难,LAR就是未解决LASSO计算问题,提出的一种变形解决方法

再往下就还有修正LAR,对LAR再做优化

总体上来说这些都是特征选择的一些方法,都是有偏估计,相对比较困难,因在解决前面遇到的某个问题时候,解决的算法里面又带有某些潜在问题,或做了一些牺牲,如精度,计算难度。


如有疑问,可以在文章底部留言或邮件(haran.huang@ichdata.com) 我~
喜欢 (3)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址