[Machine Learning]Lasso Regression & Ridge Regression

  • 9736
  • 0
  • 2019-04-30

相信有在玩資料的各位,迴歸分析並不陌生吧,在「解釋」「篩選變數」「預測」中都扮演著舉足輕重的地位。本篇針對Lasso Regression & Ridge Regression做個簡單介紹。   

一、Lasso

Lasso由加拿大統計學家Robert Tibshirani所提出,為正規化(regularization)迴歸方法的一種。

1. Lasso特點:可同時進行變數篩選複雜度調整(正規化) ,何謂正規化呢 ? 其實不用想這麼複雜,它其實只是為了要避免overfitting一種方式。

2. Lasso是在最小平方和中對模型加上正規化(regularizer)或是稱作懲罰項 (penalty term),我們通常稱Lasso懲罰項為L1 norm。

下圖為Lasso公式,也是在解此式子的最佳解,其中lambda為事先給定常數,通常我們會透過交叉驗證 (cross validation) 的方法來決定lambda值  。

Lasso

 而LASSO的L1 norm的效果可以強制使得不重要的解釋變數 ,其估計出的係數為0 ,因此也達到了變數篩選的功能,

當特徵減少,用來預測的準確度就可以比較穩定,而解釋上也比較容易,也呼應了上面說得避免過適

二、Ridge

Ridge則是Andrey Tikhonov提出,為正規化(regularization)迴歸方法的一種。

1. Ridge特點:可處理多元共線性問題,但它並不能使估計出的係數為0,所以無法做變數篩選。其道理很好了解,以直觀來看因為它懲罰項是平方,因此它只能趨近於0,但無法等於0。  

2. Ridge是在最小平方和中對模型加上正規化(regularizer)或是稱作懲罰項 (penalty term),我們通常稱Lasso懲罰項為L2 norm。

而兩個就是僅差別在於正規項更改而已,如下圖

Ridge

以最佳化的概念來看:

  • Lasso的懲罰項 代表權重的絕對值和給限制,故會形成菱形的可行解域。

  • Ridge的懲罰項 代表權重的平方和給限制,故會形成圓形的可行解域。

所以我們常看到的下圖結構就是這樣來的

整理一下Lasso特點:

  • 除常數項以外,這種回歸的假設與最小二乘回歸類似。

  • 由於它收縮系數接近零(等於零),有助於變數選擇(Feature Selection)。

  • 為正則化方法,使用的是L1正則化,可避免過度配適。

  • 適合特徵為高維稀疏。

整理一下Ridge特點:

  • 除常數項以外,這種回歸的假設與最小二乘回歸類似。

  • 加入L2 norm,避免模型複雜度太高。

  • 為正則化方法,使用的是L2正則化,可避免過度配適。

  • 適合特徵為低維稠密。