Ex 4: Feature Selection using SelectFromModel
PreviousEx 3: Recursive Feature Elimination with Cross-ValidationNextEx 5: Test with permutations the significance of a classification score
Last updated
Last updated
http://scikit-learn.org/stable/auto_examples/feature_selection/plot_select_from_model_boston.html
此範例是示範以LassoCV
來挑選特徵,Lasso是一種用來計算稀疏矩陣的線性模形。在某些情況下是非常有用的,因為在此演算過程中會以較少數的特徵來找最佳解,基於參數有相依性的情況下,使變數的數目有效的縮減。因此,Lasso法以及它的變形式可算是壓縮參數關係基本方法。在某些情況下,此方法可以準確的偵測非零權重的值。
Lasso最佳化的目標函數:
以LassoCV
法來計算目標資訊性特徵數目較少的資料
用SelectFromModel
設定特徵重要性的門檻值來選擇特徵
提高SelectFromModel
的.threshold
使目標資訊性特徵數逼近預期的數目
由於資料的類型為連續數字,選用LassoCV來做最具有代表性的特徵選取。
當設定好門檻值,並做訓練後,可以用transform(X)取得計算過後,被認為是具有影響力的特徵以及對應的樣本,可以由其列的數目知道總影響力特徵有幾個。
後面使用了增加門檻值來達到限制最後特徵數目的
使用門檻值來決定後來選取的參數,其說明在下一個標題。
需要用後設轉換
Python source code: plot_select_from_model_boston.py