前言:傳統(tǒng)的數(shù)據(jù)挖掘中都是在提取特征上做文章,而這又很大程度上取決于工程師自身的特征工程能力以及業(yè)務(wù)處理中的多年經(jīng)驗,所以想寫一篇文章總結(jié)下這其中有脈可循的規(guī)律

摘要:

1.特征的可用性評估

2.特征的修剪

3.特征的可視化

4.特征的監(jiān)控

5.特征的維護

 

內(nèi)容:

1.特征的可用性評估

  如果特征的缺失率高,并且不是重要性特征,可以直接棄用

  如果特征方差小,說明特征的區(qū)分性并不高,可以刪去這部分特征

  

2.特征的修剪:

  識別對于模型有害的離群值/異常值(3倍標準差),或者只取數(shù)據(jù)分布中占80%的數(shù)據(jù),丟掉長尾的20%

  缺失值填充,如果是類別/離散型變量推薦填充一種新的類別;如果是實變量,推薦填充均值。減少可能造成的噪音。

  去重,原始數(shù)據(jù)可能存在誤報或者重復(fù)記錄等問題,通過去重降低噪音,保證數(shù)據(jù)合理性,減少計算量。

 

  其他處理,比如離散化,歸一化,標準化,獨熱編碼等,這些處理有益于減少計算量,或者規(guī)范化的處理,提高模型表現(xiàn)

 

3.特征可視化 :

  單變量相關(guān)性分析與可視化

    大數(shù)據(jù)培訓(xùn),云培訓(xùn),數(shù)據(jù)挖掘培訓(xùn),云計算培訓(xùn),高端軟件開發(fā)培訓(xùn),項目經(jīng)理培訓(xùn)       

  這里引用Bryan__微額借款用戶人品預(yù)測大賽冠軍思路中的PPT,可見分析某一個變量與目標變量的關(guān)系,既有助于加深對目標任務(wù)的理解,同時也對提取的特征心中有數(shù)

      

  特征分布

 

   大數(shù)據(jù)培訓(xùn),云培訓(xùn),數(shù)據(jù)挖掘培訓(xùn),云計算培訓(xùn),高端軟件開發(fā)培訓(xùn),項目經(jīng)理培訓(xùn)

   上圖是2017“達觀杯”個性化推薦算法挑戰(zhàn)賽的每小時資訊閱讀量的統(tǒng)計,細心的讀者會發(fā)現(xiàn)早6點到早9點以及晚19點到晚22點是閱讀的高峰期,其與用戶實際的閱讀情況也相符,通過對數(shù)據(jù)的可視化與探索性分析(EDA),可以加深我們對數(shù)據(jù)的理解,同時做到去其糟粕,取其精華。

 

4.特征處理:

一般情況下特征處理會包括特征生成和特征選取等幾個階段

在特征生成階段,根據(jù)實際的業(yè)務(wù)場景不同,選擇以下幾種特征進行深挖:

統(tǒng)計特征:count,sum,avg,diff,var/std,skew,kurt(這4項在線性回歸中經(jīng)常被使用)

比值特征:轉(zhuǎn)化率,好評率,點擊率,留存率,跳出率,以及其他放縮到01區(qū)間的特征

時間特征:累積,平均,同比,環(huán)比,間隔,頻次,以及時序特征(滑動窗口)

空間特征:地區(qū)的經(jīng)緯度,地域分級(1/2/3),地域分布,地理距離

排名特征:對異常數(shù)據(jù)有更強的魯棒性,使得模型更加穩(wěn)定

特征轉(zhuǎn)換:平滑/多項式變