前言:傳統(tǒng)的數(shù)據(jù)挖掘中都是在提取特征上做文章,而這又很大程度上取決于工程師自身的特征工程能力以及業(yè)務(wù)處理中的多年經(jīng)驗(yàn),所以想寫(xiě)一篇文章總結(jié)下這其中有脈可循的規(guī)律

摘要:

1.特征的可用性評(píng)估

2.特征的修剪

3.特征的可視化

4.特征的監(jiān)控

5.特征的維護(hù)

 

內(nèi)容:

1.特征的可用性評(píng)估

  如果特征的缺失率高,并且不是重要性特征,可以直接棄用

  如果特征方差小,說(shuō)明特征的區(qū)分性并不高,可以刪去這部分特征

  

2.特征的修剪:

  識(shí)別對(duì)于模型有害的離群值/異常值(3倍標(biāo)準(zhǔn)差),或者只取數(shù)據(jù)分布中占80%的數(shù)據(jù),丟掉長(zhǎng)尾的20%

  缺失值填充,如果是類(lèi)別/離散型變量推薦填充一種新的類(lèi)別;如果是實(shí)變量,推薦填充均值。減少可能造成的噪音。

  去重,原始數(shù)據(jù)可能存在誤報(bào)或者重復(fù)記錄等問(wèn)題,通過(guò)去重降低噪音,保證數(shù)據(jù)合理性,減少計(jì)算量。

 

  其他處理,比如離散化,歸一化,標(biāo)準(zhǔn)化,獨(dú)熱編碼等,這些處理有益于減少計(jì)算量,或者規(guī)范化的處理,提高模型表現(xiàn)

 

3.特征可視化 :

  單變量相關(guān)性分析與可視化

    大數(shù)據(jù)培訓(xùn),云培訓(xùn),數(shù)據(jù)挖掘培訓(xùn),云計(jì)算培訓(xùn),高端軟件開(kāi)發(fā)培訓(xùn),項(xiàng)目經(jīng)理培訓(xùn)       

  這里引用Bryan__微額借款用戶(hù)人品預(yù)測(cè)大賽冠軍思路中的PPT,可見(jiàn)分析某一個(gè)變量與目標(biāo)變量的關(guān)系,既有助于加深對(duì)目標(biāo)任務(wù)的理解,同時(shí)也對(duì)提取的特征心中有數(shù)

      

  特征分布

 

   大數(shù)據(jù)培訓(xùn),云培訓(xùn),數(shù)據(jù)挖掘培訓(xùn),云計(jì)算培訓(xùn),高端軟件開(kāi)發(fā)培訓(xùn),項(xiàng)目經(jīng)理培訓(xùn)

   上圖是2017“達(dá)觀杯”個(gè)性化推薦算法挑戰(zhàn)賽的每小時(shí)資訊閱讀量的統(tǒng)計(jì),細(xì)心的讀者會(huì)發(fā)現(xiàn)早6點(diǎn)到早9點(diǎn)以及晚19點(diǎn)到晚22點(diǎn)是閱讀的高峰期,其與用戶(hù)實(shí)際的閱讀情況也相符,通過(guò)對(duì)數(shù)據(jù)的可視化與探索性分析(EDA),可以加深我們對(duì)數(shù)據(jù)的理解,同時(shí)做到去其糟粕,取其精華。

 

4.特征處理:

一般情況下特征處理會(huì)包括特征生成和特征選取等幾個(gè)階段

在特征生成階段,根據(jù)實(shí)際的業(yè)務(wù)場(chǎng)景不同,選擇以下幾種特征進(jìn)行深挖:

統(tǒng)計(jì)特征:count,sum,avg,diff,var/std,skew,kurt(這4項(xiàng)在線性回歸中經(jīng)常被使用)

比值特征:轉(zhuǎn)化率,好評(píng)率,點(diǎn)擊率,留存率,跳出率,以及其他放縮到01區(qū)間的特征

時(shí)間特征:累積,平均,同比,環(huán)比,間隔,頻次,以及時(shí)序特征(滑動(dòng)窗口)

空間特征:地區(qū)的經(jīng)緯度,地域分級(jí)(1/2/3),地域分布,地理距離

排名特征:對(duì)異常數(shù)據(jù)有更強(qiáng)的魯棒性,使得模型更加穩(wěn)定

特征轉(zhuǎn)換:平滑/多項(xiàng)式變

網(wǎng)友評(píng)論