在機(jī)器學(xué)習(xí)中,一般都會(huì)按照下面幾個(gè)步驟:特征提取、數(shù)據(jù)預(yù)處理、特征選擇、模型訓(xùn)練、檢驗(yàn)優(yōu)化。那么特征的選擇就很關(guān)鍵了,一般模型最后效果的好壞往往都是跟特征的選擇有關(guān)系的,因?yàn)槟P捅旧淼膮?shù)并沒(méi)有太多優(yōu)化的點(diǎn),反而特征這邊有時(shí)候多加一個(gè)或者少加一個(gè),最終的結(jié)果都會(huì)差別很大。
在SparkMLlib中為我們提供了幾種特征選擇的方法,分別是VectorSlicer
、RFormula
和ChiSqSelector
。
下面就介紹下這三個(gè)方法的使用,強(qiáng)烈推薦有時(shí)間的把參考的文獻(xiàn)都閱讀下,會(huì)有所收獲!