在機(jī)器學(xué)習(xí)中,一般都會(huì)按照下面幾個(gè)步驟:特征提取、數(shù)據(jù)預(yù)處理、特征選擇、模型訓(xùn)練、檢驗(yàn)優(yōu)化。那么特征的選擇就很關(guān)鍵了,一般模型最后效果的好壞往往都是跟特征的選擇有關(guān)系的,因?yàn)槟P捅旧淼膮?shù)并沒(méi)有太多優(yōu)化的點(diǎn),反而特征這邊有時(shí)候多加一個(gè)或者少加一個(gè),最終的結(jié)果都會(huì)差別很大。

在SparkMLlib中為我們提供了幾種特征選擇的方法,分別是VectorSlicer、RFormulaChiSqSelector

下面就介紹下這三個(gè)方法的使用,強(qiáng)烈推薦有時(shí)間的把參考的文獻(xiàn)都閱讀下,會(huì)有所收獲!

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動(dòng)軟件開(kāi)發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式