一直想把數(shù)據(jù)預(yù)處理的邏輯給理清楚點(diǎn),在這里和大家一起分享。

一:缺失值的處理

  1. 刪除缺失值

這是一種很常用的策略。

缺點(diǎn):如果缺失值太多,最終刪除到?jīng)]有什么數(shù)據(jù)了。那就不好辦了。

2.2 缺失值的填補(bǔ)

    (1)均值法

        根據(jù)缺失值的屬性相關(guān)系數(shù)最大的那個(gè)屬性把數(shù)據(jù)分成幾個(gè)組,然后分別計(jì)算每個(gè)組的均值,把這些均值放入到缺失的數(shù)值里面就可以了。

缺點(diǎn):改變了數(shù)據(jù)的分布,還有就是有的優(yōu)化問題會對方差優(yōu)化,這樣會讓對方差優(yōu)化問題變得不準(zhǔn)確。

    (2)隨機(jī)填補(bǔ)

延伸閱讀

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn),做最負(fù)責(zé)任的教育,學(xué)習(xí)改變命運(yùn),軟件學(xué)習(xí),再就業(yè),大學(xué)生如何就業(yè),幫大學(xué)生找到好工作,lphotoshop培訓(xùn),電腦培訓(xùn),電腦維修培訓(xùn),移動軟件開發(fā)培訓(xùn),網(wǎng)站設(shè)計(jì)培訓(xùn),網(wǎng)站建設(shè)培訓(xùn)學(xué)習(xí)是年輕人改變自己的最好方式