一直想把數(shù)據(jù)預處理的邏輯給理清楚點,在這里和大家一起分享。
一:缺失值的處理
刪除缺失值
這是一種很常用的策略。
缺點:如果缺失值太多,最終刪除到?jīng)]有什么數(shù)據(jù)了。那就不好辦了。
2.2 缺失值的填補
(1)均值法
根據(jù)缺失值的屬性相關系數(shù)最大的那個屬性把數(shù)據(jù)分成幾個組,然后分別計算每個組的均值,把這些均值放入到缺失的數(shù)值里面就可以了。
缺點:改變了數(shù)據(jù)的分布,還有就是有的優(yōu)化問題會對方差優(yōu)化,這樣會讓對方差優(yōu)化問題變得不準確。
(2)隨機填補