一:缺失值的處理
刪除缺失值
這是一種很常用的策略。
缺點(diǎn):如果缺失值太多,最終刪除到?jīng)]有什么數(shù)據(jù)了。那就不好辦了。
2.2 缺失值的填補(bǔ)
(1)均值法
根據(jù)缺失值的屬性相關(guān)系數(shù)最大的那個(gè)屬性把數(shù)據(jù)分成幾個(gè)組,然后分別計(jì)算每個(gè)組的均值,把這些均值放入到缺失的數(shù)值里面就可以了。
缺點(diǎn):改變了數(shù)據(jù)的分布,還有就是有的優(yōu)化問(wèn)題會(huì)對(duì)方差優(yōu)化,這樣會(huì)讓對(duì)方差優(yōu)化問(wèn)題變得不準(zhǔn)確。
(2)隨機(jī)填補(bǔ)
一直感覺(jué)這個(gè)方法不好,就是隨機(jī)在那一列屬性中找個(gè)數(shù)填補(bǔ)到缺失值里。