一直想把數(shù)據(jù)預處理的邏輯給理清楚點,在這里和大家一起分享。

一:缺失值的處理

  1. 刪除缺失值

這是一種很常用的策略。

缺點:如果缺失值太多,最終刪除到?jīng)]有什么數(shù)據(jù)了。那就不好辦了。

2.2 缺失值的填補

    (1)均值法

        根據(jù)缺失值的屬性相關系數(shù)最大的那個屬性把數(shù)據(jù)分成幾個組,然后分別計算每個組的均值,把這些均值放入到缺失的數(shù)值里面就可以了。

缺點:改變了數(shù)據(jù)的分布,還有就是有的優(yōu)化問題會對方差優(yōu)化,這樣會讓對方差優(yōu)化問題變得不準確。

    (2)隨機填補

網(wǎng)友評論