一直想把數(shù)據(jù)預(yù)處理的邏輯給理清楚點(diǎn),在這里和大家一起分享。
一:缺失值的處理
刪除缺失值
這是一種很常用的策略。
缺點(diǎn):如果缺失值太多,最終刪除到?jīng)]有什么數(shù)據(jù)了。那就不好辦了。
2.2 缺失值的填補(bǔ)
(1)均值法
根據(jù)缺失值的屬性相關(guān)系數(shù)最大的那個(gè)屬性把數(shù)據(jù)分成幾個(gè)組,然后分別計(jì)算每個(gè)組的均值,把這些均值放入到缺失的數(shù)值里面就可以了。
缺點(diǎn):改變了數(shù)據(jù)的分布,還有就是有的優(yōu)化問題會對方差優(yōu)化,這樣會讓對方差優(yōu)化問題變得不準(zhǔn)確。
(2)隨機(jī)填補(bǔ)
延伸閱讀
- ssh框架 2016-09-30
- 阿里移動安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖 2017-07-26
- 消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】 2017-07-26
- 詞向量-LRWE模型-更好地識別反義詞同義詞 2017-07-26
- 從棧不平衡問題 理解 calling convention 2017-07-26
- php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明 2017-07-26
- Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解 2017-07-26
- 阿里移動安全 Android端惡意鎖屏勒索應(yīng)用分析 2017-07-26
- 集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二) 2017-07-26