分類導(dǎo)航

機(jī)器學(xué)習(xí)筆記001

發(fā)布時(shí)間：2017年06月21日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點(diǎn)擊查看原文)

機(jī)器學(xué)習(xí)

Gssol
20170620 星期二

1 機(jī)器學(xué)習(xí)概念

機(jī)器學(xué)習(xí)，通常的機(jī)器指的是“計(jì)算機(jī)”，機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)自己學(xué)習(xí)。最主要的思想是“統(tǒng)計(jì)”和“分類”。
通常的是給計(jì)算機(jī)一些指令，然后計(jì)算機(jī)進(jìn)行處理；而機(jī)器學(xué)習(xí)主要是分析數(shù)據(jù)，產(chǎn)生模型，進(jìn)而進(jìn)行預(yù)測(cè)。
“等人事件”： 例如和某人有約，但不知道對(duì)方到達(dá)時(shí)間我們可以根據(jù)對(duì)方平時(shí)的到達(dá)情況來判斷自己什么出門等待的時(shí)間最少。我們是根據(jù)之前的情況來進(jìn)行分析，利用機(jī)器學(xué)習(xí)，讓計(jì)算機(jī)自己統(tǒng)計(jì)之前的數(shù)據(jù)進(jìn)行分析，從而對(duì)本次情況進(jìn)行預(yù)測(cè)?？梢岳脹Q策樹來處理等人問題。當(dāng)然天氣、堵車情況也會(huì)對(duì)結(jié)果造成影響，暫不考慮。
“分類事件”：對(duì)垃圾郵件進(jìn)行分類，找出某種鳥（對(duì)鳥類進(jìn)行分類）

2 監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)

監(jiān)督學(xué)習(xí)：必須知道預(yù)測(cè)什么，即目標(biāo)變量的分類信息。需要將實(shí)例數(shù)據(jù)劃分到合適的分類中，然后進(jìn)行回歸，產(chǎn)生曲線，進(jìn)而預(yù)測(cè)數(shù)據(jù)。
無監(jiān)督學(xué)習(xí)：數(shù)據(jù)沒有類別信息，也不會(huì)給定目標(biāo)值。將數(shù)據(jù)集合分成由類似的對(duì)象組成的多個(gè)類的過程稱為聚類，將尋找描述數(shù)據(jù)統(tǒng)計(jì)值的過程稱為密度估計(jì)，還可以減少數(shù)據(jù)特征的維度，更加直觀地顯示數(shù)據(jù)信息。

3 k-近鄰算法

k-近鄰算法
Pros：精度高、對(duì)異常值不敏感、無數(shù)據(jù)輸入設(shè)定
Cons：計(jì)算復(fù)雜度高、空間復(fù)雜度高
Works with:數(shù)值型和標(biāo)稱型

3.1 電影題材分類問題

判斷一部未知電影是愛情片還是戰(zhàn)爭片，我們可以統(tǒng)計(jì)接吻次數(shù)和打斗次數(shù)來進(jìn)行判斷。
下面是六部電影的統(tǒng)計(jì)情況，？位需要判斷的電影。
大學(xué)生就業(yè)培訓(xùn),高中生培訓(xùn),在職人員轉(zhuǎn)行培訓(xùn),企業(yè)團(tuán)訓(xùn)

可以通過計(jì)算未知電影與已知的六部電影之間的距離，然后找出距離最小的前k位(通常k<20),再進(jìn)行

我想了解如何學(xué)習(xí)