機(jī)器學(xué)習(xí)

Gssol
20170620 星期二

1 機(jī)器學(xué)習(xí)概念

  • 機(jī)器學(xué)習(xí),通常的機(jī)器指的是“計(jì)算機(jī)”,機(jī)器學(xué)習(xí)就是讓計(jì)算機(jī)自己學(xué)習(xí)。最主要的思想是“統(tǒng)計(jì)”和“分類”。

  • 通常的是給計(jì)算機(jī)一些指令,然后計(jì)算機(jī)進(jìn)行處理;而機(jī)器學(xué)習(xí)主要是分析數(shù)據(jù),產(chǎn)生模型,進(jìn)而進(jìn)行預(yù)測(cè)。

  • “等人事件”: 例如和某人有約,但不知道對(duì)方到達(dá)時(shí)間我們可以根據(jù)對(duì)方平時(shí)的到達(dá)情況來(lái)判斷自己什么出門(mén)等待的時(shí)間最少。我們是根據(jù)之前的情況來(lái)進(jìn)行分析,利用機(jī)器學(xué)習(xí),讓計(jì)算機(jī)自己統(tǒng)計(jì)之前的數(shù)據(jù)進(jìn)行分析,從而對(duì)本次情況進(jìn)行預(yù)測(cè)??梢岳脹Q策樹(shù)來(lái)處理等人問(wèn)題。當(dāng)然天氣、堵車情況也會(huì)對(duì)結(jié)果造成影響,暫不考慮。
    “分類事件”:對(duì)垃圾郵件進(jìn)行分類,找出某種鳥(niǎo)(對(duì)鳥(niǎo)類進(jìn)行分類)


2 監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)

  • 監(jiān)督學(xué)習(xí):必須知道預(yù)測(cè)什么,即目標(biāo)變量的分類信息。需要將實(shí)例數(shù)據(jù)劃分到合適的分類中,然后進(jìn)行回歸,產(chǎn)生曲線,進(jìn)而預(yù)測(cè)數(shù)據(jù)。

  • 無(wú)監(jiān)督學(xué)習(xí):數(shù)據(jù)沒(méi)有類別信息,也不會(huì)給定目標(biāo)值。將數(shù)據(jù)集合分成由類似的對(duì)象組成的多個(gè)類的過(guò)程稱為聚類,將尋找描述數(shù)據(jù)統(tǒng)計(jì)值的過(guò)程稱為密度估計(jì),還可以減少數(shù)據(jù)特征的維度,更加直觀地顯示數(shù)據(jù)信息。
    大學(xué)生就業(yè)培訓(xùn),高中生培訓(xùn),在職人員轉(zhuǎn)行培訓(xùn),企業(yè)團(tuán)訓(xùn)


3 k-近鄰算法

k-近鄰算法
Pros:精度高、對(duì)異常值不敏感、無(wú)數(shù)據(jù)輸入設(shè)定
Cons:計(jì)算復(fù)雜度高、空間復(fù)雜度高
Works with:數(shù)值型和標(biāo)稱型

3.1 電影題材分類問(wèn)題

判斷一部未知電影是愛(ài)情片還是戰(zhàn)爭(zhēng)片,我們可以統(tǒng)計(jì)接吻次數(shù)和打斗次數(shù)來(lái)進(jìn)行判斷。
下面是六部電影的統(tǒng)計(jì)情況,?位需要判斷的電影。
大學(xué)生就業(yè)培訓(xùn),高中生培訓(xùn),在職人員轉(zhuǎn)行培訓(xùn),企業(yè)團(tuán)訓(xùn)

可以通過(guò)計(jì)算未知電影與已知的六部電影之間的距離,然后找出距離最小的前k位(通常k<20),再進(jìn)行