機器學(xué)習(xí)

Gssol
20170620 星期二

1 機器學(xué)習(xí)概念

  • 機器學(xué)習(xí),通常的機器指的是“計算機”,機器學(xué)習(xí)就是讓計算機自己學(xué)習(xí)。最主要的思想是“統(tǒng)計”和“分類”。

  • 通常的是給計算機一些指令,然后計算機進行處理;而機器學(xué)習(xí)主要是分析數(shù)據(jù),產(chǎn)生模型,進而進行預(yù)測。

  • “等人事件”: 例如和某人有約,但不知道對方到達時間我們可以根據(jù)對方平時的到達情況來判斷自己什么出門等待的時間最少。我們是根據(jù)之前的情況來進行分析,利用機器學(xué)習(xí),讓計算機自己統(tǒng)計之前的數(shù)據(jù)進行分析,從而對本次情況進行預(yù)測??梢岳脹Q策樹來處理等人問題。當(dāng)然天氣、堵車情況也會對結(jié)果造成影響,暫不考慮。
    “分類事件”:對垃圾郵件進行分類,找出某種鳥(對鳥類進行分類)


2 監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)

  • 監(jiān)督學(xué)習(xí):必須知道預(yù)測什么,即目標(biāo)變量的分類信息。需要將實例數(shù)據(jù)劃分到合適的分類中,然后進行回歸,產(chǎn)生曲線,進而預(yù)測數(shù)據(jù)。

  • 無監(jiān)督學(xué)習(xí):數(shù)據(jù)沒有類別信息,也不會給定目標(biāo)值。將數(shù)據(jù)集合分成由類似的對象組成的多個類的過程稱為聚類,將尋找描述數(shù)據(jù)統(tǒng)計值的過程稱為密度估計,還可以減少數(shù)據(jù)特征的維度,更加直觀地顯示數(shù)據(jù)信息。
    大學(xué)生就業(yè)培訓(xùn),高中生培訓(xùn),在職人員轉(zhuǎn)行培訓(xùn),企業(yè)團訓(xùn)


3 k-近鄰算法

k-近鄰算法
Pros:精度高、對異常值不敏感、無數(shù)據(jù)輸入設(shè)定
Cons:計算復(fù)雜度高、空間復(fù)雜度高
Works with:數(shù)值型和標(biāo)稱型

3.1 電影題材分類問題

判斷一部未知電影是愛情片還是戰(zhàn)爭片,我們可以統(tǒng)計接吻次數(shù)和打斗次數(shù)來進行判斷。
下面是六部電影的統(tǒng)計情況,?位需要判斷的電影。
大學(xué)生就業(yè)培訓(xùn),高中生培訓(xùn),在職人員轉(zhuǎn)行培訓(xùn),企業(yè)團訓(xùn)

可以通過計算未知電影與已知的六部電影之間的距離,然后找出距離最小的前k位(通常k<20),再進行

網(wǎng)友評論