一、模式識(shí)別(pattern recognition)
人類在識(shí)別和分辨事物時(shí),往往是在先驗(yàn)知識(shí)和以往對(duì)此類事物的多個(gè)具體實(shí)例觀察基礎(chǔ)上產(chǎn)生的整體性質(zhì)和特征的認(rèn)識(shí)。
其實(shí),每一種外界事物都可以看作是一種模式,人們對(duì)外界事物的識(shí)別,很大部分是把事物進(jìn)行分類來(lái)完成的。
中文中:模式==類
簡(jiǎn)單來(lái)說(shuō)就是一種規(guī)律,識(shí)別主是對(duì)事物對(duì)象進(jìn)行分門別類,模式識(shí)別可以看作對(duì)模式的區(qū)分和認(rèn)識(shí),是事物樣本到類別的映射;
英文中:pattern則表示兩層意思
一層代表事物的模板或原形,第二層則是表征事物特點(diǎn)的特征或性狀組合。
在模式識(shí)別學(xué)科中,模式可以看做是對(duì)象的組成成分或影響因素間存在的規(guī)律性關(guān)系,或者是因素間存在的確定性或隨機(jī)性規(guī)律的對(duì)象、過(guò)程或事件的集合。
因此,也有人把模式成為模式類,模式識(shí)別也被稱作為模式分類(Pattern Classification)。
專業(yè)術(shù)語(yǔ):
樣本(sample),一個(gè)個(gè)體對(duì)象,注意與統(tǒng)計(jì)學(xué)中的不同,類似于統(tǒng)計(jì)學(xué)中的實(shí)例(instance);
樣本集(sample set):若干樣本的集合,統(tǒng)計(jì)學(xué)中的樣本就是指樣本集;
類或類別(class):具有相同模式的樣本集,該樣本集是全體樣本的子集;
習(xí)慣性地,我們用w1,w2等來(lái)表示類別,兩類問(wèn)題中也會(huì)用{0,1}或{-1,1};特征(feature):也稱為屬性,通常指樣本的某些可以用數(shù)值去量化的特征,如果有多個(gè)特征,則可以組合成特征向量(feature vector)。樣本的特征構(gòu)成了樣本特征空間,空間的維數(shù)就是特征的個(gè)數(shù),每一個(gè)樣本就是特征空間中的一個(gè)點(diǎn)。
已知樣本(known sample):已經(jīng)事先知道類別的樣本;
未知樣本(unknown sample):類別標(biāo)簽未知但特征已知的樣本;
二、模式識(shí)別類型
1.監(jiān)督模式識(shí)別
特點(diǎn):要?jiǎng)澐值念悇e是已知的,并且能夠獲得一定數(shù)量的類別已知的訓(xùn)練樣本。
這種情況下的機(jī)器學(xué)習(xí)的過(guò)程稱為監(jiān)督學(xué)習(xí)(有導(dǎo)師學(xué)習(xí))。
2.非監(jiān)督模式識(shí)別
特點(diǎn):事先并不知道要?jiǎng)澐值念悇e有哪些,甚至可能連要?jiǎng)澐诸悇e的數(shù)目也不知道,并且沒(méi)有任何已知樣本可以用來(lái)訓(xùn)練。
這種情況下要根據(jù)提取到的樣本特征將樣本聚成幾個(gè)類,屬于同一類的樣本從某個(gè)角度上看具有一定的相似性,而不同類之間的樣本差異則較大。這種機(jī)器學(xué)習(xí)的過(guò)程稱為非監(jiān)督學(xué)習(xí)(無(wú)導(dǎo)師學(xué)習(xí)),也成為聚類。
需要注意的是,在很多非監(jiān)督模式識(shí)別中,聚類的結(jié)果不是唯一的,因?yàn)椤跋嗨啤笔菑哪硞€(gè)角度看上去的相似,這里的角度就是前面提到的特征。根據(jù)樣本特征向量中的不同特征去聚類,會(huì)得到不同的結(jié)果。
舉個(gè)例子:假設(shè)提取到的4個(gè)樣本y1,y2,y3,y4的特征向量分別為
x1=(red,rounded,hollow)
x2=(red,rectangular,hollow)
x3=(blue,rounded,solid)
x4=(blue,rectangular,hollow)
若按特征向量的第一個(gè)特征(顏色)去聚類時(shí),y1,y2聚為一類,y3,y4聚為一類;若按第二個(gè)特征(形狀)去聚類時(shí),y1,y3聚為一類,y2,y4聚為一類;若按第三個(gè)特征(空心/實(shí)心)去聚類時(shí),y1,y2,y4聚為一類,y3自成一類。
這很好的解釋了聚類結(jié)果的非唯一性,這也是非監(jiān)督模式識(shí)別與監(jiān)督模式識(shí)別的一個(gè)重要差別。
監(jiān)督學(xué)習(xí) | 非監(jiān)督學(xué)習(xí) |
有導(dǎo)師 | 無(wú)導(dǎo)師 |
要?jiǎng)澐值念悇e已知 | 事先不知要?jiǎng)澐诸悇e |
訓(xùn)練中可知模型決策結(jié)果 | 不知是否有錯(cuò) |
神經(jīng)網(wǎng)絡(luò)、決策樹 | k-均值聚類法 |
3. 加強(qiáng)學(xué)習(xí)
不提供設(shè)計(jì)種類,基于導(dǎo)師提供試驗(yàn)反饋(如決策是否正確)
三、模式識(shí)別系統(tǒng)
一個(gè)模式識(shí)別系統(tǒng)的典型構(gòu)成包括:預(yù)處理,特征選擇與提取,分類或聚類,后處理四個(gè)主要部分。
例子:
假設(shè)有兩種魚:鱸魚、鮭魚
問(wèn)題:在傳送帶上分類
步驟:
感知(sensing)
格式化能被機(jī)器感知的對(duì)象
可能導(dǎo)致的問(wèn)題:
光線條件,魚的位置,相機(jī)噪音等等
預(yù)處理(preprocessing)
改善數(shù)據(jù)
特征提取(feature extraction)
什么樣的特征可以區(qū)分不同種類
分類(classification)
支持向量機(jī)、決策樹等
模式識(shí)別系統(tǒng)
數(shù)據(jù)獲取&感知
測(cè)量物理變量
基于樣本質(zhì)量,只有典型樣本有用,時(shí)間和成本是限制條件預(yù)處理
移除噪音、隔離背景特征提取
模式學(xué)習(xí)/估計(jì)
學(xué)習(xí)特征與模式類別的映射關(guān)系分類
輸出處理
四、評(píng)價(jià)標(biāo)準(zhǔn)
訓(xùn)練精度
過(guò)擬合問(wèn)題
測(cè)試精度
參考鏈接:
http://blog.csdn.net/SCUT_Arucee/article/details/45250643
https://zhuanlan.zhihu.com/p/22668576
http://www.cnblogs.com/chaoran/p/6604048.html