條件隨機(jī)場(chǎng)CRF(一)從隨機(jī)場(chǎng)到線性鏈條件隨機(jī)場(chǎng)
條件隨機(jī)場(chǎng)CRF(二) 前向后向算法評(píng)估標(biāo)記序列概率(TODO)
條件隨機(jī)場(chǎng)CRF(三) 模型學(xué)習(xí)與維特比算法解碼(TODO)
條件隨機(jī)場(chǎng)(Conditional Random Fields, 以下簡(jiǎn)稱(chēng)CRF)是給定一組輸入序列條件下另一組輸出序列的條件概率分布模型,在自然語(yǔ)言處理中得到了廣泛應(yīng)用。本系列主要關(guān)注于CRF的特殊形式:線性鏈(Linear chain) CRF。本文關(guān)注與CRF的模型基礎(chǔ)。
1.什么樣的問(wèn)題需要CRF模型
和HMM類(lèi)似,在討論CRF之前,我們來(lái)看看什么樣的問(wèn)題需要CRF模型。這里舉一個(gè)簡(jiǎn)單的例子:
假設(shè)我們有Bob一天從早到晚的一系列照片,Bob想考考我們,要我們猜這一系列的每張照片對(duì)應(yīng)的活動(dòng),比如: 工作的照片,吃飯的照片,唱歌的照片等等。一個(gè)比較直觀的辦法就是,我們找到Bob之前的日常生活的一系列照片,然后找Bob問(wèn)清楚這些照片代表的活動(dòng)標(biāo)記,這樣我們就可以用監(jiān)督學(xué)習(xí)的方法來(lái)訓(xùn)練一個(gè)分類(lèi)模型,比如邏輯回歸,接著用模型去預(yù)測(cè)這一天的每張照片最可能的活動(dòng)標(biāo)記。
這種辦法雖然是可行的,但是卻忽略了一個(gè)重要的問(wèn)題,就是這些照片之間的順序其實(shí)是有很大的時(shí)間順序關(guān)系的,而用上面的方法則會(huì)忽略這種關(guān)系。比如我們現(xiàn)在看到了一張Bob閉著嘴的照片,那么這張照片我們?cè)趺礃?biāo)記Bob的活動(dòng)呢?比較難去打標(biāo)記。但是如果我們有Bob在這一張照片前一點(diǎn)點(diǎn)時(shí)間的照片的話,那么這張照片就好標(biāo)記了。如果在時(shí)間序列上前一張的照片里Bob在吃飯,那么這張閉嘴的照片很有可能是在吃飯咀嚼。而如果在時(shí)間序列上前一張的照片里Bob在唱歌,那么這張閉嘴的照片很有可能是在唱歌。
為了讓我們的分類(lèi)器表現(xiàn)的更好,可以在標(biāo)記數(shù)據(jù)的時(shí)候,可以考慮相鄰數(shù)據(jù)的標(biāo)記信息。這一點(diǎn),是普通的分類(lèi)器難以做到的。而這一塊,也是CRF比較擅長(zhǎng)的地方。