白話機器學(xué)習(xí) - 最大似然

發(fā)布時間：2017年03月24日作者：文章轉(zhuǎn)自網(wǎng)絡(luò)，版權(quán)歸原作者所有，反饋可立刻刪除 (該文來自筆記，點擊查看原文)

機器學(xué)習(xí)，從本質(zhì)上講，就是一種經(jīng)驗的總結(jié)。
例如，“山雨欲來風(fēng)滿樓”，山里面下大雨之前會刮大風(fēng)，就是一種經(jīng)驗的總結(jié)。當(dāng)然，這也不是100%準(zhǔn)確的事情，只是從概率上看，刮風(fēng)之后下雨的可能性是最大的。
機器學(xué)習(xí)模型，我們追求的也就是，這個模型看上去是最靠譜的，最接近我們觀察到的事實的。換句話說，我們通過觀察到的事件，來確定模型，使得這個模型在概率上說，是最有可能的，最符合我們觀察到的事件的。

不均勻硬幣

現(xiàn)在，有一枚硬幣，由于加工不均勻，每次拋硬幣時，其正面朝上的概率為 X ，現(xiàn)在，我們怎么才能知道這個X是多少呢？最簡單的辦法是拋10次硬幣，如果6次正面朝上，我們很容易脫口而出，正面朝上的概率是3/5.
為什么我們可以脫口而出，不假思索的說是3/5呢？理由很簡單啊，拋10次，6次向上，正面朝上的概率為3/5最合理啊，這種可能性最高啊。
由于是概率，所以，這個估計或多或少都存在一個運氣的問題，可能這個硬幣朝上的概率只有1/10,但是拋硬幣的人特別妖，就是能夠10次里面拋出6次正面朝上。

“拋10次硬幣，6次正面向上“ 和 ”硬幣正面朝上的概率為3/5”
“拋10次硬幣，6次正面向上“ 和 ”硬幣正面朝上的概率為1/10”

由于拋硬幣問題簡單，而且上面兩個判斷相差很大，所以我們很容易就知道前者可能性最大，后者可能性較小。如果問題改成

山雨欲來風(fēng)滿樓
雨后出現(xiàn)彩虹

哪個比較靠譜，這個就非常難了吧。所以，我們還需要一套理論去量化靠譜程度，可能性到底有多高的程度。

獵人

MLE maximum likelihood estimation的最本質(zhì)的思想就是：發(fā)生某事件X，我們非常關(guān)心導(dǎo)致這件事情發(fā)生的原因或者細(xì)節(jié)A(A有多種可能性)。但對于A，我們無法溯源去回放事件，去驗證到底是哪個。于是我們企圖找到某一個A(即估計值A(chǔ)hat)，使得【基于Ahat，當(dāng)下我們觀察到的現(xiàn)實——X的發(fā)生——具有最大的發(fā)生的可能性】，這樣的想法得到的Ahat就是極大似然估計。一個小故事：有一個業(yè)余的獵人新手和一名資深獵人，他們一人一把槍地跑去打獵，砰地一聲槍響，一頭小鹿應(yīng)聲倒地，這時候問你：更可能的情況是獵人打中了還是新手打中了？在這個故事里，【發(fā)生的某事件X】是小鹿被打中，【我們關(guān)心的事情A】是誰打中了小鹿，【A的可能的情況】有獵人打中或新手打中，【極大似然估計A】是獵人打中。

作者：Vincent
鏈接：https://www.zhihu.com/question/24124998/answer/46745176
來源：知乎
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請注明出處。

概率分布

在數(shù)學(xué)上有很多概率分布，這里就不再啰嗦了，可以參看下面的文章
http://blog.csdn.net/sunmenggmail/article/details/17138651

二項分布的典型例子是扔硬幣，硬幣正面朝上概率為p, 重復(fù)扔n次硬幣，k次為正面的概率即為一個二項分布概率。

硬幣正面向上概率是0.6，拋10次，6次朝上的概率是 0.2508
硬幣正面向上概率是0.1，拋10次，6次朝上的概率是 0.0001
（順便計算一下，硬幣正面向上概率是0.1，拋10次，1次朝上的概率是 0.3874）

無論硬幣正面向上概率是多少，如果將拋10次里面1次朝上的概率，2次朝上的概率，一直累加到10次朝上的概率，其總和應(yīng)該為1.

我們看到10次里面6次朝上的結(jié)果，硬幣正面向上概率為0.6和0.1之間相差上千倍。
”硬幣正面向上概率是0.1，拋10次，1次朝上“ 比 ”硬幣正面向上概率是0.6，拋10次，6次朝上“ 更加靠譜

概率分布就是為了量化靠譜程度的數(shù)學(xué)工具。通過這些工具，我們可以計算出一個觀察結(jié)果（拋10次硬幣，6次正面向上）和一個帶參數(shù)（正面朝上概率）的模型之間，從概率上講，相似（似然）程度。

關(guān)注公眾號 TensorFlow教室深度學(xué)習(xí)，機器學(xué)習(xí)，自然語言處理。

分類導(dǎo)航

白話機器學(xué)習(xí) - 最大似然

不均勻硬幣

獵人

概率分布

延伸閱讀

我想了解如何學(xué)習(xí)