引言

在上一節(jié)線性分類器中提到,分類方法主要有兩部分組成:1.基于參數的評分函數。能夠將樣本映射到類別的分值。2.損失函數。用來衡量預測標簽和真是標簽的一致性程度。這一節(jié)介紹第三個重要部分:最優(yōu)化(optimization)。損失函數能讓我們定量的評估得到的權重W的好壞,而最優(yōu)化的目標就是找到一個W,使得損失函數最小。工作流程如下圖:

(x,y)是給定的數據集,W是權重矩陣,通過初始化得到。向前傳遞到評分函數中得到類別的評分值并存儲在向量f中。損失函數計算評分函數值f與類標簽y的差值,正則化損失只是一個關于權重的函數。在梯度下降過程中,我們計算權重的梯度,然后使用梯度更新權重。一旦理解了這三個部分的關系,我們可以用更加復雜的評分函數來代替線性映射,比如神經網絡、甚至卷積神經網絡等,而損失函數和優(yōu)化過程這兩部分則相對保持不變。

梯度下降

梯度下降的思想是:要尋找某函數的最值,最好的方法就是沿著函數的梯度方向尋找,移動量的大小稱為步長。梯度下降的公式如下:

我們常常聽說過梯度上升、梯度下降,那么兩者的區(qū)別又是什么呢?其實這兩者是一樣的,只是公式中的減法變成加法,因此公式為:

梯度上升是用來求函數的最大值,而梯度下降是用來求最小值。普通的梯度下降版本如下: