隨機梯度下降演算法原理?

隨機梯度下降演算法原理?一一條小魚2022-09-29 05:33:43

原理

演算法目標 逐漸逼近損失函式loss 的極小值,簡單抽象為求函式 的極小值。

2。

演算法描述 每次取一個增量 ,使得 ,每次向函式值更小的地方前進一小步,多次迭代就能做到逐漸逼近函式 的極小值。

3。

演算法推導 展開 得到公式 。 其中H為海森矩陣,暫且不考慮。為使 成立,只需要保證 。 即,當 時, ,如此即可保證每次更新在逐漸逼近函式的極小值。其中 為學習率是一個較小的正數。 每次更新時做 操作,求得 的最小值。

4。

注意 上述過程是在逼近極小值,不一定是函式的最小值。 是一種下降趨勢,整個迴圈步驟中函式值 在下降,並非每個小步驟得到的函式值都比前一次要小。