首页
/
每日頭條
/
科技
/
如何看懂降維打擊
如何看懂降維打擊
更新时间:2026-03-12 01:16:11
1.優化失敗的原因

如何看懂降維打擊(升維的降維打擊)1

圖1 訓練參數的常見情況

在上一節(“山外有山比山高”-為什麼叫深度學習?)中,讨論了如何通過梯度下降方法訓練深度學習模型。随着參數訓練更新次數的增加,可能會遇到兩種常見的失敗情況:第一種,損失函數随着更新次數的增加呈現出平穩的狀态,并沒有非常明顯的下降趨勢;第二種,損失函數的數值雖然在下降,但是在某次更新後不再繼續下降,且損失函數數值并沒有很小。

這兩種情況發生的原因通常是梯度為0或很小,導緻參數不再更新或變化不大。在高等數學中,将這種梯度為0的情況稱為駐點(Critical Point)。根據損失函數的不同,又可以将駐點細分為局部極小點(Local Minima)、局部極大點(Local Maxima)和鞍點(Saddle Point)。

局部極小點意為在一定範圍内,所有的函數值都比該點的函數值大;局部極大點意為在一定範圍内,所有函數值都比該點函數值小。從二維函數的角度來看,鞍點一個方向的截面呈現出局部極小點的情況,另一個方向的截面呈現出局部極大點的情況,形狀如同“馬鞍”狀。

如何看懂降維打擊(升維的降維打擊)2

圖2 鞍點示例

深度學習模型在參數優化的過程中使用的是梯度下降方法,所以當遇到梯度為0的情況下,可以排除局部極大點的情況。當訓練時遇到局部極小點的情況,便無法判斷下一步的更新方向;但遇到鞍點的情況,或許可以判斷下一步的更新方向。因此,區分當前駐點是局部極小點和鞍點對深度學習模型的參數優化具有極大的參考價值。

2.區分局部極小點和鞍點2.1理論分析

根據局部極小點和鞍點的定義,假設在處梯度為0,需要考慮在向量附近的情況。依據泰勒定理可知,在處附近,可以近似将損失函數進行二階展開。

在式中表示為梯度,是一個向量,有,;是一個矩陣,存儲的是二階導數,被稱為Hessian矩陣,因此有。由損失函數的二階泰勒展開式可知,損失函數在附近的值和梯度的Hessian矩陣有關。

由于為駐點,因此為0,原式轉化為公式(2)。

因此的駐點類型是局部極小點還是鞍點取決于帶有Hessian矩陣的最後一項。

将記為,最後一項則記為。假設對于任意的向量,有大于0,此時 大于,因此的類型為局部極小點;假設對于任意的向量,有小于0,此時 小于,因此的類型為局部極大點;若對于任意的向量,有正有負,此時的類型為鞍點。

依據線性代數的矩陣理論對于任意的向量,大于0,可認為為正定矩陣(Positive Definite),此時矩陣的所有特征值(Eigen Value)均大于0;對于任意的向量,小于0,可認為為負定矩陣(Negative Definite),此時矩陣的所有特征值(Eigen Value)均小于0;對于任意的向量,有正有負,此時矩陣的所有特征值(Eigen Value)也有正有負。綜上,駐點類型的判斷取決于Hessian矩陣,如果Hessian矩陣為正定矩陣,其所有的特征值均大于0,駐點類型為局部極小值;如果Hessian矩陣為負定矩陣,其所有的特征值均小于0,駐點類型為局部極大值;如果Hessian矩陣有正有負,其所有的特征值也有正有負,駐點類型為鞍點。

2.2實例分析

通過一個案例來分析判斷駐點是局部極小點、局部極大點和鞍點的哪一種。假定,機器學習模型為,隻有一筆訓練數據x=1,y=1。該圖繪制出了損失函數随兩個參數和變化的曲面圖。最中間黑色點、左下方一排黑色點和右上方一排黑色點是梯度為0的駐點。圖中由藍至紅的顔色變化,表示損失函數數值逐漸增大,因此易知中心黑色點為鞍點,左下方一排黑色點和右上方一排黑色點是局部極小點。

如何看懂降維打擊(升維的降維打擊)3

圖3 駐點研判分析

可以從數學理論的角度來分析這些駐點的類型。計算該模型的損失函數可得公式(3)

根據上面的理論分析,首先需要求其駐點,分别求損失函數關于w_{1}和w_{2}的偏導數可得公式(4)。

可得駐點為,或。,對應的點即為圖中中心黑色點;對應的點即為左下方一排黑色點和右上方一排黑色點。接下來計算二階偏導數,可得Hessian矩陣見公式(5)。

分别将,和代入Hessian矩陣可得矩陣見公式(6)和公式(7)。

計算式(6)對應的特征值可求得,,因此中間黑色的點為鞍點;計算式(7)對應的特征值可求得公式(8)

由公式(8)可知,和必有一值為0,且和之和大于等于0,因此,左上和右下黑色的點為局部極小點。

3.鞍點的更新方法

在訓練深度模型的過程中,如果參數更新停留在鞍點,從理論上來說,可以找到下一步的更新方向。對公式(2)進一步分析,假設是的特征向量,是特征值且小于0,且和的差距為特征向量。因此,公式(2)的後半部分可寫成。由線性代數理論可得(9)式

由于小于0,因此公式(9)表示,當和的差距為特征向量時即\,。因此,隻需要沿着的方向更新參數,便可以使損失函數下降。

如何看懂降維打擊(升維的降維打擊)4

圖4 鞍點更新的示例

仍以模型為例,取的特征值,易知其中一個特征向量為

因此,如圖所示的黑色箭頭部分即為特征向量的方向,隻需要沿着右上方更新參數,參數會更新至局部極小點。

4.升維的“降維打擊”

如何看懂降維打擊(升維的降維打擊)5

圖5 鞍點和局部極小點比較

在實際訓練的過程中,參數更新遇到鞍點的情況比局部極小點的情況多。以上圖為例,左上方是一個二維參數的損失函數曲線;左下方是一個三維參數的損失函數曲面。左上方的曲線可以看成左下方曲面的二維投影,在二維的時候紅色的駐點為局部極小點,在三維的時候紅色的駐點就成了鞍點。駐點為鞍點仍然有可能是損失函數下降,而駐點為極小點,參數的更新就遇到了瓶頸,無法進一步優化更新。

這表明,當模型維度上升時,駐點為鞍點的概率随着增加了,對比低維度的模型實際上起到了“降維打擊”的作用。登高望遠,站的高度越高,視野就更加開闊了,可選擇的道路和方向就多了。這和荀子“登高而招,臂非加長也,而見者遠;順風而呼,聲非加疾也,而聞者彰。假輿馬者,非利足也,而緻千裡;假舟楫者,非能水也,而絕江河。君子生非異也,善假于物也。”的思維是一緻的。

如何看懂降維打擊(升維的降維打擊)6

圖6 實際訓練的情況

圖中藍色的點表示,訓練一個神經網絡參數更新至駐點時的情況,縱軸表示損失函數的數值,橫軸表示正的正的特征值在所有特征值的比值。如圖所示,由于基本上無法找到一個比值為1的點,因此在實際進行深度學習模型訓練的過程中,遇到的大部分駐點都是鞍點(特征值都有正有負),局部極小點基本上不會出現。

更多學習資料請關注我的微信公衆号白澤圖鑒獲取!!!

如何看懂降維打擊(升維的降維打擊)7

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
泛光燈與投光燈的區别-泛光燈的應用
泛光燈與投光燈的區别-泛光燈的應用
泛光燈與投光燈的區别-泛光燈的應用什麼是泛光燈?泛光燈,顧名思義,就是一種可以向四面八方均勻照射的點光源。它的照射範圍可以任意調整,在場景中表現為一個正八面體的圖示。泛光燈是在效果圖制作當中應用最廣泛的一種光源,标準泛光燈用來照亮整個場景。場景中可以應用多盞泛光燈,以産生較好的效果。泛光燈是在效果圖...
2026-03-12
電水壺怎麼使用
電水壺怎麼使用
泡咖啡、泡茶、泡面、喝剛燒好的新鮮開水,這些都是現代都市人的生活習慣。快速電水壺能在最短的時間内提供沸水,這正好與現代人的生活節奏合拍。【1】應将電水壺放置于耐熱的台面上或地上使用。如果在木質台面或地面上使用,應墊一層耐熱的物品,或注意其使用時間不要過長。【2】注水要超過電熱管,但不要太滿;電源線插...
2026-03-12
電水壺使用三大注意事項
電水壺使用三大注意事項
電水壺使用時應注意以下三點:注入壺内液體至少高于發熱器表面幾毫米,經常清除壺中水垢,以及時常檢查膠木插座周圍有無壺水滲漏現象。以下内容由作文庫知識百科整理,供您參考。【1】注入壺内的液體至少應高于發熱器最高表面幾毫米,但不能超過規定的最高水位線;使用時必須先裝水,後通電,切忌先通電,後裝水;切勿用電...
2026-03-12
空調是怎麼制熱的?
空調是怎麼制熱的?
空調是怎麼制熱的?空調是怎麼制熱的?我們一般使用的家用空調器普遍都是采用機械壓縮式的制冷裝置,其基本元件共有四件,分别是壓縮機、蒸發器、冷凝器和節流裝置,四者是相連,共同完成整個工作流程,其中裡面裝着制冷劑,又稱制冷工質。壓縮機在空調中就像一顆跳動的心髒,帶動制冷劑在空調器中連續不斷的流動,輸送到其...
2026-03-12
防輻射的小秘訣
防輻射的小秘訣
防輻射的小秘訣防輻射的小秘訣1、挑選正規廠家的名牌家電産品。一般大品牌的家電輻射都經過了國家有關部門的嚴格檢測,可保證安全。2、對各種電器的使用,應保持一定的安全距離。孕婦要遠離微波爐、電腦至少1米以外,電視與人的距離應在4至5米,與燈管距離應在2至3米。不使用的電器,一定要關上電源。帶有輻射的部分...
2026-03-12
Copyright 2023-2026 - www.tftnews.com All Rights Reserved