詳細介紹高斯分布及其與均值、标準差、方差的關系
高斯分布是統計中最重要的概率分布,在機器學習中也很重要。因為很多自然現象,比如人口的身高,血壓,鞋子的尺碼,教育指标,考試成績,還有很多更重要的自然因素都遵循高斯分布。
我相信,你聽說過這個詞,在某種程度上也知道它。如果沒有,也不要擔心。這篇文章将會解釋清楚。我在Coursera的Andrew Ng教授的機器學習課程中發現了一些令人驚歎的視覺效果。他知道如何将一個主題分解成小塊,使它更容易解釋。
他使用了一些可視化方法,讓人們很容易理解高斯分布及其與相關參數(如均值、标準差和方差)的關系。
在這篇文章中,我從他的課程中截取了一些圖像,并在這裡用它來詳細解釋高斯分布。
高斯分布高斯分布是正态分布的同義詞。它們是一樣的東西。假設,S是一組随機值,其概率分布如下圖所示。
這是一個鐘形曲線。如果一個概率分布圖像上面那樣形成一個鐘形曲線,并且該樣本的均值和中位數相同,則該分布稱為正态分布或高斯分布。
高斯分布由兩個參數:
a.平均數
b.方差
所以,高斯密度在mu或均值處是最高的,離均值越遠,高斯密度就越低。
這是高斯分布的公式:
方程左邊是x的概率參數是和的平方。這是鐘形曲線的公式其中平方稱為方差。
高斯分布與平均值和标準差有什麼關系在這一節中,我将展示一些圖片,讓你們清楚地了解參數和與鐘形曲線的關系。我将展示三幅圖在這三幅圖中mu固定在0處而sigma不同。
注意曲線的形狀和範圍是如何随不同的sigma變化的。
這是一組随機數的概率分布mu = 0,而sigma = 1。
在這幅圖中,mu是0,這意味着最大的概率密度是0,sigma是1。表示曲線的寬度是1。
注意,曲線的高度大約是0.5,範圍是-4到4(看x軸)。方差的平方是1。
這是另一組随機數0,0.5。
因為mu是0,就像之前的圖一樣最大的概率密度是0,sigma是0.5。曲線的寬度是0.5。方差的平方變成0.25。
由于曲線的寬度是前一條曲線的一半,因此高度加倍。範圍改變為-2到2 (x軸),這是前一張圖片的一半。
在這幅圖中,sigma= 2 mu= 0。
将其與圖1比較,其中sigma為1。這一次,高度變成了圖1的一半,寬度随着變成兩倍。
方差平方是4,比圖1大4倍。x軸的範圍是-8到8。
此示例與前三個示例略有不同。
這裡,我們把mu改為3 sigma = 0.5,如圖2所示。因此,曲線的形狀與圖2完全相同,隻是中心移動到了3。現在最大的密度是3。
上面的四條曲線用不同的參數改變形狀但曲線的面積保持不變。
概率分布的一個重要性質是,曲線下的面積積分為1。
參數計算假設我們有一系列數據。如何計算mu(均值)和标準差?
mu的計算很簡單。這隻是平均數。把所有數據的總和除以數據的總數。
這裡,xi是數據集中的單個值,m是數據的總數。
方差公式為:
标準差就是方差的平方根。
多元高斯分布假設有多組數據,我們需要多元高斯分布。假設我們有兩組數據;x1和x2。
單獨建模p(x1)和p(x2)對于理解兩個數據集的組合效果可能不是一個好主意。在這種情況下,您可能希望将數據集和模型僅結合在一起建立p(x)。
這是計算多元高斯分布概率的公式,
多變量高斯分布的可視化表示
在本節中,我們将看到多元高斯分布的可視化表示,以及曲線的形狀如何随mu、sigma以及變量之間的相關性而變化。
從标準正态分布開始
該圖表示多元高斯分布的概率分布,其中x1和x2的mu都為零。
請不要被這裡的求和符号搞糊塗了。這是一個單位矩陣,其中對角線上的1是x1和x2的sigma。而非對角線上的零表示x1和x2之間的相關性。在這個例子中x1和x2是不相關的。
這裡的圖片很簡單。在x1和x2方向上,當mu為0時,最大的概率密度為0。
中間的深紅色區域是概率密度最高的區域。在淺紅色、黃色、綠色和青色區域,概率密度繼續降低。深藍色區域是最低的。
改變标準差
現在,讓我們看看如果sigma變小一點會發生什麼。x1 x2的sigma都是0.6。
正如我之前提到的,曲線下的面積要積分為1。标準差減小時,曲線範圍減小。同時,曲線的高度變高,以調整區域。
相反,當sigma越大,範圍就越大。所以曲線的高度變低了。
看看圖6,曲線和範圍的高度變化幾乎與我之前在單變量高斯分布中顯示的圖相似。
x1和x2的值并不總是相同的。我們來看看這樣的例子。
在圖7中,x1的sigma = 0.6, x2的sigma = 1。
x1的範圍變小了,因為标準差變小了。
在圖8中,它與前一張圖相反。
x1的sigma是x2的兩倍。
這次x1有更大的範圍。
改變變量之間的相關因素
這是一個完全不同的場景。在圖9中,非對角線值不再是零。而是0.5。它表明x1和x2的相關系數為0.5。
x1和x2的範圍是一起增長的因為它們是正相關的。
當x1大時,x2也大當x1小時,x2也小。
在圖10中,x1和x2之間的相關性更大,為0.8!
所有的概率都在一個狹窄的區域内。分布也看起來又高又瘦。
在上面所有的圖片中,x1和x2之間的相關性要麼是正的,要麼是零。讓我們看一個相關系數為負的例子。
在圖11中,x1和x2的相關性為-0.8。
你可以看到概率又在一個小範圍内了。但是當x1大,x2小,當x1小,x2大。
最後,我們需要檢驗不同均值我們來看看mu不同時圖像的變化。
在圖12中,mu對于x1是0,對于x2是0。5。
看看圖片上的範圍。對于x2,曲線的中心從0開始移動。
中心位置或最高概率分布點現在應該是0.5。
在圖13中,mu對于x1 為1.5,對于x2 mu為-0.5。
x1方向上最高概率點是1.5。同時,對于x2方向,最高概率點為-0.5。
總的來說,整個曲線都在移動。
結論我希望這篇文章對理解高斯分布和它的特征有幫助。我試圖展示和解釋曲線與不同參數之間的關系。希望,當你在統計或機器學習中使用高斯分布時,會簡單得多。
作者:Rashida Nasrin Sucky
deephub翻譯組:孟翔傑
,