首页
/
每日頭條
/
生活
/
統計學中最常見的概率分布形态
統計學中最常見的概率分布形态
更新时间:2024-09-29 18:23:36

随機變量在概率空間中遵循不同類型的分布,這決定了它們的特征并有助于預測。

本文内容列表:

· 引言

· 高斯/正态分布(Gaussian/Normal Distribution)

· 二項分布(Binomial Distribution)

· 伯努利分布(Bernoulli Distribution)

· 對數正态分布(Log Normal Distribution)

· 幂律分布(Power Law Distribution)

· 分布函數的使用

引言

每當我們遇到任何概率實驗,我們談論的是随機變量,它隻不過是獲取實驗預期結果的變量。例如,當我們擲骰子時,我們期望從集合{1,2,3,4,5,6}中得到一個值。所以我們定義了一個随機變量X,它在每次擲骰時取這些值。

根據實驗的不同,随機變量可以取離散值,也可以取連續值。骰子的例子是離散随機變量,因為它取一個離散值。但是假設我們讨論的是某個城鎮的房價,那麼相關的随機變量可以取連續的值(例如550000美元,1200523.54美元等等)。

當我們将随機變量的期望值與實驗中出現頻率的關系圖繪制出來時,我們得到了一個直方圖形式的頻率分布圖。利用核密度估計對這些直方圖進行平滑處理,得到了一條很好的曲線。這條曲線被稱為"分布函數"。

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)1

橙色平滑曲線是概率分布曲線

高斯/正态分布

高斯/正态分布是一個連續的概率分布函數,随機變量在均值(μ)和方差(σ²)周圍對稱分布。

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)2

高斯分布函數

平均值(μ):決定峰值在X軸上的位置。而且,所有數據都對稱地位于X=μ線的兩側。如圖所示,藍色、紅色和黃色曲線分布在X=0的兩側,而綠色曲線的中心位于X=-2。所以通過觀察這些曲線,我們可以很容易地說,藍色,紅色和黃色的平均值是0,而綠色的平均值是-2。

方差(σ²):決定曲線的寬度和高度。方差隻不過是标準差的平方。請注意,圖中給出了所有四條曲線的σ²值。現在不看數值,我們可以很直觀地發現,黃色曲線的高度最低。

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)3

如果我們設置μ=0和σ=1,則稱為标準正态分布或标準正态變量,一般表達式變為:

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)4

标準正态分布函數

現在我們可以思考,分母意味着什麼?這是為了确保正态分布曲線下的面積總是等于1。

我們從正态分布中可以得到很多有用的數據分割信息。以下圖為例:

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)5

正态分布的值分割圖

如圖所示,如果我們從平均值右移一個标準差,這個分布存儲了總質量的34.1%;如果我們從平均值右移2個标準偏差,則為49.8%。因為這條曲線是對稱的,所以兩邊都适用。

所以,現在我們知道了,如果任何數據服從正态分布,例如城鎮人口的權重,我們可以很容易地估計出很多值,而不需要進行實際的廣泛分析。這就是正态分布的力量。

二項分布(Binomial Distribution)

正如我們在名字裡看到的,有一個"Bi"。這個'Bi'代表一個實驗的2個結果,要麼是肯定的,要麼是失敗的,要麼是1或者0等等。最簡單的說,這個分布是多次重複實驗的分布以及它們的概率,其中預期結果要麼是"成功"要麼是"失敗"。

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)6

二項分布

從圖像上可以看出,它是一個離散的概率分布函數。主要參數為n(試驗次數)和p(成功概率)。

現在假設我們有一個事件成功的概率p,那麼失敗的概率是(1-p),假設你重複實驗n次(試驗次數=n)。那麼在n個獨立的伯努利試驗中獲得k個成功的概率是:

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)7

二項分布函數

其中k屬于範圍[0,n],并且:

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)8

現在我們思考一個簡單的問題。假設印度和澳大利亞之間正在進行闆球比賽。Rohit Sharma已經得到了151分,根據你的經驗,你知道150分之後,Rohit有0.3分的概率達到6分。這是最後一節了,你父親問你Rohit有多大的機會能打4個全壘打。那你怎麼判斷呢?

這是一個典型的二項試驗的例子。所以,解決辦法是:

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)9

注:大括号中的6和4是6C4,它是6個球中4個全壘打的可能組合。

伯努利分布

在二項分布中,我們有一個特殊的例子叫做伯努利分布,其中n=1,這意味着在這個二項實驗中隻進行了一次試驗。當我們把n=1放入二項PMF(概率質量函數)中時,nCk等于1,函數變成:

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)10

伯努利分布PMF

式中,k={0,1}。

現在我們來看看印度隊對澳大利亞隊的比賽。假設當Rohit達到100分(a ton),那麼印度獲勝的幾率是0.7。所以你可以簡單地告訴你父親印度有70%的機會赢了。

對數正态分布

我們已經了解了正态分布的性質,乍一看,許多人會說,對數正态曲線在某種程度上也讓我們看到了正态分布是右偏态的。

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)11

假設有一個随機變量X服從對數正态分布,均值=μ,方差=σ²。X有總共n個可能值(x1,x2,x3…..xn)。現在取所有X值的自然對數,并創建一個新的随機變量Y=[Log(x1),Log(x2),Log(x3)…Log(xn)]。這個随機變量Y是正态分布的。

換句話說,如果存在正态分布Y,并且我們取它的指數函數X=exp(Y),那麼X将遵循對數正态分布。

它還具有與高斯函數相同的參數:均值(μ)和方差(σ²)。

幂律/帕累托分布

幂律是兩個量之間的關系,其中一個量的變化将成比例地改變另一個量。它遵循一個80-20法則:在前20%的值中,我們可以找到大約80%的質量密度。如圖所示,稍暗的左側部分為質量的80%,右側亮黃色部分為20%。

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)12

當概率分布遵循幂律時,我們稱之為帕累托分布。帕累托分布由兩個參數控制:xm和α。xμm可以看作是控制曲線尺度的均值,α可以看作是控制曲線形狀的σ。(注:xm不是平均值,α不是σ。)現在我們可以在圖像中看到,所有四條曲線的峰值都位于x=1。所以,我們可以說對于圖中的所有曲線,x_m=1。随着α的增加,峰值也會上升,在α趨于無窮大的極端情況下,曲線僅轉變為一條垂直線。這叫做Diracδ函數。随着α的減小,曲線變得更加平緩。

統計學中最常見的概率分布形态(概率論和統計學中重要的分布函數)13

帕累托分布PMF

分布函數的使用

如果我們知道一個特定的數據遵循一定的分布特征,那麼我們可以采取部分樣本,找到所涉及的參數,然後可以繪制出概率分布函數來解決許多問題。例如:在一個有10萬人口的城鎮,我們必須做身高分析,但我們不能對這麼多人口進行調查。因此,我們選取一個随機樣本,求出樣本均值和樣本标準差。現在假設一位醫生或專家告訴我們身高服從正态分布。這樣我們就可以輕松地回答許多問題了。

作者: Saurabh Raj

deephub翻譯組:Oliver Lee

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
Copyright 2023-2024 - www.tftnews.com All Rights Reserved