怎麼樣理解置信區間-tft每日頭條

怎麼樣理解置信區間（置信區間其實很容易懂）1

舉個例子，比如你想知道全國所有中學生的平均身高，你不可能去測量每一個學生的身高，因此采取了随機抽樣的方式，用樣本去預估去全國所有中學生的身高。

假設你随機抽取了100名學生，其平均身高為150cm，方差為25。

點估計

如果你用100個樣本的平均值得出全國中學生的平均身高是150cm，這就是點估計，150cm就是點估計量（根據中心極限定理，樣本的均值和總體的均值是相似的）。

區間估計

如果你不想用樣本的一個平均值去估計整體的平均值（比如150cm），而是用一個區間去估計（比如140-155cm），這就叫區間估計。區間估計相比點估計留有更大的容錯空間。

區間的範圍很大，你可以預測身高是149-151cm之間，也可以預測是140-160cm之間，也可以是其他。但你會看到，前者相比後者預測準确的概率更低，因為其預測的區間範圍太窄；而後者預測準确的概率更高，因為其預測的區間範圍更寬。

這就像投擲一次骰子，如果你預測是3-6，小明預測3-4，那麼你猜對的概率是67%，而小明猜對的概率是33%，你比小明猜對的可能性更大。

所以，具體如何确定估計的範圍（也就是置信區間）取決于你對預估結果準确概率的要求（也就是置信水平）。如果你希望結果準确的概率更高，那麼區間的範圍（置信區間）就設置的越寬；如果置信水平越低，置信區間就設置的越窄。

怎麼樣理解置信區間（置信區間其實很容易懂）2

如何設置置信區間

還是以上文中學生的身高為例，已知100個樣本的平均身高為150cm，方差為25；請預估全國中學生整體的身高範圍（置信區間）。

假設全國中學生的平均身高為μ，标準差為σ；則我們要求的是μ在某個置信水平的取值範圍，總體X服從正态分布

怎麼樣理解置信區間（置信區間其實很容易懂）3

假設100個樣本的平均體重為x（x=150cm），根據中心極限定理，則樣本均值也服從正态分布

怎麼樣理解置信區間（置信區間其實很容易懂）4

由于樣本平均值是呈正态分布的，我們便可以通過這條神奇的曲線推出以下結論：

（1）約有68%的樣本平均值會在群體平均值一個标準誤差的範圍之内；（2）約有95%的樣本平均值會在群體平均值的兩個标準誤差的範圍之内；（3）約有99.7%的樣本平均值會在群體平均值三個标準誤差的範圍之内。

标準差的計算公式如下圖所示：其中SE代表标準誤差，SD代表标準差，N代表樣本量。

将方差=25，n=100帶入到公式中，則100名樣本的平均身高服從正态分布~N(μ, 0.25)。

然後，設置置信水平，常見的有68%，95%，99.7%，此處設置95%的置信水平，則

P(μ-2 * SE < x < μ 2 * SE)=0.95，SE為标準誤差，根據上文公式計算為0.5，帶入公式中為 P(μ-2 * 0.5< x < μ 2 * 0.5)=0.95 , 即P( μ-1< x < μ 1）=0.95 。

求出總體均值μ的範圍 x-1 < μ < x 1，帶入樣本量的平均體重 x =150，則總體的平均體重範圍即95%的置信區間為149 <u < 151，也就是說全國中學生的平均體重有95%的概率在149到151cm之間。

,