首页
/
每日頭條
/
圖文
/
統計學原理中簡述假設檢驗的步驟
統計學原理中簡述假設檢驗的步驟
更新时间:2024-07-19 13:05:36

1.基本思想

我們還是從問題開始讨論。這回提個接地氣的問題——雄安新區批複前後對該地區房價是否有差異?嗯,假設檢驗其實就是為了解決這類問題。假設檢驗的基本思想——我們有樣本,但是無法獲得總體,需要對總體的分布形式或分布參數事先作出某種假設,然後根據樣本觀測值,運用統計分析的方法來檢驗這一假設是否正确。分解開來,假設檢驗=假設 檢驗(或者假設檢驗)。假設(hypothesis)——對總體的參數的具體數值(或分布形式)所作的陳述(總體參數包括總體均值、比例、 方差等,分析之前必需陳述)。假設檢驗(hypothesis test)—先對總體的參數( 或分布形式) 提出某種假設,然後利用樣本信息判斷假設是否成立的過程(有參數檢驗和非參數檢驗;邏輯上運用反證法, 統計上依據小概率原理)。如圖。

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)1

2.原假設和備擇假設

從前面的介紹我們知道,假設檢驗的第一步是建立假設。那麼假設分為兩種(原假設和備擇假設)。那麼這二者具體又是什麼呢?

  • 原假設(null hypothesis)——原假設又稱“ 0假設”,總是有符号 =, ≥ 或≤,表示為 H 0 H_0H0。是研究者想收集證據予以反對的假設(生産實踐中常對應正常情形,如均值與設計一緻);一般來說,原假設是一旦拒絕便要采取行動的假設。因此, 原假設總是“受到保護的假設” ,沒有充分的證據是不能拒絕原假設的。例如,對一家信譽很好的工廠的産品進行檢驗,原假設一般是“ 産品合格”。
  • 備擇假設(alternative hypothesis)——研究者想收集證據予以支持的假設, 一旦發生就要采取行動, 是與原假設對立的假設,也稱“研究假設”,總是有符号 ≠, > 或 <,表示為 H 1 H_1H1​。

總結起來就是,原假設是統計學史上最悲催角色——它從一開始誕生,就是為了被科學家們發好人卡拒絕而存在的一個假設。備擇假設才是科學家們追求的白富美。搞明白了這兩個假設,下一步我們做假設檢驗的時候,就要先提出假設了,這裡給了一些提出假設的要點:

  • 原假設和備擇假設是一個完備事件組, 而且相互對立(在一項假設檢驗中, 原假設和備擇假設必有一個成立, 而且隻有一個成立)。
  • 先确定備擇假設, 再确定原假設。
  • 等号“ =” 總是放在原假設上。
  • 因研究目的不同, 對同一問題可能提出不同的假設( 也可能得出不同的結論)。

同時在實際應用中,我們有不同的需求,因此又有雙側檢驗和單側檢驗的區分。

  • 雙側檢驗——備擇假設沒有特定的方向性,并含有符号“=”的假設檢驗,稱為雙側檢驗或雙尾檢驗(two-tailed test)
  • 單側檢驗——備擇假設具有特定的方向性,并含有符号“>”或“<”的假設檢驗,稱為單側檢驗或單尾檢驗(one-tailed test)。其中備擇假設的方向為“<”,稱為左側檢驗,備擇假設的方向為“>”,稱為右側檢驗。

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)2

原假設與備擇假設形式:

所見即所得,用一張圖來表示假設檢驗過程。

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)3

所以拒絕原假設的理由是假設檢驗中的小概率原理。那麼什麼是小概率?

  • 在一次試驗中, 一個幾乎不可能發生的事件發生的概率。
  • 在一次試驗中小概率事件一旦發生, 我們就有理由拒絕原假設。
  • 小概率由研究者事先确定。

所以拒絕H 0 H_0H0​的理由就是

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)4

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)5

3.第一類錯誤和第二類錯誤

上文介紹了假設檢驗的過程,但是假設檢驗過程會不會出現錯誤呢?其實大家仔細分析拒絕原假設的理由就會發現問題了。通常情況下原假設是小概率事件,但是小概率事件≠0概率事件。小概率事件不是不發生,而是發生概率較小。就像天氣預報說明天有99%的可能不下雨,結果1%的可能性成為了事實,明天下雨了。因此假設檢驗中會有兩類錯誤(棄真錯誤和取僞錯誤)經常出現。(1)第一類錯誤(棄真錯誤):

  • 原假設為真時拒絕原假設。
  • 第一類錯誤的概率為α(沒錯,就是它,我們的好朋友,小α。咳咳咳,就是顯著性水平,一般由研究者事先指定,常用的值有0.01, 0.05, 0.10)。

(2)第二類錯誤(取僞錯誤):

  • 原假設為假時未拒絕原假設。
  • 第二類錯誤的概率記為β。

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)6

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)7

α和β的關系——α和β的關系就像翹翹闆, α小β就大,α大β就小。所以兩類錯誤不可能同時發生(第一類隻在H 0 H_0H0​為真時發生,第二類隻在H 0 H_0H0​為假時發生)。影響β的因素:

  • 總體參數的真值。
  • 顯著性水平α(當α減少時增大)。
  • 總體标準差σ(當σ增大時增大)。
  • 樣本容量n(當n減少時增大)。

4.統計量與拒絕域

講了這麼多,但是還沒有介紹假設檢驗的計算過程。假設檢驗的過程依賴于兩個重要數學概念(統計量與拒絕域,前面已經有稍微提到了)。這裡再做具體介紹。檢驗統計量(test statistic)——根據樣本觀測結果計算得到的, 并據以對原假設和備擇假設作出決策的某個樣本統計量,是對樣本估計量的标準化結果(原假設H 0 H_0H0​為真,點估計量的抽樣分布)。标準化的檢驗統計量公式為:标 準 化 的 檢 驗 統 計 量 = 點 估 計 量 − 假 設 值 點 估 計 量 的 抽 樣 标 準 差 标準化的檢驗統計量=\frac{點估計量-假設值}{點估計量的抽樣标準差}标準化的檢驗統計量=點估計量的抽樣标準差點估計量−假設值​顯著性水平和拒絕域的三種情況:雙側檢驗:

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)8

左側檢驗:

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)9

右側檢驗:

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)10

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)11

5.利用p值進行決策

如何利用假設檢驗解決實際問題?很重要的一個應用是在決策上。就如标題說的,利用p值進行決策。那麼什麼是p值?p值(p-value):在一個假設檢驗問題中,拒絕原假設的最小顯著性水平。

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)12

p值法步驟(以大樣本均值為例)将樣本統計量轉換成檢驗統計量z

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)13

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)14

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)15

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)16

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)17

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)18

這裡順帶提下作為統計推斷的兩大分支的區間估計和假設檢驗的關系。

  • 過程相似:如果假設均值在95%的置信區間之外,雙邊檢驗将拒絕原假設(顯著性水平為5%)。
  • 邏輯不同:置信區間——不知道均值多少而要估計它;假設檢驗: 假定一個均值要看數據是否支持這個假設。

另外還是要談一談統計學與實際問題——這裡談的是統計顯著性和實際顯著性。

一個被拒絕的原假設意味着有統計顯著性,但未必有實際顯著性。這種情況常發生在大樣本或精确測量場合,如Kepler的行星運行第一定律:行星軌道是橢圓的,當時吻合程度很好,100年後,儀器更高級、測量更精确,該假設被拒絕,因為行星間交互作用導緻攝動。因此不要盲目使用統計顯著性。此外,顯著性水平α的選擇也是個很關鍵的問題。一般來說:

  • α不宜過小,否則第二類錯誤概率會較大。
  • α的選擇與判斷發生錯誤時要付出的代價大小有關。
  • α的選擇是決策問題。

單樣本T檢驗就是要利用來自某總體的樣本數據,推斷該總體的均值和指定的檢驗值之間是否存在顯著性差異。它是對總體均值的假設檢驗,檢驗的前提是總體服從正态分布。

7.兩個總體參數的檢驗

講完了一個總體參數,照例來講就兩個總體參數(兩個總體均值之差,兩個總體比例之差,兩個總體方差比)。

獨立大樣本兩總體均值之差檢驗

假定條件:

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)19

配對樣本的T檢驗。同樣的兩組數據,根據它們之間關系的不同,可以分為獨立樣本或配對樣本,獨立樣本和配對樣本對應的T檢驗的自由度是不同的,這是它們作T檢驗最大的區别。

配對樣本T檢驗的前提條件:

  • 兩個樣本必須是配對的,也就是相關的;
  • 兩個樣本所來自的總體都應該服從正态分布,這是T檢驗使用的基本條件;

在醫學和教學領域,配對樣本T檢驗應用是非常多的,例如以下幾種情況:

  • 同一受試者處理前和處理後數據的配對;同一受試者的兩個局部的數據的配對;同一受試者用兩種方法測量的數據的配對;配對的兩個受試者分别接受兩種不同的處理後的數據的配對。
  • 考察某種教學方法對學生成績的影響,使用新型教學方法前後,同一個班級學生成績的變化等。

配對樣本T檢驗步驟首先對兩組樣本分别計算出每對觀測值的差值(應用新教學方法後,同一個學生的前後兩次考試成績的差值),得到一個新的差值樣本;然後通過對差值樣本的均值是否與0有顯著性差異來檢驗兩個總體的均值差是否與0有顯著性差異;若差值樣本的均值遠離0,則認為兩總體的均值有顯著差異;反之,若差值樣本均值在0附近波動,則認為兩個總體的均值不存在顯著差異。

俗話說的好:“沒有買賣就沒有傷害”,“假貨”幾乎是所有人深惡痛絕的東西,生活中無時不刻地進行各種商品的買賣,如何識别假貨成為各位買家的一大頭疼問題。所謂假貨,就是于真貨來源不同的物體。分别把真貨和假貨的各種商品情況來比較分析兩種商品是否有明顯差異,最終斷定孰真孰假。這就是接下來要介紹的獨立樣本T檢驗。統計學原理兩個獨立樣本T檢驗的原假設為兩個總體均值之間不存在顯著性差異,需分兩步完成:①利用F檢驗進行兩總體方差的同質性判斷;②根據方差同質性的判斷,決定T統計量和自由度計算公式,進而對T檢驗的結果給予恰當的判定。1、方差同質性檢驗;在統計過程中,SPSS将自動計算F值,并将F值給出的統計量對應的顯著性概率P值和顯著性水平α進行比較,從而判斷方差是否同質。2、根據方差同質性判斷,确定T統計量和自由度計算公式

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)20

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)21

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)22

統計學原理中簡述假設檢驗的步驟(統計學之假設檢驗)23

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
南通供地最新消息
南通供地最新消息
安置房小區為何"飛線"不停?跨區界河髒亂差為何清淤工作進展緩慢?鎮政府公開拍賣的房産莫名被收回?培訓機構入校教學退費為何這麼難?9月14日上午,南通市委副書記、市長吳新明帶領各縣市、區政府以及市各相關職能部門主要負責人走進《政風熱線·市長上...
2024-07-19
國乒女單16強排名
國乒女單16強排名
結束了WTT世界杯的征程,國際乒聯公布了本周最新一期的世界排名,其中在女單項目上,國乒女隊繼續壟斷前4名,孫穎莎連奪澳門冠軍賽和世界杯冠軍之後,拉開了和陳夢的差距,鞏固了第1的位置,中國女單在前30位中有8人,經過世界杯一站比賽後更新的世界...
2024-07-19
農村扶貧年貨節活動方案
農村扶貧年貨節活動方案
28日,主題為“助力精準扶貧,推動鄉村振興”的2019廣東•吳川(穩村)番薯文化節暨消費扶貧月活動在吳川市黃坡鎮穩村開幕,番薯文化節于12月28日-29日舉行,消費扶貧月活動将持續到春節期間。該活動在吳川市委市政府指導下,由吳川市總商會、湛...
2024-07-19
七年級上冊數學第一月考卷及答案
七年級上冊數學第一月考卷及答案
開學已經三周左右了,大部分同學在下周或者十一以後就要迎接新學期的第一次月考了,所以,在同學們月考之前,小柒老師給同學們整理了七年級數學的月考提分資料,送給同學們,希望同學們在新學期的第一次月考取得好成績,為後面章節的學習打好基礎。第一張豐富...
2024-07-19
李字最簡單寫法
李字最簡單寫法
李字來源李,中國漢字,讀作:lǐ。該字的主要字義是指一種落葉小喬木,果實稱“李子”,熟時呈黃色或紫紅色,可食:李代桃僵(原用“桃”“李”共患難來喻兄弟相愛相助,後喻互相頂替或代他人受過)。投桃報李。李下不正冠(喻要避免不必要的嫌疑)。桃李不...
2024-07-19
Copyright 2023-2024 - www.tftnews.com All Rights Reserved