卡方檢驗我們需要了解的以下幾個方面:單個樣本分布的拟合優度檢驗,獨立樣本的2*2列聯表資料的卡方檢驗,獨立樣本R*C列聯表資料的卡方檢驗,配對2*2列聯表的卡方檢驗。
那麼卡方檢驗是指一種連續型随機變量的概率分布,如果有許多個獨立的标準正太分布随機變量,那麼獨立随機分布之和稱為服從自由度為V的卡方分布,卡方分布的概率密度曲線的形狀以來于自由度的大小。
基本思想:拟合優度檢驗是根據樣本的頻率分布檢驗其總體分布是否符合某給定理論分布,卡方值反映了樣本實際頻率分布于理論分布的符合程度。
拟合優度卡方檢驗應該注意的事項:
-
分組不同拟合的結果可能不同,一般要求分組時每組中的理論頻數不小于5.
-
需要有足夠的樣本含量,如果樣本含量不大,需要經連續性教正,我們也有相應的校正公式。
實際上是兩獨立樣本率差異的比較,即根據兩獨立樣本的頻率分布,檢驗兩個樣本的總體分布是否相同。
那麼一般可以直接應用卡方檢驗公式,也可以使用等價的專用公式或者校正公式。
在使用專用公式的時候:n不小于40,T(理論值)不小于5;
在當n>=40的時候,但是某個格子出現1<=T<5,此刻需要校正的公式;
當n<40或者T<1的時候,則需要用Fisher确切概率法檢驗。
目的:1.多個獨立樣本率的比較:根據R個獨立樣本的頻率分布,檢驗R個二項分布總體的概率分布是否相同。
2.多個獨立樣本頻率分布的比較:根據R個獨立樣本的頻率分布,檢驗R個總體分布是否相同。
在檢驗的時候應該注意的事項:
-
對于多個率或者頻率分布比較的卡方檢驗,結論為拒絕H0時,僅表示多組之間又差别,并不是任2組之間度有差别,若要明确那兩組之間有差别,則還需要進一步作多組間的兩兩比較;
-
R*C列聯表資料的卡方檢驗要求理論頻數不宜太小,一般不宜有五分之一以上的格子的理論頻數小于5,或有一個理論頻數小于1.
-
卡方檢驗不适用于有序分類資料的比較。
配對2*2列聯表資料卡方檢驗目的:通過配對設計的兩樣本資料來推斷兩方法的陽性概率有誤差異。
對于R*C列聯表資料的配對檢驗,則通過樣本資料來推斷兩個變量的總體概率分布是否相同。
2*2列聯表資料卡方檢驗的确切概率法當出現以下情況的時候,需要使用确切概率法以做判斷:
-
樣本含量小于40
-
理論頻數小于1
-
卡方檢驗後所得概率P接近檢驗水準α
确切概率計算法的基本思想和步驟:
-
在四個表邊緣合集固定不變的條件下,計算表内4個實際頻數變動時的各種組合的概率P
-
按檢驗假設計算單側或雙側的累計概率P
-
把P值與檢驗水準α比較,做出是否拒絕H0的結論.
卡方檢驗是一個非常常見的統計學方法,在率的比較中尤為常用,因此對于不同的應用場景,大家一定要注意.
圖文無關,僅做配圖
,