大家好,歡迎來到MedSPSS小課堂。
細心的小夥伴發現,在我們前幾期的教學案例中,經常會用到正态檢驗,那在數據分析前,為何要做正态檢驗?判斷數據正态有哪些方法?又如何判斷正态檢驗的效果呢?我們本期将使用MedSPSS為大家操作解答。
1. 為何要進行正态檢驗?
正态檢驗主要用于判斷連續性變量是否服從或近似服從正态分布。很多常見的分析檢驗都是以數據正态分布為前提的,如單樣本t檢驗、獨立樣本t檢驗、方差分析、Person相關分析、回歸分析等。在做這些分析之前,都需要對數據進行正态分析,如果數據不服從正态分布,直接進入分析,得到的統計結論可能會無效。
2. 如何判斷數據是否符合正态性?
判斷數據的正态性可采用多種方法,例如描述分析法、直方圖、P-P圖/Q-Q圖、統計檢驗法等。
-
描述分析法
可通過數據的描述分析法得到數據的偏度和峰度系數,檢驗數據的正态性。
-
直方圖
直方圖可直觀地展示數據分布情況,若數據基本符合正态分布,則會呈現中間直方高、兩側直方低、左右基本對稱的“鐘形”,同時再結合正态曲線判斷數據是否符合正态分布。
-
Q-Q圖/P-P圖
Q-Q(Quantile-Quantile)圖,即分位數-分位數圖。圖中橫坐标表示理論正态分位數,縱坐标表示實際數據的分位數。
P-P(Probability-Probability)圖,橫坐标表示正态分布累積比例,縱坐标表示實際數據累積比例。
兩種圖都可以通過散點與正态分布預測直線的重合度來判斷數據是否服從正态分布。
-
統計檢驗法
利用統計圖主觀判斷數據的正态性,容易産生偏差,因此需要再結合統計檢驗法,比較常用的方法有通過峰度和偏度來進行檢驗的SW(Shapiro-Wilk)方法,基于拟合優度的KS(Kolmogorov-Smirnov)和AD(Anderson-Darling)正态檢驗法。
3. 使用案例
下面我們将使用MedSPSS,結合上述檢驗數據正态性的方法,判斷一組體重指數(樣本數量183)是否符合正态分布。
3.1描述分析法判斷正态性
操作步驟:選擇【圖表】-【描述性分析】,拖拽分析項“體重指數”到右側分析框内,點擊“分析”即可得到結果。
分析結果
結果說明:嚴格來說,标準正态分布峰度和偏度都應為0,但現實中數據很難滿足标準的正态分布。一般操作中,若峰度絕對值小于10且偏度絕對值小于3,就能認為數據符合正态分布。因此按照峰度和偏度來判斷,案例中的體重指數滿足正态分布。
3.2直方圖
操作步驟:選擇【圖表】-【常用圖表】-【直方圖】,拖拽分析項“體重指數”到右側分析項内,點擊“分析”即可得到結果。
分析結果
結果說明:“體重指數”的直方圖基本滿足中間高、兩側直方低、左右基本對稱的“鐘形”,數據符合正态分布。
3.3 QQ圖
操作步驟:選擇【圖表】-【常用圖表】-【QQ圖】,拖拽分析項“體重指數”到右側分析項内,點擊“分析”即可得到結果。
分析結果
結果說明:“體重指數”的QQ圖,圖中散點分布近似為一條對角直線,散點與正态分布的預測直線重合度好,數據符合正态分布。
3.4統計檢驗法-SW
操作步驟:選擇【假設檢驗】-【分布檢驗】-【正态檢驗】,拖拽分析項BMI到右側樣本框内,檢驗方法選擇shapiro-wilk,點擊“分析”即可得到結果。
分析結果
正态檢驗智能分析結果
結果說明:采用 shapiro-wilk 檢驗“體重指數”正态性,分析結果的顯著性p值大于 0.05,在95%的置信區間下,沒有呈現出顯著性,故不能拒絕原假設H0,因此數據符合正态分布。
3.5通過統計檢驗法-anderson
操作步驟:選擇【假設檢驗】-【分布檢驗】-【anderson檢驗】,拖拽分析項“體重指數”到右側樣本框内,分布方式選擇正态分布,點擊“分析”即可得到結果。
分析結果
正态檢驗智能分析結果
結果說明:采用anderson檢驗其正态性,分析結果的顯著性p值大于 0.05,在95%的置信區間下,沒有呈現出顯著性,不拒絕原假設H0,因此數據符合正态分布。
4. 其它說明
雖然正态檢驗法可以較為容易地判斷數據是否服從正态分布,但當樣本量較少時,檢驗結果不夠敏感,即數據分布存在偏離也不一定能檢驗出來。而當樣本量較大時,檢驗結果又會太過敏感,數據稍有一點偏離,檢驗結果就會傾向于拒絕原假設,認為數據不服從正态分布。因此,在實際應用中,可結合圖形法和正态檢驗法綜合來判斷數據的正态性。
本期内容分享就到這裡,MedSPSS将持續為大家帶來案例教學,大家在學習的過程中有任何想法,歡迎積極留言。