一、案例說明
案例數據
在“工資影響因素”的調查問卷中,調查了每個人的起始工資、工作經驗、受教育年限、受雇月數、職位等級以及當前工資六個方面。
分析目的
目的是建立以當前工資為因變量的回歸模型,并得出結論。[案例來源于:SPSS統計分析(第5版)盧紋岱,朱紅兵主編,案例有一些變動 具體請看分析。]
二、數據清理在數據分析之前,首先需要進行數據查看,包括數據中是否有異常值,無效樣本等。如果有異常值則需要進行處理,然後再進行分析。另外如果數據中有無效樣本也需要進行處理後再進行分析。無效樣本會幹擾分析研究,扭曲數據結論等,因而在分析前先對無效樣本進行标識顯示尤其必要。異常值的鑒别與處理一般分為三個部分,其中分别是判斷标準,鑒别方法以及異常值的處理,以下從這三個方面進行說明。
異常值的判斷标準如下:
檢驗數據是否有異常值的方法:
異常值處理方法:
此案例對于異常值參照的标準為大于±3個标準差
使用描述分析進行查看發現沒有異常值。
除了對異常值處理外,還需要對于無效樣本的檢查:如果數據來源為問卷,則很可能出現無效樣本,因為填寫問卷的樣本是否真實填寫無從判定;如果數據庫下載或者使用二手數據等,也可能出現大量缺失數據等無效樣本。以下從無效樣本場景、SPSSAU設置标準、處理三方面進行說明。
1.常見場景
2.設置标準
3.無效樣本的處理
設置好無效樣本後,默認會新生成一個标題,用來标識那些樣本是有效,那些是無效,在分析的時候直接進行篩選下就好。
本次案例分析将以相同數字大于70%為标準進行檢驗,結果顯示沒有無效樣本。
三、基本關系查看
散點圖
做數據的散點圖,觀察因變量與自變量之間是否具有線性特點。
從上圖中可以看出,當前工資和起始工資、受教育年限、職位等級以及工作經驗均存在線性關系,其中Y軸為因變量當前工資,X軸為自變量,但是從圖中觀察到對于“起始工資和當前工資”及“工作經驗和當前工資”可能存在異常值,進行數據複查後發現,數據均在可接受範圍内,所以不進行處理。
相關性分析
相關分析是研究有沒有關系,回歸分析是研究影響關系。明顯地,相關分析是基礎,然後再進行回歸分析。首先需要知道有沒有相關關系;有了相關關系,才可能有回歸影響關系;如果沒有相關關系,是不應該有回歸影響關系的。
從上表可知,利用相關分析去研究當前工資和受教育年限, 職位等級, 起始工資, 工作經驗共4項之間的相關關系,使用Pearson相關系數去表示相關關系的強弱情況。具體分析可知:
當前工資與受教育年限, 職位等級, 起始工資, 工作經驗共4項之間的相關關系系數值呈現出顯著性。具體分析請看SPSSAU智能分析:
四、模型效果
F檢驗
從上表可以看出,離差平方和為1461615.460,殘差平方和為579191.966,而回歸平方和為882423.494。回歸方程的顯著性檢驗中,統計量F=178.635,對應的p值遠遠小于0.05,被解釋變量的線性關系是顯著的,可以建立模型。建立模型後,需要查看模型拟合優度是否可以,其中就可以查看R方與調整R方值。
R方和調整R方
從上表可知,将起始工資,受教育年限,職位等級,工作經驗作為自變量,而将當前工資作為因變量進行線性回歸分析,從上表可以看出,模型R方值為0.604,調整R方為0.600,其中R方是決定系數,模型拟合指标。反應Y的波動有多少比例能被X的波動描述。調整R方也是模型拟合指标。當x個數較多是調整R比R更為準确。意味着起始工資,受教育年限,職位等級,工作經驗可以解釋當前工資的60.4%變化原因。可見,模型拟合優度較好,說明被解釋變量可以被模型解釋的部分較多。接下來查看變量是否具有多重共線性。
VIF值
VIF值用于檢測共線性問題,一般VIF值小于10即說明沒有共線性(嚴格的标準是5),有時候會以容差值作為标準,容差值=1/VIF,所以容差值大于0.1則說明沒有共線性(嚴格是大于0.2),VIF和容差值有邏輯對應關系,因此二選一即可,一般描述VIF值。在【線性回歸】分析時,SPSSAU會智能判斷共線性問題并且提供解決建議。 結果中可以看出,變量的VIF值均小于5,所以此案例不存在多重共線性的問題。
但是如果存在多重共線問題,建議三種解決方法一是使用逐步回歸分析(讓模型自動剔除掉共線性過高項);二是使用嶺回歸分析(使用數學方法解決共線性問題),三是進行相關分析,手工移出相關性非常高的分析項(通過主觀分析解決),然後再做線性回歸分析。
DW值
D-W值也稱Durbin-Watson值,一般對于時間序列分析才會考慮DW值:
-
當殘差與自變量互為獨立時,DW≈2;
-
當相鄰兩點的殘差為正相關時,DW<2;
-
當相鄰兩點的殘差為負相關時,DW>2;
AIC和BIC
最後針對模型中的AIC值與BIC值說明如下:
AlC值是衡量統計模型拟合優良性的一種标準,AIC越小,模型越好。BIC值一可有效防止模型精度過高造成的模型複雜度過高。接下來對模型結果進行一一分析。
五、模型結果模型公式
從上表可知,将起始工資,受教育年限,工作經驗,職位等級作為自變量,而将當前工資作為因變量進行線性回歸分析,從上表可以看出,模型公式為:當前工資=-41.634 0.425*起始工資 6.176*受教育年限-0.051*工作經驗 29.819*職位等級。
回歸系數
上圖所示,回歸方程的常數項約為-41.63,以及起始工資、受教育年限、工作經驗以及職位等級的非标準化系數分别為0.425、6.176、-0.051、29.819。表中4個變量的p值均小于0.05,并且VIF值均正常,因此4個變量可以顯示在模型中。
coefPlot
coefPlot展示具體的回歸系數值和對應的置信區間,可直觀查看數據的顯著性情況,如果說置信區間包括數字0則說明該項不顯著,如果置信區間不包括數字0則說明該項呈現出顯著性。所以上圖中四個分析項的置信區間都不包括0,都呈現顯著性。
标準化系數
起始工資、受教育年限、工作經驗以及職位等級的标準化系數分别為0.163、0.320、-0.096、0.415. 标準化系數一般可用于比較自變量對Y的影響程度。系數值越大說明該變量對Y的影響越大。可以看出模型中職位等級對當前工資影響較大。
模型預測-預測因變量
總結來看,模型公式為:當前工資=-41.634 0.425*起始工資 6.176*受教育年限-0.051*工作經驗 29.819*職位等級(案例數據分析結果僅供參考)。
殘差圖
上圖為殘差正态分布圖(P-P圖),由上圖可以看出殘差的分布符合大緻正态分步。說明回歸結果就數據而言是較為可靠的。
六、模型綜述通過數據清理發現數據适合做回歸分析,然後對模型進行分析與總結。,比如多重共線性等,經過分析,得到起始工資、工作經驗、受教育年限、受雇月數、職位等級4個自變量以及當前工資因變量之間的關系,對預測模型進行分析。回歸分析不隻是線性回歸,還包括曲線回歸、非線性回歸等,這些知識的學習還需要大家進行查看相關資料自行摸索。
,