前面學習了Excel中的相關分析,在數據分析中,相關分析和回歸分析關系緊密,今天來學習下Excel中的回歸分析。
PART
01
回歸分析
回歸分析(regressionanalysis)是确定兩種或兩種以上變量間相互依賴的定量關系的一種統計分析方法。 我們在得到兩組數據之間的相關程度之後,就可以使用回歸分析進行預測了,換言之,相關分析是回歸分析的基礎和前提,回歸分析是相關分析的深入和繼續。但隻有當數據之間存在高度相關時,進行回歸分析尋求相關的具體形式才有意義。
回歸分析分類
在我們的日常數據分析過程中,回歸分析是應用十分廣泛的一種數據分析方法,該方法主要用于分析單個因變量是如何受到一個或多個自變量影響的。如分析某個産品的銷售情況與産品質量、價格、促銷活動、天氣等因素之間的關系。根據已知的一組數據,我們就可以知道這幾個因素對銷售額的影響,然後對同類産品的銷售額進行預測。 回歸分析的分類如下圖1所示:
PART
02
多元線性回歸分析
1、實例描述 某品牌汽車經銷商的經理了解到投放廣告對于汽車銷售額增長具有很大的作用,但是他并不明确在電視台投放廣告與在各個視頻網站投放廣告哪種方式對增加汽車銷售額更有效。在2017年1月,若在電視台和視頻網站分别投入的廣告費為20萬和30萬,那麼應估算汽車的銷售額為多少萬元?針對這種情況,經理收集本公司去年各月的汽車銷售額數據及每月在以上兩種媒介上投入的廣告費用數據,如下圖2所示。
2、實例分析 簡單根據上面的數據,我們并不能确定這兩種廣告投放渠道哪種更有效,所以,這裡我們使用Excel中的回歸分析方法,先檢驗這兩組數據與銷售額的相關性程度,随後再根據回歸分析過程中所得到的線性回歸方程預測确定廣告費時的銷售額。 3、操作分析 使用Excel進行多元線性回歸分析的因變量是銷售額,自變量是兩種渠道的廣告費,具體步驟如下: 第1步:選擇回歸分析工具并設置參數。打開“數據分析”對話框,選擇“回歸”分析工具,單擊“确定”,如圖3所示,彈出“回歸”對話框,設置“Y值輸入區域”為“$D$2:$D$14”,“X值輸入區域”為“$B$2:$C$14”;勾選“标志”“置信度”複選框,并設置置信度為“95%”;單擊“輸出區域”,并設置該區域為“$F$1”;單擊确定即可。如圖4所示。
第2步:顯示回歸分析結果。此時返回工作表,就能得到詳細的各項參數值。如圖5所示。
操作解析: 回歸分析的計算結果一共包括三個模塊: (1)第一個模塊為回歸統計表,其中主要包含MultipleR、RSquare、AdjustedRSquare、标準誤差和觀測值。MultipleR為複相關系數,也就是前面說的相關系數,用來衡量x和y之間的相關程度大小,RSquare為複測定系數R2,其用來說明自變量解釋因變量變差的程度,從而測量同因變量y的拟合效果,AdjustedRSquare為調整後的複測定系數R2,标準誤差衡量拟合程度大小,值越小,說明拟合程度越好,觀測值指的是用于估計回歸方程數據的觀測值個數。 (2)第二個模塊為方差分析表。其主要作用是通過假設檢驗中的F-檢驗來判斷回歸模型的回歸效果。 (3)第三個模塊是回歸參數表。第一列表示截距,第二列表示對應模型的回歸系數,包括了截距和斜率,可以根據這個建立回歸模型。第三列為回歸系數的标準誤差,值越小,表明參數的精确度越高,第四列對應的是統計量t值,用于檢驗模型參數。第五列為各個回歸系數的P值,當P<0.05時,可以認為模型在α=0.05的水平上顯著,或置信度達到了95%。最後幾列為回歸系數置信區間的上限和下限。 4、決策分析 上面的結果中可以看到,R值為0.9813,表示廣告支出費與銷售額之間的關系為高度正相關,複測定系數為0.9630,表明用自變量可解釋因變量變差的96.3%,AdjustedRSquare為0.9538,說明自變量能說明因變量的95.38%,因變量剩餘的4.62%則由其他因素來解釋。 回歸參數表中,回歸方程的截距和兩個斜率分别為-359.48,9.35,52.46。又因為P值小于0.05,說明了這兩個自變量對汽車銷售額均有顯著影響,但是,兩個斜率中,視頻網站對應的回歸系數更大,說明在視頻網站上投放廣告更有效。 由此可得該回歸分析的線性回歸方程為:y=-359.48 9.35x1 52.46x2。 預測一下,當電視廣告費和視頻廣告費分别為20萬和30萬時,汽車銷售額的預測值為:y=-359.48 9.35*20 52.46*30=1401.32(萬)。
歡迎關注公衆号,訪問更多精彩:數據之魅。
如需轉載,請聯系授權,謝謝合作。
,