首页
/
每日頭條
/
圖文
/
統計學概念整理
統計學概念整理
更新时间:2024-08-31 22:21:24

對統計學基本概念的梳理,其中普通字體為賈俊平著《統計學(第六版)》中的重要概念,引用字體的内容為書中沒有标注為重要概念的較為重要的補充,批注為我依據所學知識的補充。


第11章 一元線性回歸

變量之間的關系可以分為兩種類型,即函數關系和相關關系。

函數關系 functional relationship

函數關系是一一對應的确定關系。設有兩個變量x和y,變量y随變量x一起變化,并完全依賴于x,當變量x取某個數值時,y依确定的關系取相應的值,則稱y是x的函數,其中x稱為自變量,y稱為因變量。

相關關系 correlation

由于影響一個變量的因素非常多,造成了變量之間關系的不确定性。變量之間存在的不确定的數量關系,稱為相關關系。相關關系具有如下特點:一個變量的取值不能由另一個變量唯一确定,當變量x取某個值時,變量y的取值可能有幾個。對這種關系不确定的變量顯然不能用函數關系進行描述,但也不是無任何規律可循。通過對大量數據的觀察與研究,就會發現許多變量之間确實存在着一定的客觀規律。

散點圖 scatter diagram

對于兩個bianliangx和y,通過觀察或實驗可以得到若幹組數據,記為(xi,yi)(i=1,2,…,n)。用坐标的橫軸代表變量x,縱軸代表變量y,每組數據(xi,yi)在坐标系中用一個點表示,n組數據在坐标系中形成的n個點稱為散點,由坐标及其散點形成的二維數據圖稱為散點圖。散點圖是描述變量之間關系的一種直觀方法,從中可以大體上看出變量之間的關系形态及關系強度。

相關系數 correlation coefficient

相關系數是根據樣本數據計算的量度兩個變量之間線性關系強度的統計量。若相關系數是根據總體全部數據計算的,稱為總體相關系數,記為ρ;若根據樣本數據計算的,則稱為樣本相關系數,記為r。

線性相關系數 linear correlation coefficient / Pearson相關系數 Pearson's correlation coefficient

使用樣本相關系數的計算公式計算的相關系數即為線性相關系數【批:線性相關系數是雙變量的相關系數,用以衡量兩個變量之間的相關程度】,其公式為:

統計學概念整理(統計學基礎筆記)1

回歸分析 regression analysis

(相關分析的目的在于測量變量之間的關系強度,它所使用的測量工具就是相關系數。)回歸分析側重于考量變量之間的數量關系,并通過一定的數學表達式将這種關系描述出來,進而确定一個或幾個變量(自變量)的變化對另一個特定變量(因變量)的影響程度。具體來說,回歸分析主要解決以下幾個方面的問題:

  1. 從一組樣本數據出發,确定變量之間的數學關系式。
  2. 對這些關系式的可信程度進行各種統計檢驗,并從影響某一特定變量的諸多變量中找出哪些變量的影響是顯著的,哪些是不顯著的。
  3. 利用所求的關系式,根據一個或幾個變量的取值來估計或預測兩一個特定變量的取值,并給出這種估計或預測的可靠程度。

因變量 dependent variable

在回歸分析中,被預測或被解釋的變量稱為因變量,用y表示。

自變量 independent variable

在回歸分析中,用來預測或解釋因變量的一個或多個變量稱為自變量,用x表示。

回歸模型 regression model

對于具有線性關系的兩個變量,可以用一個線性方程來表示它們之間的關系。描述因變量y如何依賴于自變量x和誤差項ε的方程稱為回歸模型。隻涉及一個自變量的一元線性回歸模型可表示為:

y=β0 β1x ε

上式稱為理論回歸模型,對這一模型,有以下幾個主要假定:

  1. 因變量y與自變量x之間具有線性關系。【批:因為一元線性回歸模型隻能用來預測兩個變量之間的線性相關關系】
  2. 在重複抽樣中,自變量x的取值是固定的,即假定x是非随機的。【批:即任意給定的x值都是可以取到的;對于任意一個給定的x值,y的取值都對應着一個分布】
  3. 誤差項ε是一個期望值為0的随機變量,即E(ε)=0。【批:如果ε的期望值不為0的話,則說明該回歸模型不是無偏估計,即該模型存在偏差】
  4. 對于所有的x值,ε的方差σ^2都相同。【批:這是模型的一個假定,在計算誤差項ε的标準差σ的估計(估計标準誤差)時,也是在依據假定的前提下計算的;當不同的x值對應的誤差項ε的方差σ^2各不相同時,我們稱之為非常數方差】
  5. 誤差項ε是一個服從正态分布的随機變量,且獨立,即ε~N(0,σ^2)。

回歸方程 regression equation

根據回歸模型中的假定,ε的期望值等于0,因此y的期望值E(y)=β0 β1x,也就是說,y的期望值是x的線性函數。描述因變量y的期望值如何依賴于自變量x的方程稱為回歸方程。一元線性回歸方程的形式為:

E(y)=β0 β1x

一元線性回歸方程的圖示是一條直線,因此也稱為直線回歸方程。其中β0是回歸直線在y軸上的截距,是當x=0時y的期望值;β1是直線的斜率,它表示x每變動一個單位時,y的平均變動值。

最小二乘法 / 最小平方法 method of least squares

高斯提出用最小化圖中垂直方向的離差平方和來估計參數β0和β1,根據這一方法确定模型參數β0和β1的方法稱為最小二乘法,它是通過使因變量的觀測值yi與yi的估計值之間的離差平方和達到最小來估計β0和β1的方法。

統計學概念整理(統計學基礎筆記)2

拟合優度 goodness of fit

回歸直線與各觀測點的接近程度稱為回歸直線對數據的拟合優度。

判定系數 coefficient of determination

判定系數是對估計的回歸方程拟合優度的度量,為回歸平方和占總平方和的比例,記為R^2,其計算公式為:

統計學概念整理(統計學基礎筆記)3

估計标準誤差 standard error of estimate

估計标準誤差是衡量各實際觀測點在直接周圍的散布狀況的一個統計量,它是均方殘差(MSE)的平方根,用se來表示,其計算公式為:

統計學概念整理(統計學基礎筆記)4

預測 predict

回歸模型經過各種檢驗并标明符合規定的要求後,就可以利用它來預測因變量了。所謂預測是指通過自變量x的取值來預測因變量y的取值。

點估計 point estimate

【此處為在回歸分析中的定義,其他參見:第7章 參數估計】利用估計的回歸方程,對于x的一個特定值x0,求出y的一個估計值就是點估計。點估計可分為兩種:一是平均值的點估計,二是個别之的點估計。

區間估計 point estimate

【此處為在回歸分析中的定義,其他參見:第7章 參數估計】利用估計的回歸方程,對于x的一個特定值x0,求出y的一個估計值的區間就是區間估計。區間估計也有兩種類型,一是置信區間估計,二是預測區間估計。

置信區間估計 confidence interval estimate

(回歸分析中的)置信區間估計是對x的一個給定值x0,求出y的平均值的區間估計,這一區間稱為置信區間。

預測區間估計 prediction interval estimate

(回歸分析中的)預測區間估計是對x的一個給定值x0,求出y的一個個别值的區間估計,這一區間稱為預測區間。

預測區間 prediction interval

殘差分析 residual analysis

殘差分析就是通過殘差所提供的信息,分析出數據的可靠性周期性和其他幹擾,用于分析模型的假定正确與否的方法。

殘差 residual

殘差是因變量的觀測值yi與根據估計的回歸方程求出的預測值之差,用e表示。它反映了用估計的回歸方程去預測yi而引起的誤差。

标準化誤差 / Pearnson殘差 / 半學生化殘差 standardized residual / semi-studentized residuals

對ε正态性假定的檢驗,也可以通過對标準化殘差的分析來完成。标準化殘差是殘差除以它的标準差後得到的數值,用ze表示。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
乘風破浪的姐姐們張萌現身機場(隻與張雨绮擊掌)
乘風破浪的姐姐們張萌現身機場(隻與張雨绮擊掌)
  今天要說的故事主人公是張萌。瓜姐第一次知道張萌是在《神話》這部電視劇裡,當時張萌的神仙顔值真的驚到了,瓜姐當時還真的覺得張萌跟胡歌很配呀。奈何兩人不是CP,但是當時張萌可是比女主還出彩哦。  之後張萌也陸陸續續參演了一些其他的電視劇。前段時間,張萌還因為懷孕拍戲流産上了熱搜,要知道,當時張萌都已經有37歲了,算得上是大齡産婦吧,瓜姐是真的很想知道,演戲有...
2024-08-31
魏碑極品圖(魏碑中的極品穆亮墓志)
魏碑極品圖(魏碑中的極品穆亮墓志)
  有人挖出一件1500年前的驚豔楷書,這也許隻是普通工匠所刻…   盜墓這個行業由來已久,在中華文明建立之初,宗法制度初具規模的時候,盜墓的行業便已經悄然拉開了序幕。   在書法界也有這樣的一位宗師級的人物曾經盜過墓,據說鐘繇曾經為了得到了一部筆法秘笈,曾經盜過大書法家韋誕的墓,成為後世探求筆法之秘的一個案例。      魏碑《穆亮墓志》楷書高清拓片   ...
2024-08-31
查一下血糖儀的正确使用方法(血糖儀測值不準)
查一下血糖儀的正确使用方法(血糖儀測值不準)
  在糖尿病控制過程中,血糖監測可以用來判斷血糖控制情況,還可以指導治療。但在現實生活中,很多朋友對如何在家裡自我監測血糖感到困惑。那麼在家如何測量血糖呢?操作過程中存在哪些問題?今天,我們來詳細說說測血糖的方法。      一、如何選擇家用血糖儀   我們如何選擇一種方便實用的工具,來應對市場上各種血糖儀的推銷導緻的選擇困難?   1.看精度   首先,我...
2024-08-31
衛生間馬桶置物架加寬加大(毛巾架裝馬桶上面)
衛生間馬桶置物架加寬加大(毛巾架裝馬桶上面)
  大多數人裝修房子的時候隻注重客廳和卧室的位置,其實衛生間空間也應該重視起來。因為進出衛生間的頻率其實非常高,特别是家裡有老人和小孩的話,就更要仔細裝修。衛生間雖然不大,但裝修不當對生活也會有很大影響。      比如說,把毛巾架裝在馬桶上,很多家庭都是這樣做的,平時洗澡的時候,更方便放要換的衣服。這樣的擺放雖然方便了洗澡,但同時也存在一些問題,毛巾架直接...
2024-08-31
mba培訓班哪個好(mba培訓班哪個好)
mba培訓班哪個好(mba培訓班哪個好)
  作為含金量較高、對大家職業發展有一定影響的MBA/EMBA考試,不少考生都會出現考前"抱佛腳":"時間都去哪裡了"的感歎。   MBA聯考不同于其它研究生的考試,MBA/EMBA碩士的培養目标與其它技術專業有所不同,因此,在備考方向和考試内容、報考條件,也會有一定的區别。   對于很多已經參加工作的MBA考生,大家每天的學習時間有限或者基礎不一,因此,在...
2024-08-31
Copyright 2023-2024 - www.tftnews.com All Rights Reserved