首页
/
每日頭條
/
科技
/
數據統計分析的幾個重要方法
數據統計分析的幾個重要方法
更新时间:2024-11-17 09:11:56

此文是《10周入門數據分析》系列的第7篇

想了解學習路線,可以先閱讀 學習計劃 | 10周入門數據分析


統計學是數據分析的基石。學了統計學,你會發現很多時候的分析并不靠譜。比如很多人都喜歡用平均數去分析一個事物的結果,但是這往往是粗糙的,不準确的。如果學了統計學,那麼我們就能以更多更科學的角度看待數據。

大部分的數據分析,都會用到統計方面的以下知識,可以重點學習:

基本的統計量:均值、中位數、衆數、方差、标準差、百分位數等

概率分布:幾何分布、二項分布、泊松分布、正态分布等

總體和樣本:了解基本概念,抽樣的概念

置信區間與假設檢驗:如何進行驗證分析

相關性與回歸分析:一般數據分析的基本模型

通過基本的統計量,你可以進行更多元化的可視化,以實現更加精細化的數據分析。這個時候也需要你去了解更多的Excel函數來實現基本的計算,或者python、R裡面一些對應的可視化方法。

有了總體和樣本的概念,你就知道在面對大規模數據的時候,怎樣去進行抽樣分析。

你也可以應用假設檢驗的方法,對一些感性的假設做出更加精确地檢驗。

利用回歸分析的方法,你可以對未來的一些數據、缺失的數據做基本的預測。

了解統計學的原理之後,你不一定能夠通過工具實現,那麼你需要去對應的找網上找相關的實現方法,也可以看書。先推薦一本非常簡單的:吳喜之-《統計學·從數據到結論》。也可以看《商務與經濟統計》,結合業務能更容易理解。

另外,如何精力允許,請掌握一些主流算法的原理,比如線性回歸、邏輯回歸、決策樹、神經網絡、關聯分析、聚類、協同過濾、随機森林。再深入一點,還可以掌握文本分析、深度學習、圖像識别等相關的算法。關于這些算法,不僅需要了解其原理,你最好可以流暢地闡述出來,還需要你知曉其在各行業的一些應用場景。如果現階段不是工作剛需,可不作為重點。

本文算是一個知識點彙總,不做細緻展開,讓大家了解統計學有哪幾大塊,每一類分别用于什麼樣的分析場景。後面幾篇會以實際案例的方式,細緻講講描述性統計、概率分布等。

知識點彙總:

1.集中趨勢

2.變異性

3.歸一化

4.正态分布

5.抽樣分布

6.估計

7.假設檢驗

8.T檢驗

一、集中趨勢

1.衆數

出現頻率最高的數;

2.中位數

把樣本值排序,分布在最中間的值;

樣本總數為奇數時,中位數為第(n 1)/2個值;

樣本總數為偶數時,中位數是第n/2個,第(n/2) 1個值的平均數;

3.平均數

所有數的總和除以樣本數量;

現在大家接觸最多的概念應該是平均數,但有時候,平均數會因為某些極值的出現收到很大影響。舉個小例子,你們班有20人,大家收入差不多,19人都是5000左右,但是有1個同學創業成功了,年入1個億,這時候統計你們班同學收入的“平均數”就是500萬了,這也很好的解釋了,每年各地的平均收入數據出爐,小夥伴們直呼給祖國拖後腿了,那是因為大家收入被平均了,此時,“中位數”更能合理的反映真實的情況;

二、變異性

1.四分位數

上面說到了“中位數”,把樣本分成了2部分,再找個這2部分各自的“中位數”,也就把樣本分為了4個部分,其中1/4處的值記為Q1,2/4處的值記為Q2,3/4處的值記為Q3

2.四分位距 IQR=Q3-Q1

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)1

3.異常值

小于Q1-1.5(IQR)或者大于Q3 1.5(IQR);

對于異常值,我們在數據處理的環節就要剔除;

4.方差

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)2

5.平方偏差

方差的算術平方根

6.貝塞爾矯正:修正樣本方差

實際在計算方差時,分母要用n-1,而不是樣本數量n。原因在于,比如在高斯分布中,我們抽取一部分的樣本,用樣本的方差表示滿足高斯分布的大樣本數據集的方差。由于樣本主要是落在x=u中心值附近,那麼樣本如果用如下公式算方差,那麼預測方差一定小于大數據集的方差(因為高斯分布的邊沿抽取的數據也很少)。為了能彌補這方面的缺陷,那麼我們把公式的n改為n-1,以此來提高方差的數值,這種方法叫貝塞爾矯正系數。

三、歸一化

1.标準分數

一個給定分數 距離 平均數 多少個标準差?

标準分數是一種可以看出某分數在分布中相對位置的方法。

标準分數能夠真實的反映一個分數距離平均數的相對标準距離。

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)3

四、正态分布

1.定義:随機變量X服從一個數學期望為μ,方差為σ⊃2;的正态分布,記為N(μ,σ⊃2;)

随機取一個樣本,有68.3%的概率位于距離均值μ有1個标準差σ内;

有95.4%的概率位于距離均值μ有2個标準差σ内;

有99.7%的概率位于距離均值μ有3個标準差σ内;

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)4

五、抽樣分布

1.中心極限定理

設從均值為μ,方差為σ⊃2;的任意一個總體中抽取樣本量為n的樣本,當n充分大時,樣本均值的抽樣分布近似服從均值為μ、方差為σ⊃2;/n的正态分布

2.抽樣分布

設總體共有N個元素,從中随機抽取一個容量為n的樣本,在重置抽樣時,共有N·n種抽法,即可以組成N·n不同的樣本,在不重複抽樣時,共有N·n個可能的樣本。每一個樣本都可以計算出一個均值,這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現實中不可能将所有的樣本都抽取出來,因此,樣本均值的概率分布實際上是一種理論分布。數理統計學的相關定理已經證明:在重置抽樣時,樣本均值的方差為總體方差的1/n。

舉個例子:

48盆MM豆,計算出每盆有幾個藍色的MM豆,48個數據構成了總體樣本。然後随機選擇五盆,計算五盆中含有藍色MM豆的平均數,然後反複進行了50次。這就是n為5的樣本均值抽樣。

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)5

六、估計

1. 誤差界限

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)6

2. 置信度

We are some % sure the true population parameter falls within a specific range

我們有百分之多少确信總體中的值落在一個特定範圍内;

一般情況下,取95%的置信度就可以;

3. 置信區間

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)7

七、假設檢驗

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)8

1.問題:什麼是顯著性水平?

顯著性水平是估計總體參數落在某一區間内,可能犯錯誤的概率,也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)9

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)10

2. 如何選擇備選檢驗和零假設?

一個研究者想證明自己的研究結論是正确的,備擇假設的方向就要與想要證明其正确性的方向一緻;

同時将研究者想收集證據證明其不正确的假設作為原假設H0

八、T檢驗

1. 主要用于樣本含量較小(例如n<30),總體标準差σ未知的正态分布。

流程如下:

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)11

是用t分布理論來推論差異發生的概率,從而比較兩個平均數的差異是否顯著;

一般檢驗水準α取0.05即可;

計算檢驗統計量的方法根據樣本形式不同;

2. 獨立樣本T檢驗:

現在要分析男生和女生的身高是否相同兩者的主要區别在于數據的來源和要分析的問題。

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)12

問題:為什麼T檢驗查表時候要n-1?

樣本均值替代總體均值損失了一個自由度

3. 配對樣本t檢驗

分析人的早晨和晚上的身高是否不同,于是找來一撥人測他們早上和晚上的身高,這裡每個人就有兩個值,這裡出現了配對

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)13

樣本誤差(Standard Error)

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)14

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)15

4. Pooled variance 合并方差

當樣本平均數不一樣,但實際上認為他們的方差是一樣的時候,需要合并方差

不要被公式吓到,他的本質是兩個樣本方差加權平均

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)16

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)17

5. Cohen’s d

效應量(effect size):提示組間真正的差異占統計學差異的比例,值越大,組間差異越可靠。

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)18

數據統計分析的幾個重要方法(數據分析必掌握的統計學知識)19


此文是《10周入門數據分析》系列的第7篇。

想了解學習路線,可以先行閱讀“ 學習計劃 | 10周入門數據分析

公衆号上已更新到第13篇,歡迎前往關注~

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
現在學什麼行業和技術前景好 哪些技術學完吃香
現在學什麼行業和技術前景好 哪些技術學完吃香
現在學前景好吃香的技術有:軟件編寫技術、遊戲開發技術、室内裝潢技術、IT計算機技術、人工智能技術、汽修技術、視頻剪輯技術等。選擇時我們不要僅考慮當前的熱門。因為當你将這個技術學精之後,現在的熱門有可能已經不是熱門。所以當我們選擇具體的技術時有,除了看是否是熱門以外,我們要看的是這幾年它是否一直排在冷...
2024-11-17
華為手機網速慢怎麼處理
華為手機網速慢怎麼處理
1、首先打開設置,點擊更多,移動網絡找到接入點名稱(APN),點擊右上角三個點,新建APN。2、在名稱中輸入大寫的CMTDS,然後再将APN中輸入小寫的cmtds,都填好了點擊右上角對号保存。3、再重啟手機就好了。其實CMTDS是運營商專門鋪設的數據網絡,接入的用戶數少,網絡擁堵不嚴重,速度自然要更...
2024-11-17
輕松籌水滴籌靠譜嗎
輕松籌水滴籌靠譜嗎
1、輕松籌是一個網絡衆籌平台,主要是讓陷入疾病困境的人,通過微信朋友圈籌集資金獲得幫助,因此輕松籌是真的。上輕松籌的項目是需要通過審核的,如果出現假病例和騙捐的情況,捐贈者可以舉報,輕松籌會先行賠付,将善款先退回給捐贈者。這樣輕松籌才可以确保病患與捐贈者的權益,杜絕詐捐的情況。2、水滴籌是由北京縱情...
2024-11-17
媽媽如何打理寶寶皮膚有哪些小妙招
媽媽如何打理寶寶皮膚有哪些小妙招
第一、洗澡的時候輕擦皮膚,寶寶每天都是需要洗澡的,但是洗澡的時候媽媽一定要注意,寶寶皮膚特别的薄,而且非常的幼嫩,所以在給寶寶搓澡的時候,千萬不要用力否則有可能就會引起破損。第二、避免衣物的摩擦刺激寶寶,在給寶寶選的衣服尤其是貼身的内衣,一定要選擇柔軟的全棉衣物,因為全棉的衣物保暖而且有吸汗,所以能夠減少對寶寶皮膚的刺激,盡量不要選擇一些帶有圖案或者是一些,顔色比較深的衣服,這樣能夠最大程度避免,
2024-11-17
格蘭仕空調怎麼樣
格蘭仕空調怎麼樣
1、現今格蘭仕空調在廣東的順德和中山擁有兩個國際性的電器研究和制造中心。2、格蘭仕最早是以發展微波爐,在發展的第三個十年裡,才打造了空調。到現在為止,格蘭仕的空調産品已經成為全球家電行業的風向标,已經擁有了完善的核心技術和自我配套能力。3、格蘭仕自主研發的空調産品已經遍布全球的170多個國家,在行業...
2024-11-17
Copyright 2023-2024 - www.tftnews.com All Rights Reserved