數據統計分析的幾個重要方法-tft每日頭條

此文是《10周入門數據分析》系列的第7篇

想了解學習路線，可以先閱讀學習計劃 | 10周入門數據分析

統計學是數據分析的基石。學了統計學，你會發現很多時候的分析并不靠譜。比如很多人都喜歡用平均數去分析一個事物的結果，但是這往往是粗糙的，不準确的。如果學了統計學，那麼我們就能以更多更科學的角度看待數據。

大部分的數據分析，都會用到統計方面的以下知識，可以重點學習：

基本的統計量：均值、中位數、衆數、方差、标準差、百分位數等

概率分布：幾何分布、二項分布、泊松分布、正态分布等

總體和樣本：了解基本概念，抽樣的概念

置信區間與假設檢驗：如何進行驗證分析

相關性與回歸分析：一般數據分析的基本模型

通過基本的統計量，你可以進行更多元化的可視化，以實現更加精細化的數據分析。這個時候也需要你去了解更多的Excel函數來實現基本的計算，或者python、R裡面一些對應的可視化方法。

有了總體和樣本的概念，你就知道在面對大規模數據的時候，怎樣去進行抽樣分析。

你也可以應用假設檢驗的方法，對一些感性的假設做出更加精确地檢驗。

利用回歸分析的方法，你可以對未來的一些數據、缺失的數據做基本的預測。

了解統計學的原理之後，你不一定能夠通過工具實現，那麼你需要去對應的找網上找相關的實現方法，也可以看書。先推薦一本非常簡單的：吳喜之-《統計學·從數據到結論》。也可以看《商務與經濟統計》，結合業務能更容易理解。

另外，如何精力允許，請掌握一些主流算法的原理，比如線性回歸、邏輯回歸、決策樹、神經網絡、關聯分析、聚類、協同過濾、随機森林。再深入一點，還可以掌握文本分析、深度學習、圖像識别等相關的算法。關于這些算法，不僅需要了解其原理，你最好可以流暢地闡述出來，還需要你知曉其在各行業的一些應用場景。如果現階段不是工作剛需，可不作為重點。

本文算是一個知識點彙總，不做細緻展開，讓大家了解統計學有哪幾大塊，每一類分别用于什麼樣的分析場景。後面幾篇會以實際案例的方式，細緻講講描述性統計、概率分布等。

知識點彙總：

1.集中趨勢

2.變異性

3.歸一化

4.正态分布

5.抽樣分布

6.估計

7.假設檢驗

8.T檢驗

一、集中趨勢

1.衆數

出現頻率最高的數；

2.中位數

把樣本值排序，分布在最中間的值；

樣本總數為奇數時，中位數為第(n 1)/2個值；

樣本總數為偶數時，中位數是第n/2個，第(n/2) 1個值的平均數；

3.平均數

所有數的總和除以樣本數量；

現在大家接觸最多的概念應該是平均數，但有時候，平均數會因為某些極值的出現收到很大影響。舉個小例子，你們班有20人，大家收入差不多，19人都是5000左右，但是有1個同學創業成功了，年入1個億，這時候統計你們班同學收入的“平均數”就是500萬了，這也很好的解釋了，每年各地的平均收入數據出爐，小夥伴們直呼給祖國拖後腿了，那是因為大家收入被平均了，此時，“中位數”更能合理的反映真實的情況；

二、變異性

1.四分位數

上面說到了“中位數”，把樣本分成了2部分，再找個這2部分各自的“中位數”，也就把樣本分為了4個部分，其中1/4處的值記為Q1，2/4處的值記為Q2，3/4處的值記為Q3

2.四分位距 IQR=Q3-Q1

數據統計分析的幾個重要方法（數據分析必掌握的統計學知識）1

3.異常值

小于Q1-1.5(IQR)或者大于Q3 1.5(IQR);

對于異常值，我們在數據處理的環節就要剔除；

4.方差

數據統計分析的幾個重要方法（數據分析必掌握的統計學知識）2

5.平方偏差

方差的算術平方根

6.貝塞爾矯正：修正樣本方差

實際在計算方差時，分母要用n-1，而不是樣本數量n。原因在于，比如在高斯分布中，我們抽取一部分的樣本，用樣本的方差表示滿足高斯分布的大樣本數據集的方差。由于樣本主要是落在x=u中心值附近，那麼樣本如果用如下公式算方差，那麼預測方差一定小于大數據集的方差（因為高斯分布的邊沿抽取的數據也很少）。為了能彌補這方面的缺陷，那麼我們把公式的n改為n-1，以此來提高方差的數值，這種方法叫貝塞爾矯正系數。

三、歸一化

1.标準分數

一個給定分數距離平均數多少個标準差？

标準分數是一種可以看出某分數在分布中相對位置的方法。

标準分數能夠真實的反映一個分數距離平均數的相對标準距離。

數據統計分析的幾個重要方法（數據分析必掌握的統計學知識）3

四、正态分布

1.定義：随機變量X服從一個數學期望為μ，方差為σ⊃2;的正态分布，記為N(μ,σ⊃2;)

随機取一個樣本，有68.3%的概率位于距離均值μ有1個标準差σ内；

有95.4%的概率位于距離均值μ有2個标準差σ内；

有99.7%的概率位于距離均值μ有3個标準差σ内；

數據統計分析的幾個重要方法（數據分析必掌握的統計學知識）4

五、抽樣分布

1.中心極限定理

設從均值為μ，方差為σ⊃2;的任意一個總體中抽取樣本量為n的樣本，當n充分大時，樣本均值的抽樣分布近似服從均值為μ、方差為σ⊃2;/n的正态分布

2.抽樣分布

設總體共有N個元素，從中随機抽取一個容量為n的樣本，在重置抽樣時，共有N·n種抽法，即可以組成N·n不同的樣本，在不重複抽樣時，共有N·n個可能的樣本。每一個樣本都可以計算出一個均值，這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現實中不可能将所有的樣本都抽取出來，因此，樣本均值的概率分布實際上是一種理論分布。數理統計學的相關定理已經證明：在重置抽樣時，樣本均值的方差為總體方差的1/n。

舉個例子：

48盆MM豆，計算出每盆有幾個藍色的MM豆，48個數據構成了總體樣本。然後随機選擇五盆，計算五盆中含有藍色MM豆的平均數，然後反複進行了50次。這就是n為5的樣本均值抽樣。

數據統計分析的幾個重要方法（數據分析必掌握的統計學知識）5