A/B Testing 離不開統計學知識,統計學中最重要的一點就是正态分布(normal distribution)
這是一張德國馬克,大家可以看到中間還有一個數學圖表,它就是偉大的數學家高斯發明的正态分布,所以也叫高斯分布。
這是一張典型的标準正态分布曲線,Y 軸表示随機變量, X 與曲線圍成的面積就是發生的概率。
它有什麼含義呢?拿一個實際例子來說,當我們對中國成年男性做一個抽樣,我們會發現大多數集中在 167cm 左右。身高差 167cm 越多的人數越少,很高或很矮的人很少。簡單地說,以 167 為中心身兩邊遞減。這樣的例子還有很多,比如醫院開的化驗單,上面寫的正常區間,就是一個正常的區間分布,也是根據抽樣計算的結果,它不是說在這個範圍之外就不正常,隻是對于大多數人群,所以通常也叫常态分配。這樣的例子還有很多,如智力,體重,KPI 等等,所有的一切證明了中央極限定律,(普通人還是占大多數的)。
它的公式是概率密度函數:
z 值就是我們經常要用到的一個概率密度。
那它有什麼用呢?它的應用範圍很廣,隻要我們想知道所有伴有随機因素影響的數據時,都可以用它得到一個相對精确的概率,比如我們要做的一個頁面實驗,可能受到人群,UI, 時間,網絡等等因素影響,如果我們抽樣得到其中一個指标,并用上面的公式計算一下,你會發現它也是一個非常典型的正态分配曲線,随着樣本的增多,曲線會越來越光滑。曲線 X 軸中間是平均值,它的左右一個标準差之間的面積代表了機率是 68%,二個标準差之間是 95%,三個标準差是 99.7% 。所以如果我們想知道一個數據出現機率時,就可以用它來計算出來。
(好玩的是,如果我們統計一下我們的羽毛球選手獲勝場次的揮拍數,也可以得到這麼個曲線, 這樣我們可以推算出大概他揮多少次拍會獲得勝利。)
(在之後要提到的另一個概念置信區間,它就是根據這個規則,來限定 95% 作為我們合理的置信區間。落在其它區間的數據,我們認為它是不可信的,是小概率事件。這對于驗證我們之前提到的第二種假設将會很有幫助。)
計算也非常簡單,隻要根據上面算出的 z 值,通過查表就可以通過百分比找到樣本分數。有一個在線工具,大家可以試試。
t-分布上面提到的分布曲線都是标準的正态分布(也叫 u-分布),還有一種叫 t-分布,其實它也是正态分布的一種形式。可以應用在小樣本來估算母體數據(全體數據)。
比如, 我們常聽說的劃分數線,也是利用了這個概率分布函數算出,百分之多少的人可以越過這個分數線。當然你可以說不如統計所有的分數,然後排序劃百分比就行了,這确實是一個方法。不過萬一我們要測量的這個數據量非常之大到呢,比如 TB 級的日志?
所以這時母群體的标準差是未知的,我們就可以運用 t-分布。在樣本數量 n 比較小時,它的曲線往往比較平,随着樣本量的逐漸增大,它會越來越接近标準正态分布。
上面的紅線表示的是均值為-2,方差為1的正态分布曲線,藍線表示的是均值為2,方差為4的正态分布曲線。從中可以看出,方差越小,圖像越“瘦高”,方差越大,圖形越“矮胖”。(方差越小,越靠近中位數)。方差小表示大家的平均值非常接近,反之離平均值越遠。
t分布是一簇曲線,其形态變化與n(确切地說與自由度df)大小有關。自由度df越小,t分布曲線越低平;自由度df越大,t分布曲線越接近标準正态分布(u分布)曲線。
- t 分布是由英國著名統計學家哥色特發表,其筆名是“Student”,所以該分布又稱為“Student t分布”。該分布的公布,标志着小樣本統計推斷的開始。
- 那有什麼生活形态中,不是正态分布的呢?比如基尼指數,窮得越窮,富得越富,中間的反而很小。LOL