從樣本推算總體均值-tft每日頭條

從樣本推算總體均值（如何通過樣本數據推斷其分布）1

1. 問題

運籌模拟的時候，我們通常會給定，某事件服從正态分布/指數分布之類。問題是，我們通常隻能觀察到樣本數據，沒有辦法觀察到其具體服從的分布。所謂服從什麼分布，是需要我們從樣本數據推測的。

那麼問題來了，怎樣從數據推測出其所服從的分布(goodness of fit)呢？

2. 分析

市面上有一些專業的統計軟件，可以做到從數據到分布的推測。比如Stat::Fit。但289美元的價格可着實不低。所以我們需要另想辦法。

常見分布匹配的方法有很多，比如

Bayesian information criterion
Kolmogorov–Smirnov test
Cramér–von Mises criterion
Anderson–Darling test
Shapiro–Wilk test
Chi-squared test

我們以 KS 測試為例。KS 具體理論很多書籍都有詳細解釋，這裡不再重複。有興趣的朋友可以關注後回複 ks 獲取相關資料。

Scipy 的統計模塊 stats，可以做 ks 測試。但有個問題是，分布參數需要我們提供。比如指數分布，其概率密度函數為

從樣本推算總體均值（如何通過樣本數據推斷其分布）2

這裡的 lambda就需要我們自己提供。好在scipy裡面有現成的方法可以從數據估算參數，就是用分布函數的fit方法。

于是，我們可以用 fit() 從數據裡面先估出分布的參數，然後再用ks test測試其是否滿足分布，就可以得出數據到底服從什麼分布了。

舉個例子。現有一家水煮魚飯館，觀察到了顧客到來的時間間隔見 data.txt，老闆想知道它服從什麼分布。

importscipy.statsasstats importnumpyasnp importmatplotlib.pyplotasplt data=np.loadtxt('data.txt',delimiter=',',encoding='utf8') dists={'norm':stats.norm,'lognorm':stats.lognorm,'expon':stats.expon} fordindists: paras=dists[d].fit(data) test=stats.kstest(data,dists[d].cdf,paras) print('{:1}\tpvalue:{:2}'.format(d,test[-1]))

可以得出結果

norm pvalue:0.18025230160179895 lognorm pvalue:0.703843693432498 expon pvalue:0.705389895669437

可見，這個最可能服從指數分布，其 loc = 0.1076，scale = 5.56。

打印其結果如下

x = np.arange(0, 20, 0.01) paras = stats.norm.fit(data) ynorm = stats.norm.pdf(x, paras[0], paras[1]) paras = stats.lognorm.fit(data) ylognorm = stats.lognorm.pdf(x, paras[0], paras[1], paras[2]) paras = stats.expon.fit(data) yexpon = stats.expon.pdf(x, paras[0], paras[1]) fig, ax = plt.subplots() ax.plot(x, ynorm, label='norm') ax.plot(x, ylognorm, label='lognorm') ax.plot(x, yexpon, label='expon') ax.legend()

結果為

從樣本推算總體均值（如何通過樣本數據推斷其分布）3