1.平均值(mean)
平均值的概念很簡單:所有數據之和除以數據點的個數,以此表示數據集的平均大小;其數學定義為
平均值計算公式
以下面10個點的CPU使用率數據為例
14 31 16 19 26 14 14 14 11 13
其平均值為17.2
2.方差、标準差
方差這一概念的目的是為了表示數據集中數據點的離散程度;其數學定義為:
方差
标準差與方差一樣,表示的也是數據點的離散程度;其在數學上定義為方差的平方根:
标準差
3.為什麼使用标準差?
一個标準差 68%, 兩個标準差 95%, 三個标準差 99%。
标準差定義是總體各單位标準值( xi)與其平均數(μ)離差平方和的算術平均數的平方根。它反映組内個體間的離散程度。
所有數減去其平均值的平方和,所得結果除以該組數之個數(或個數減一,即變異數),再把所得值開根号,所得之數就是這組數據的标準差。
标準計算公式:
假設有一組數值X₁,X₂,X₃,......Xn(皆為實數),其平均值(算術平均值)為μ,公式如圖1。
标準差也被稱為标準偏差,或者實驗标準差,公式為
一個較大的标準差,代表大部分數值和其平均值之間差異較大;一個較小的标準差,代表這些數值較接近平均值。
例如,A、B兩組各有6位學生參加同一次語文測驗,A組的分數為95、85、75、65、55、45,B組的分數為73、72、71、69、68、67。這兩組的平均數都是70,但A組的标準差約為17.08分,B組的标準差約為2.16分,說明A組學生之間的差距要比B組學生之間的差距大得多。
一個标準差 68%, 兩個标準差 95%, 三個标準差 99%。
與方差相比,使用标準差來表示數據點的離散程度有3個好處:
- 表示離散程度的數字與樣本數據點的數量級一緻,更适合對數據樣本形成感性認知。依然以上述10個點的CPU使用率數據為例,其方差約為41,而标準差則為6.4;兩者相比較,标準差更适合人理解。
- 表示離散程度的數字單位與樣本數據的單位一緻,更方便做後續的分析運算。
- 在樣本數據大緻符合正态分布的情況下,标準差具有方便估算的特性:66.7%的數據點落在平均值前後1個标準差的範圍内、95%的數據點落在平均值前後2個标準差的範圍内,而99%的數據點将會落在平均值前後3個标準差的範圍内。
4.python求均值、方差、标準差
#求均值
arr_mean = np.mean(arr)
#求方差
arr_var = np.var(arr)
#求标準差
arr_std = np.std(arr,ddof=1)
print("平均值為:%f" % arr_mean)
print("方差為:%f" % arr_var)
print("标準差為:%f" % arr_std)
,