對數據進行質量分析以後,接下來可通過繪制圖表、計算某些特征量等手段進行數據的特征分析。首先講解分布分析
分布分析能揭示數據的分布特征和分布類型。對于定量數據,我們想要了解其分布形式是對稱的還是非對稱的、發現某些特大或特小的可疑值,可做出頻率分布表、繪制頻率分布直方圖、繪制莖葉圖進行直觀地分析;對于定性數據,可用餅形圖和條形圖直觀地顯示分布情況。
定量數據的分布分析對于定量變量,選擇“組數”和“組寬”是做頻率分布分析時最主要的問題,一般按照一下步驟:
-
求極差;
-
決定組距和組數;
-
決定分點;
-
列出頻率分布表;
-
繪制頻率分布直方圖;
遵循的主要原則有:
-
各組之間必須是相互排斥的;
-
各組必須将所有的數據包含在内;
-
各組的組寬最好相等;
下面結合具體數據運用分布分析對定量數據進行特征分析:
(1)求極差
極差=最大值-最小值=3960-45=3915(元)
(2)決定組距和組數
這裡根據業務數據的含義,可取組距為500,組數=極差/組距=3915/500=7.83
(3)決定分點
根據組數和組距,可确定以下的分布區間:
(4)列出頻率分布表
根據分組區間可制作出頻率分布表。其中,第1列将數據所在的範圍分成若幹組段,其中第一個組段要包括最小值,最後一個組段要包括最大值。習慣上将各組段設為左閉右開的半開區間,如第1個分組為[0,500)。第2列組中值是各組段的代表值,由本組段的上、下限相加除以2得到。第3列和第4列分别為頻數和頻率。第5列示累計頻率,是否需要計算該列視情況而定。
(5)繪制頻率直方圖
若以2014年第二季度撈起生魚片每天的銷售額為橫軸,以各組段的頻率密度(頻率與組距之比)為縱軸,可繪制成以下頻率分布直方圖:
定性數據的分布分析
對于定性變量,常常根據變量的分類類型來分組,可以用餅形圖和條形圖來描述定性變量的分布。
餅形圖的每一個扇形部分代表每一類型的百分比或頻數,根據定性變量的類型數目将餅形圖分成幾個部分,每一部分大大小與每一類型的頻數成正比;條形圖的高度代表每一類型的百分比或頻數,條形圖的寬度沒有意義。
餅形圖
條形圖
,