編輯導語:描述性分析思維的建立有助于幫助我們樹立數據分析思維,具體而言,描述性分析思維有哪些思維維度和常見的數據指标?又該如何應用?本篇文章裡,作者就描述性分析思維談了談他的見解和思路,不妨來看一下。
一、前言
之前梳理了“數據思維”概念、培養鍛煉以及應用的一些相關的内容,現在我們将開始梳理一些做數據分析需要具備哪些常見的、實用的、具體的數據分析思維,如描述性分析思維、二八和帕累托思維、PEST分析思維、生命周期分析思維、競品分析思維、結構化分析思維等。
本文将從數據分析入門級思維——描述性分析思維開始梳理,從而幫助大家樹立數據分析思維的意識。
在做數據分析之前,我們首先要認識了解數據,将會收集一系列複雜的數據信息,對相關的數據進行統計整理。
在這種情況下,僅單靠讓人“看”數據,會讓人一臉茫然失措的。就像有些人不懂得如何更好地展示分析結果和數據來印證自己的分析,如一個人滿腹經綸卻不知該如何一展雄才。
想讓人了解數據的大緻情況、印證自己的分析時,利用描述性分析思維,就能讓我們了解到數據信息的整體概況,還能讓我們觀察到數據的特征和異常問題等。
描述性分析思維,即對調查總體所有變量的有關數據做統計性描述,主要包括數據的頻數分析、集中趨勢分析、離散程度分析、分布和一些基本的可視化統計圖形以及清晰的文字描述。
二、描述性分析思維有哪些指标?
所謂指标是幫助我們打開思路,通過多個指标對數據進行深度解讀,不能僅僅靠着對數據的一種感覺和敏感來進行數據分析,這樣的主觀性太強。因此,我們來看一下描述性分析思維有哪些指标?
常用的描述性統計分析指标有:平均值、四分位數、方差、标準差、中位數、衆數等。通過這些指标的計算和圖形視覺化展示,讓我們發現原來這些數據是這樣的情況!
1. 平均值
平均值顧名思義就是計算數據的平均數是多少,可以讓我們了解到數據的平均水平是多少。
公式:平均值μ=(數值X1 X2 X3……)/N(多少項,數值的數量)
- 優點:計算簡單,可讓人了解到平均水平如何。
- 缺點:當數據值差距很大的時候,呈現的平均水平結果就可能會出現不客觀的現象,出現平均數陷阱,讓人誤解。例如,我們總覺得自己的收入水平拉低了城市人均工資的水平線。
2. 衆數
衆數(Mode):統計分布上具有明顯集中趨勢點的數值,代表數據的一般水平(衆數可以不存在或多于一個)。
3. 中位數
中位數描述數據中心位置的數字特征。大體上比中位數大或小的數據個數為整個數據的一半。對于對稱分布的數據,均值與中位數比較接近;對于偏态分布的數據,均值與中位數不同。中位數的又一顯著特點是不受異常值得影響,具有穩健性,因此它是數據分析中相當重要的統計量。
4. 方差、标準差、标準分
方差:樣本中各數據與樣本平均數的差的平方和的平均數叫做樣本方差;樣本方差的算術平方根叫做樣本标準差。樣本方差和樣本标準差都是衡量一個樣本波動大小的量,樣本方差或樣本标準差越大,樣本數據的波動就越大。
标準分也叫z分數,是一種具有相等單位的量數。它是将原始分數與團體的平均數之差除以标準差所得的商數,是以标準差為單位度量原始分數離開其平均數的分數之上多少個标準差,或是在平均數之下多少個标準差。它是一個抽象值,不受原始測量單位的影響,并可接受進一步的統計處理。
用公式表示為:z=(x-μ)/σ;其中z為标準分數;x為某一具體分數,μ為平均數,σ為标準差。
标準分表示【某個數值】距離平均值多少個标準差。在質量管理中,我們常常聽到6西格瑪管理就是标準分的典型應用。這個标準差,通常用每百萬次采樣數的缺陷率來衡量。
1個标準差,就是每萬件抽樣中,有69萬個不合格,相當于一本書每頁有170個錯别字。3個标準差就是每百萬件抽樣中,有6.7萬個不合格,相當于一本書每頁有1.5個錯字。6個标準差就是每百萬件抽樣中,有3.4個不合格,相當于整個小型圖書館的所有藏書中,隻有1個錯别字。
5. 四分位數
四分位數是指在把所有數值由小到大排列并分成四等份,處于三個分割點位置的數值,分割後我們會通過5個數值來描述數據的整體分布情況。
- 下界:最小值,即第0%位置的數值;
- 下四分位數:Q1,即第25%位置的數值;
- 中位數:Q2,即第50%位置的數值;
- 上四分位數:Q3,即第75%位置的數值;
- 上界:最大值,即第100%位置的數值。
- 優點:可以用來對比不同類别數據的整體情況,還可以識别出可能的異常值。
- 缺點:無法反映數據的波動大小。
6. 極差
極差=最大值-最小值,是描述數據分散程度的量,極差描述了數據的範圍,但無法描述其分布狀态。且對異常值敏感,異常值的出現使得數據集的極差有很強的誤導性。
7. 偏度
偏度用來評估一組數據的分布呈先的對稱程度,即以正态分布為标準描述數據對稱性的指标。
8. 峰度
峰度用來評估一組數據的分布形狀的高低程度,即描述正态分布中曲線峰頂尖哨程度的指标。然而:
- 均值、中位數、衆數體現了數據的集中趨勢。
- 極差、方差、标準差體現了數據的離散程度。
- 偏度、峰度體現了數據的分布形狀。
以上是常用的描述性分析的指标,還有一些其他的指标,如絕對數、相對數:倍數、成數、百分數等,這裡就不一一介紹了。
三、描述性分析思維維度有哪些?其實,在日常的數據分析中我們經常使用一些特征值,尤其是我們做周報或者月報的分析時,這些描述性的統計分析特征值對于我們有一定的幫助,描述性統計分析是進行正确的統計推斷的先決條件。可通過數據的集中趨勢、離散程度、分布類型和特點等維度進行初步分析。
1. 集中趨勢的描述性統計
- 均值:描述一組數據的平均水平,是集中趨勢中波動最小、最可靠的指标,但是均值容易受到極端值(極小值或極大值)的影響。
- 中位數:最适合的表征集中趨勢的指标。
- 衆數:常用于描述定性數據的集中趨勢,不受極端值的影響。
2. 離散程度的描述性統計
- 最大值和最小值:是一組數據中的最大觀測值和最小觀測值。
- 極差:一般情況下,極差越大,離散程度越大,其值容易受到極端值的影響。
- 方差和标準差:是描述一組數據離散程度的最常用、最适用的指标,值越大,表明數據的離散程度越大。
3. 分布形态的描述性統計
- 偏度:當偏度=0時,分布是對稱的;當偏度>0時,分布呈正偏态;當偏度<0時,分布呈負偏态。
- 峰度:當峰度=0時,分布和正态分布基本一直;當峰度>0時,分布形态高狹;當峰度<0時,分布形态低闊。
4. 頻率統計分析
- 頻數分布分析(又稱頻率分析)主要通過頻數分布表、條形圖和直方圖、百分位值等來描述數據的分布特征。
- 在做頻數分布分析時,通常按照定性數據(即分類的類别),統計各個分類的頻數,計算各個分類所占的百分比,進而得到頻率分布表,最後根據頻率分布表來繪制頻率分布圖。
5. 按照時間遞增的趨勢統計
特殊情況下,當X軸是日期數據,Y軸是統計量(比如均值、總數量)時,可以繪制出統計量按照時間遞增的趨勢圖,從圖中可以看到統計量按照時間增加的趨勢(無變化、遞增或遞減)和周期性。
例如,下圖的X軸是日期,Y軸的統計量是總數量,兩條折線分别是新增企業數和新增用戶數據
四、描述性分析思維運用基本思路?
那麼,接下來,我們來梳理一下描述性分析思維運用的基本思路?
首先,要描述目前的數據表現的現狀是什麼,根據分析目的,提取指标數據的具體數值:如數量、平均數、極差、标準差、方差、極值。
其次,描述分布規律:如均勻分布、正态分布、集中趨勢、長尾分布。
然後,根據以往的數據的或者是之前制定的标準,制定參考标準。
最後,綜合現狀和标準,輸出有價值的結論,并進行可視化:如柱狀圖、條形圖、散點圖、餅狀圖。
隻有業務概況 數據指标 标準(可視化)才能得出一個“是什麼”的結論。
業務概況 數據指标 标準(可視化)=結論的分析流程,非常簡單,不過标準如何去制定?那又是需要我們深思的問題了。
例如,一個門店購買商品的數量的平均值是多少?四分位數是多少?标準差是多少?标準分是多少?兩個數據的變異系數是多少?
一個門店銷量每日增長趨勢怎麼樣?客單價的分布如何?成什麼分布?門店總銷量是多少?哪個商品賣得最好?細分的品類中賣的最好的是什麼?
例如面包中,是有奶油面包的好,還是無脂面包=賣的好?什麼時間用戶購買最集中,一天中哪個時間段購買最集中,賣得最好?
五、總結描述性分析思維,即解決業務現狀“是什麼”的問題,這是最基礎的、最直觀簡潔的數據思維。但是由于簡單,對多元變量的關系難以描述。現實生活中,自變量通常是多元的:決定體重不僅有身高,還有飲食習慣,肥胖基因等等因素。
但可以通過一些高級的數據處理手段,對多元變量進行處理,例如特征工程中,可以使用互信息方法來選擇多個對因變量有較強相關性的自變量作為特征,還可以使用主成分分析法來消除一些冗餘的自變量來降低運算複雜度。
在之後我們會提到拆解思維、對比思維等數據分析思維中都會涉及。總之,以後運用數據分析思維做得多了,做數據分析輸出的成果就更嚴謹,有依據,有說服力,不在停留“取數”階段了。
#專欄作家#
木兮擎天@,木木自由,人人都是産品經理專欄作家。多年互聯網數據運營經驗,涉獵運營領域較廣,關注于運營、數據分析的實戰案例與經驗以及方法論的總結,探索運營與數據的神奇奧秘!
本文原創發布于人人都是産品經理。未經許可,禁止轉載
題圖來自Unsplash,基于CC0協議
,