雖然現在數據分析的工具越來越多了,但是隻有Excel、SAS、R、SPSS、Python這 5 大軟件比較常用。而Excel對于很多數據分析人員來說,是最初級也是最主要的分析工具,它可以進行各種數據的處理、統計分析和輔助決策操作,如果不考慮性能和數據量,它可以處理絕大部分的分析工作。那麼,如何利用Excel進行數據分析呢?
一、明确分析目的
以結果導向的方式去思考,你究竟要解決什麼問題。并且規定具體指标、時間跨度、數量單位、呈現方式等。分析并沒有那麼簡單,需要先想明白分析的目的,才能決定用什麼樣的數據去支撐你的分析。這雖然與Excel無關,卻是進行數據分析的邏輯起點。
二、數據整合與梳理
将多項數據導入同一個Excel表格中。
1、注意事項
● 數據表為原始數據表
● 數據表第一行為數據字段名稱,數據字段名稱不可重複
● 數據表中每一行代表一個數據記錄
● 數據表盡量不要出現無意義的空行空列
● 原始數據表不能有合并單元格
● 數據表每列有且隻有一種數據類型
2、查看表中有哪些數據類型?
3、基本操作
● 給每一個sheet頁命名,方便尋找
● 給每一個工作表加一列行号,方便後面改為原順序
● 删除不必要的空行、空列
● 檢查一下是否有外部鍊接與公式。按住“Ctrl” “~”鍵,可查看單元格的隐藏信息。
三、利用Excel對數據進行簡單清洗
原始數據往往雜亂無章,因此需要對數據進行清洗和篩選才能找出其中的規律。
1、去重
步驟:“數據”-“删除重複項”-選擇重複列(單選一列表示此列數據重複即删除,多選表示多個字段都重複才删除。)
2、運用描述性統計命令觀察數據的基本情況
通過添加“分析工具庫”加載項找到數據-數據分析-描述統計,可以得到這組數據的中位數、衆數、峰度、偏度等基本指标,觀察這組數據的特征。
3、是否有「=0」或者空白的數據
選中整張表格數據,在菜單欄上選擇“數據”-“篩選”,然後可用每欄的篩選下拉菜單,看看這欄包含哪些數值。
需要特别注意「0」或者「空白」的數據。它有可能是正常的,例如某天真是沒有人登錄或者注冊(服務器宕機),也可能數據發生缺失錯漏。
如果有大量的「0」或者「空白」,需要思考對我們分析的影響。例如你想統計男生、女生各自的行為,假設1,000個樣本點裡,有800個沒有識别男女,那麼這個結果還有代表性嗎?
另外,Excel軟件對「0」與「空白」的處理不同。例如,有10個數值,2個=0,2個缺失,6個=8。讓Excel數一數該列有幾個值,會返回「8個」。0值計入,缺失項不計入。
若計算這一列的平均值,Excel會算成,(2*0 6*8)/(2 6),返回6,因為求8個數的平均值。既不是全部10個,也不是非零的那6個。
因此,當我們見到「0」或者「空白」時,需要特别注意。系統導出數據時,很可能把未曾統計标識為零,或者反之。App當日登錄人數未曾統計,或者确實無人登錄,意義當然不同。
4、統一數值口徑。
這是個無聊而必要的步驟。
例如我們統計銷售任務指标,有時用合同金額有時用回款金額,口徑經常不統一。統計起來就很麻煩。
5、運用 VLOOKUP 将數據合理分組
VLOOKUP 函數是 Excel 中的一個縱向查找函數,可以用來核對數據,多個表格之間快速導入數據等函數功能。功能是按列查找,最終返回該列所需查詢列序所對應的值。
比如,我們導出原始報表後,可以通過 VLOOKUP 函數将報表中的數字一一導入到新的管理用的報表,這樣既不會破壞原始數據,又可以建立良好的模闆,方便後續使用。VLOOKUP 的四個參數用通俗的話來說,就是(要找誰,要在哪裡找,要找哪一列内容,是精确的還是模糊的)
6、用"條件格式"看數據波動,發現異常。
Excel的"條件格式"功能,可以根據數值大小,給單元格畫上彩色柱狀圖。
四、建立數據透視表
步驟1:點擊“插入”-“數據透視表”-選擇分析區域-“确定”
步驟2:添加要分析的維度和度量
步驟3:度量值的選擇:求和、計數、平均值、最大值、最小值……
步驟4:通過布局設計最終的結果
注意事項:
● 以第一行為字段名稱
● 字段名稱不可重複
● 避免存在空行或者空列
● 每列數據類型保持一緻
● 不要出現合并單元格
● 避免單元格中有空格存在
● 一個工作表頁面最好隻有一個數據表
● 若有除數據表外的數據,最好與數據表留出空行或空列
數據透視表是一個非常容易上手的分組工具,對于簡單的數據處理甚至在便捷程度上打敗了很多編程工具呢。比如要對每個省份的所有專業分數線求一個平均數,将年份和省份輕松地拖動到對應的列和行,就可以得到結果啦。試想,如果在原始表格中手動一個一個求平均數該有多麻煩。
五、分析數據
下面這張圖就是一個數據分析應用的經典例子,顯示的是一個教育公司在擴張過程中,學習中心同比增速與營業毛利率的關系。試想,如果隻是一堆數據放在你的面前,可能根本無法發現其中的規律,但是通過下圖,我們可以發現,學習中心的同比增速一般與營業毛利率呈反向關系,這也就意味着,擴張的過程必然要伴随利潤下降的陣痛,這樣的數據分析就是有效的,可以為公司的擴張戰略提供參考依據。
另一種比較常見的數據分析應用就是從曆史預測未來。比如如果公司過去幾年的存貨周轉率都比較穩定,可以以此來預測未來幾年的存貨周轉率。又或者通過線性回歸發現某兩個指标之間過去的線性關系,并以此來預測未來走勢,這個操作方法可以用散點圖——添加趨勢線——選擇回歸類型(線性)來得出簡單的結論。
以上隻是Excel數據分析的一小部分,還有更多強大的功能等你來探索!
-數據分析展示就用DataHunter-
,