數據與智能 出版了專著「構建企業級推薦系統:算法、工程實現與案例分析」。每周輸出7篇推薦系統、數據分析、大數據、AI原創文章。「數據與智能」(同名視頻号、知乎、頭條、B站、快手、抖音、小紅書等自媒體平台号) 社區,聚焦數據、智能領域的知識分享與傳播。
作者 | gongyouliu
編輯 | auroral-L
本篇文章共8628字,預計閱讀時間35分鐘。
大家好,我是強哥。一個熱愛暴走、讀書、寫作的人!
本章目錄
一、數據分析的發展簡史
二、數據分析的應用場景
三、常用的數據分析工具與技術
四、數據分析的思維方法
1. 業務價值驅動數據分析
(1)用戶價值
(2)商業價值
2. 量化思維
3. 構建數據分析的閉環體系
4. 漏鬥思維
五、數據分析的困難與挑戰
1. 意識上的淡薄
2. 技術上的挑戰
3. 業務上的挑戰
六、數據分析的價值與意義
1. 數據具備展示作用
2. 找到事件發生的原因
3. 挖掘事件之間的關聯關系
4. 進行預測和決策
總結
從計算機發明開始,人類逐步進入了數字時代。特别是在2000年後的移動互聯網時代,我們生活的世界一切都可以數字化。數字化可以更好地服務于社會發展,提升人們的生活水平,這是一個不可逆轉的趨勢和規律。
在數字化大趨勢下,我們生活中的一切都被數字化革新了。衣、食、住、行、國防、教育、能源、醫療、文化、工業、農業、商業等都在數字化浪潮中發生了深刻的變化。日常生活中的一切與我們息息相關相關的對象都被數字化了。
在數字化時代,一切都可以數據化、一切都數據化了。我們想要更好地理解和認識這個世界,就需要學會怎麼利用數據,學會怎樣讓數據真正産生價值。用好數據是一種核心能力。數據的記錄、傳輸、存儲、處理、決策是一個閉環體系,整個鍊條是不可分割的,這個鍊條是數據分析的整個生命周期。在一切可以數字化的當下,數據也給我們帶來了極大的挑戰,數據的挑戰存在于數據分析的整個生命周期中。
數字化讓我們可以更加便捷、全面、深刻地理解世界。數字化給我們提供了一種認識世界的全新視角和方法論。在利用數據去認識世界的過程中,我們也創造了極大的商業價值。從電子計算機出現以來全球産生的财富之和遠遠超過人類在這之前所有時間創造的财富之和,這其中數字化功不可沒。
數據像石油一樣是一種資産,其自身的價值需要我們去挖掘,就像石油需要我們去提煉并生産出汽油、柴油、煤油,才能應用到工業生産中的各行各業一樣,數據也需要我們進行分析與挖掘,才能創造出商業價值。
數據從産生到實現價值的整個生命周期中的每個環節都非常重要,隻有處理好每個環節才能真正發揮數據的價值。我們這本書雖然會講解到數據應用整個生命周期中各個模塊,但主要是聚焦在數據分析上,聚焦在怎麼利用數據化的思維、方法、工具從數據中挖掘有用的信息。
我們在這一章中先對數據分析進行一個比較全面的概述,讓讀者可以從更多的維度了解數據分析。具體來說,我們會從數據分析的發展簡史、數據分析的應用場景、常用數據分析工具與技術、數據分析的思維方法、數據分析的困難與挑戰、數據分析的價值與意義等6個維度來講解。首先我們先簡單介紹一下數據分析的發展史,讓讀者有一個比較清晰的脈絡。
一、數據分析的發展簡史
談到數據分析,離不開數字。人類從很早就開始與數打交道了,甚至早于數字發明之前。遠古人類通過結繩記事來記錄身邊發生的重大事情(比如打到了一頭獵物就在繩子上打一個結)。結繩記事發生在語言産生以後、文字出現之前的漫長年代裡。我國古代文獻對此也有記載,《周易·系辭》雲:“上古結繩而治”。《春秋左傳集解》雲:“古者無文字,其有約誓之事,事大大其繩,事小小其繩,結之多少,随揚衆寡,各執以相考,亦足以相治也。”結繩記事是數字發明之前利用數據來解決問題的萌芽狀态,可以看成是最早的數據分析了,隻不過那時的人沒有這種意識,結繩也隻能起到簡單的記憶作用。
人類在與自然界的交互中慢慢成長,人類對世界的認識變得越來越清晰。人們對數的概念也是在日常生活中逐步意識到的,最終出現了數字,這時人類有了更加抽象便利的工具來對數據進行記錄、計算。特别是紙張的發明,為人類提供了書寫、記錄的工具。再後來,計算尺、算盤等計算工具的發明,讓人類的計算能力有了極大的飛躍。人們開始可以處理更加複雜的計算分析問題。最早導彈發射的彈道計算就是采用計算尺算出來的。
當計算機出現後,有了電子表格軟件,數據分析就更加容易了。最早的電子表格軟件是美國蓮花公司的Lotus,該公司在激烈的電子表格軟件競争中不敵微軟,在與微軟的競争中敗下陣來,最終被IBM收購。大家熟知的由微軟開發的Excel是電子表格軟件的佼佼者,幾乎統治了整個電子表格軟件的市場。Excel很好用、很實用,常規的數據分析與數據可視化都可以輕松應對。
随着移動互聯網的發展,數據量指數增長,數據的形式也更加多樣化,出現了種類繁多的非結構化數據(如圖片、音頻、視頻、網頁等富媒體數據),這時處理數據就沒有那麼容易了。2003到2006年間,Google發表了3篇具有劃時代意義的大數據論文,标志着大數據時代的到來。真正讓大數據火起來的觸發點是2006年Doug Cutting開源的Hadoop軟件(參考Google其中一篇論文的思路開發而成)。這之後全世界的開源貢獻者圍繞Hadoop構建了一系列(超過一百個,大家看看Apache基金會下面的項目就知道大數據組件有多麼龐大)的大數據組件,大數據逐漸形成了一個龐大的生态系統。有了大數據技術,人類的計算分析能力得到了極大的提升,可以輕易處理海量的數據。後面更有Spark、Flink等新一代分布式計算軟件的出現,讓我們可以更好地(甚至實時地)對海量數據進行分析挖掘。
除了軟件層面的進步,在計算機硬件上也有非常多新的成果,特别是芯片技術的發展和出現(如GPU、TPU、FPGA、蘋果的A系列芯片等),讓我們可以更好地對多種類型的數據進行分析、計算,大大提升了人類處理數據的能力。
以大數據、人工智能技術為核心的分布式計算平台為數據分析插上了騰飛的翅膀。各種應用場景的開拓,讓數據分析有了落地的土壤。當前,數據已經是企業的核心生産要素,而數據分析技術已經成為了企業的核心競争力。
總之,随着人類科技水平的發展,我們收集、存儲、分析、挖掘數據的能力不斷增強,我們可以更好地從數據中提煉出商業價值,我們也越來越離不開數據了。數據已經成為國家、企業的核心資産,基于數據資産的利用和商業價值挖掘從沒有停止過。目前數據分析的應用已經是百花齊放,我們在下一節就來梳理一下數據分析相關的應用場景。
二、數據分析的應用場景
當前數據分析已經應用到了各行各業,社會經濟生活中每一個構成要素都與數據分析有關。可以說,隻要有數據的地方,人們都在利用數據分析工具去分析處理相關的數據,從數據中提煉出有價值的商業洞察,最終産生業務價值。
從行業門類來看,工業、農業、商業、服務業中都可以利用數據分析來産生業務價值。數據分析在互聯網時代,能力得到了極大的延伸,主流的互聯網方向,如電商、視頻、新聞資訊、遊戲、生活服務、金融、社交等産品每時每刻都産生大量的用戶行為數據,這些行業中的翹首都通過數據來驅動業務增長,他們都将數據分析作為核心競争力之一。我們這本書也主要是基于數據在移動互聯網上的應用來講解數據分析相關的思維、方法等。數據分析在互聯網企業上的價值主要體現在BI和AI兩個方向上。所以我們在本節想主要是從BI(Business Intelligence,商業智能)和AI(Artificial Intelligence,人工智能)這兩個維度來講解數據分析的價值。
在BI層面,我們可以利用數據來對業務過程進行分析、展示,這是一種事後的分析,主要的應用場景有:
〇 數據報表
通過可視化的方式将已知的事實呈現出來,目前的報表也可以做到近實時了(比如阿裡雙十一大屏實時展示成交額),這些報表可以讓企業管理層更好地了解當前業務情況,方便對産品進行分析、決策;
〇 探尋原因
通過數據分析挖掘某些事件或者行為出現的原因。比如通過數據分析發現用戶流失的原因、某個功能點叠代導緻用戶活躍度降低的原因等等;
〇 預測與決策
通過數據發現某種規律,利用該規律來指導産品叠代與運營決策。比如發現用戶比較喜歡評論,那麼在産品交互中提升評論的便捷性;預測用戶的播放量趨勢,更好地指導進行廣告投放的庫存管理等。我們在本書第二、第三篇(即第9章到16章)會講解很多數據分析在BI方向上的技術及場景應用。
在AI層面,數據分析的價值主要體現在通過構建數據模型,更加自動化、個性化、精準地服務于用戶,減少人工在整個服務流程中的幹預作用,甚至做到完全自動化。這方面的應用非常多,比如推薦系統、搜索、廣告自動投放、精細化運營、反欺詐、路徑規劃、人臉識别、對話系統、運籌優化等等。數據在AI層面的應用價值體現在這些場景下人力很難勝任、人力成本極高或者人工服務體驗不佳,不得不借助機器學習等算法手段來實現。目前采用機器學習方法進行的數據應用一般屬于AI範疇,但是也可以算作是廣義的數據分析。我們在本書第四篇(即第17到21章)會講解幾種比較常見的需要構建稍微複雜的模型的數據分析方法,這些方法也常用于數據分析挖掘領域。
數據分析在各種業務場景的應用離不開數據,也離不開各種分析工具。數據是生産資料,數據分析工具和技術是改造生産資料的利器。我們在下一節中對常用數據分析工具和技術進行簡單梳理,這部分内容也是我們這本書後續章節的重點。
三、常用數據分析工具與技術
在大數據技術出現之前,電子表格是最流行的數據分析工具,Excel的能力非常強大,基本上所有的數據分析它都可以勝任。數據處理、建模、可視化、透視、表關聯、甚至編程等等都不在話下,Excel的界面友好,操作也非常便捷高效。早期的數據分析人員用好Excel基本就夠了,即使是在當下Excel也是數據分析人員最常用的工具之一。
大數據時代之前更專業的數據分析工具有Matlab、SPSS、SAS、R等。這些工具有些是通過拖拽(如SPSS、Matlab的工具箱等)就可以做複雜的數據統計分析,有些需要編程完成更加複雜和定制化的分析任務(如SAS、Matlab、R等),比較專業的分析人員會用這些工具。目前這些工具很多傳統行業都在使用(比如銀行、快消品行業等)。
這裡不得不提一下,Python作為一門古老的編程語言,也是常用的數據分析工具。涉及到處理複雜的邏輯,需要代碼實現時,用Python不失為一種好的選擇,Python之所以受到數據圈的歡迎,是因為Python生态系統在早期就構建了一套體系化的數據分析組件,包括Numpy、Pandas、Scipy、Matplotlib等。
二維表格數據是對現實世界非常好的一種抽象,很多數據都可以用二維表格來表示。表格的行表示樣本,列表示樣本的屬性和特征。針對二維表格數據,除了Excel這種可視化的拖拽處理外,計算機科學家還發明了一種數據查詢語言,這就是大名鼎鼎的SQL語言(Structured Query Language)。SQL語言結構簡單,容易理解、學習和記憶,并且功能也非常強大。針對存儲在關系型數據庫(如MySQL、Oracle等)中的數據(關系型數據庫是存儲結構化數據的最佳工具),利用SQL進行處理分析是最優解決方案。
在大數據時代,數據分析相關工具不可避免受到大數據的沖擊和影響,這體現在數據分析的方方面面。首先是數據收集,在大數據時代有Flume、Kafka等分布式工具可以從多種來源收集數據;再次是數據存儲,這裡包括HDFS、Hive、Impala、HBase、Clickhouse、Hudi、Presto、druid等大數據生态下面的各種分布式存儲組件。這裡提到的存儲組件有些還包含數據分析支持,他們具備的分析能力大多數也是基于SQL語言的(是标準SQL語言的變種);最後在數據分析與處理上,有MapReduce、Spark、Flink等分布式計算工具。
當我們完成了數據的分析處理,我們需要将我們獲得的洞察更好地呈現出來,那麼就需要利用數據可視化技術。俗話說,一圖勝千言,當我們将從數據中挖掘的有價值的洞察用更合适的方式展示出來時,可以方便我們理解、記憶,更有利于我們跟其他人進行分享、宣傳、彙報。Excel本身是具備強大的數據可視化能力的,利用Excel可以畫出漂亮的圖形。前面說到的Matlab、R、SAS等也具備可視化能力,Python中的Matplotlib也是專門用于數據可視化的。在大數據時代,可視化的工具就更多了,Apache下的Superset以及百度開源的Echarts等都是優秀的可視化工具。這裡提一下商業上的可視化工具Tableau,它是全球最出名的商業可視化解決方案,在各行各業都有廣泛的應用。
我們在這裡隻是提前粗略提一下數據分析相關的工具,在第二篇(即第6到第11章)會對數據收集、存儲、處理、可視化等方面的基礎能力和工具進行詳細的介紹。有了數據和相關分析工具,剩下就是怎麼去分析數據了,分析數據也是有一套思路和方法的,下面一節就進行簡單介紹。
四、數據分析的思維方法
數據分析作為一個比較成熟的工具和思維體系,早已在業務中産生了巨大的價值。為了讓數據分析更好地落地到真實業務場景中,讓數據分析的價值最大化,我們需要按照科學 、正确的方式處理數據。具體來說,我們可以從如下4點來思考和實踐:
1. 業務價值驅動數據分析
首先,數據分析的目的是賦能業務,為業務發展提供數據洞察,為業務決策提供數據支撐。業務價值概括來說分為用戶價值和商業價值,下面分别介紹。
(1)用戶價值
用戶價值是指與用戶相關的,包括用戶增長與用戶體驗。任何産品最終是依賴于用戶産生商業利潤的,所以服務好用戶非常重要,我們要提升用戶體驗,滿足用戶需求。服務好了用戶,用戶才會留下來。在服務好用戶同時需要努力提升用戶粘性,當用戶更願意使用你的産品了,未來針對該用戶變現就變得更加容易了。企業和用戶的關系可以看成是一種博弈關系(這裡不是貶義詞),要想達到博弈的納什均衡狀态,需要滿足雙方的利益訴求,最終達到雙赢。
(2)商業價值
所謂的商業價值就是指商業利潤,是企業通過廣告、會員、增值業務等在更好服務用戶的同時獲得的商業回報。
在利用數據分析進行數據挖掘時,我們需要從用戶價值和商業價值維度出發,一切數據分析的終點是創造用戶價值和商業價值,無法創造這兩類價值的數據分析是沒有意義的,是不值得做的。
2. 量化思維
上面提到的用戶價值和商業價值都是可以量化的,隻有量化了,我們才可以更好地衡量我們的決策是否真正産生了業務價值。怎麼量化我們的價值呢?這就是數據指标體系需要解決的問題,我們會在第9章詳細介紹,這裡不贅述。
3. 構建數據分析的閉環體系
前面提到有價值的數據分析一定是服務于用戶價值和商業價值的。數據的使用除了要量化外,一定要形成閉環(參見下面圖1,這是一種可行的閉環思考、執行體系),讓數據驅動可以不斷叠代下去,讓前面1中提到的可量化的價值最大化。
圖1:業務數據分析的閉環系統
互聯網公司常用的AB測試技術(參考下面圖2)就是一種比較好的工具,可以輔助數據分析師在控制風險足夠小的情況下更好地做出正确的抉擇。AB測試的目标就是構建一個數據驅動業務的,可以評估的,也可以實際落地的閉環系統,所以思路是跟上面提到的閉環系統一脈相承的。
圖2:AB測試閉環系統
4. 漏鬥思維
用戶在産品上的任何一次有業務價值的操作一般是由幾個相互關聯的步驟組成的,這些步驟按照操作的先後順序形成一個鍊條(如購物就可以拆分為浏覽→加購物車→付款等幾個核心環節),鍊條後面的步驟依賴前面的步驟(每一步都有用戶流失,看成一個漏鬥更加形象,參考下面圖3)。最後一步往往才是最關鍵的(即是真正産生業務價值的一步),為了讓最後一步順利進行,前面每一步都需要重視,特别是需要關注從前一步到後一步的轉化,隻有當每一步的轉化率足夠高時,才會有較大比例的用戶産生最終的商業化行為(最終的商業行為的轉化率是前面各個步驟轉化率的乘積)。
作為數據分析師一定要有将用戶行為合理地拆解為漏鬥的意識和能力,數據分析師的工作是通過數據化的方法,努力讓流量漏鬥在向下流動的過程中保持每一步都有較高的轉化。
圖3:用戶購買的流量漏鬥
本節我們就介紹這4種核心思維方法,我們會在本書的第22章進行更加全面具體的介紹,并結合案例進行細緻分析。
五、數據分析的困難與挑戰
做好數據分析不是一件容易的事情,真正有數據意識并且能夠用數據能力賦能公司業務的企業是少之又少的。那麼數據分析會面臨哪些問題與挑戰呢?
1. 意識上的淡薄
數據驅動業務是一個自上而下的過程,需要老闆來推動相關業務的落地,并且給到足夠多的資源(人力、金錢、權力等)支持,否則數據分析就隻是一種形式化,根本無法真正産生價值,最終淪落為就是做做報表,提提數據。目前絕大多數互聯網公司的數據分析就是停留在這一層面。
2. 技術上的挑戰
首先,目前企業有非常多的觸點接觸到用戶(比如公衆号、抖音、微博、官網、小程序、網店、加盟店、線下店等),那麼将這麼多渠道的數據收集整合起來就是一件費力繁瑣的事情。同時,目前的數據維度也非常複雜,除了有數字形式的數據,還有文本數據(比如用戶的評論),音頻數據(如400客服電話),圖片視頻數據(線下店攝像頭收集的數據等),這些海量的、異構的數據的存儲處理都面臨極大挑戰。
在數據存儲上,目前有數據倉庫和數據湖技術可以對數據進行存儲。在數據處理上,也有各種大數據分布式計算軟件(Spark、Flink等)對數據進行處理分析。數據存儲、處理都需要有相關專業人員參與,部署這些分布式存儲、處理組件也是需要很多資金支持的。
3. 業務上的挑戰
另外一個挑戰就是業務上的挑戰了,這也是最大的挑戰。首先,數據分析人員需要了解公司的業務和産品,熟悉自己的平台和用戶。在對業務深刻理解基礎上再确定核心的業務指标,将指标拆解為一個個小的單元,最終利用數據分析工具和方法将指标量化,通過優化每個指标來最終提升整體大的目标。
數據分析是業務工具,更是一種思維工具,隻有企業自上而下都有數據思維,并且将數據思維貫徹到日常工作中,數據才能真正産生價值。這個過程是困難的,是有挑戰的,也是值得的,因為數據的價值是非常巨大的。數據分析的價值可以從多個維度來度量,我們在下一節進行說明。
六、數據分析的價值與意義
數據分析能力已經成為互聯網公司的标配。無論産生價值與否, 互聯網公司都是具備一定的數據分析能力的(或者有自己的數據分析團隊或者購買了數據分析雲服務),這說明現在的企業是有數據意識的,也大緻知道數據分析對業務的價值。這一節我們就來簡單梳理一下數據分析的核心價值體現,我們從如下4個維度來說明。
1. 數據具備展示作用
數據的展示作用大家應該很好理解,我們常規的數據報表其實就是業務的一種數據化展示,目前數據報表也是互聯網企業的标配了。報表可以從多個維度(如地區、時間、版本、渠道、用戶等)來對各種指标(如播放量、購買量等)進行可視化展現的。随着實時處理技術的發展與成熟,當前報表可以做到近實時展示了,這讓我們可以及時了解數據指标的表現,及時做決策。
數據的展示作用除了以報表的形式出現,還可以有更多的形式。我們在第12章要講到的留存分析,第13章講到的漏鬥分析,第15章講到的路徑分析,第16章講到的分布分析都可以利用數據展示技術更直觀地獲取信息。這幾類業務分析形态如果進行深入分析是可以挖掘出某些事件出現的原因的,這就是下面一小節我們要講到的。
2. 找到事件發生的原因
這是所謂的歸因分析,歸因分析就是找到某個事件(可能是好的也可能是壞的)發生的真正原因,找到了原因,我們就可以避免損失或者創造更大價值。比如,産生新發了一個版本,發現用戶留存下降了,最終找到是用戶在登陸過程中容易出現閃退,那麼我們就可以通過停止升級,修複bug後再發布來規避這個升級閃退的bug。我們在第14章會專門講解歸因分析,這裡不再過多說明。
3. 挖掘事件之間的關聯關系
事件之間除了存在2中所說的因果關系,還存在一種沒有直接因果的關聯關系,大家熟知的數據挖掘領域中的“啤酒與尿布”的故事就是一種關聯關系。關聯關系在大數據時代是非常重要的,比如Google通過分析網民搜索新冠相關關鍵詞就可以預測某個地區疫情情況并提前進行幹預。我們在第17章會講解購物籃分析,這是商業領域比較重要的一種挖掘關聯關系的應用場景。
4. 進行預測和決策
前面提到的數據分析的3種價值更多的是事後分析(就是事情已經發生後再分析),事後分析滞後性明顯,帶來的價值是相對有限的,我們更希望的是事前預測,這樣更有掌控感,這也是為什麼各種股票預測、預測這麼鼓動人心的原因。
預測與決策可以讓我們事先對未來進行預判并采取行動,可以更好、更及時地地發揮出數據分析的價值。預測與決策相關的數據分析能力一般需要采用機器學習技術來構建數據模型,利用曆史數據建模,然後對未知情況進行預測并做決策。第18章的聚類分析,第19章的分類分析,第20章的回歸分析以及第21章的時間序列分析都是這方面的技術。
總結
本章我們簡單介紹了數據分析相關的知識點,并梳理了數據分析的發展簡史。在互聯網時代,大數據技術的出現深刻地影響并極大提升了數據分析的地位和能力。數據分析當前已經成為互聯網公司的标配技術,應用于各行各工業,我們日常生活中能夠接觸到的所有行業基本都被數據化浪潮改造了。在大數據時代傳統的數據分析工具得到了更好的延伸,目前我們有更多的軟硬件技術來更好地處理大規模、異構的數據。
在大數據與移動互聯網時代,我們處理數據、利用數據的思維方式和方法都有所變化,本章我們梳理了常用的數據思維方法,這些思維方法是指導我們進行數據化決策的思想武器。利用這些思維方法我們可以更容易從數據中挖掘出業務價值。數據分析是一件具備挑戰的事情,要想真正産生業務價值也不是那麼容易的,需要我們克服很多困難,在方法、思維等各個方面采用全新的思路和視角來應對。數據分析的巨大商業價值,吸引者每個數據分析從業者,我們利用自己的聰明才智,采用創造性手段和工具去挖掘數據中潛在的寶貴财富。
有了第一章的全局梳理,大家對整體脈絡應該就比較清晰了。我們會在接下來的24章中,從技術、思維、方法、工具、業務、案例等多個維度來詳細講解,讓大家更好地掌握數據分析相關的技能和知識點。也希望大家跟着這本書的學習,真正領悟數據分析的奧秘,最終利用數據分析這一強大的工具為業務創造源源不斷的商業價值。
我的專欄「組織中的團隊管理與自我管理」,需要的讀者可以試閱讀或者購買。
,