數據分析的思維方式-tft每日頭條

對于業務人，比如産品或運營，數據分析能力的核心不在方法和工具，而在于思維。

大多數人錯誤地理解了數據分析，把數據分析能力提升的關鍵放在了方法和工具；
對于業務人而言，數據分析的核心思路是，得到兩個變量之間的「量化關系」，用以解釋現象；
數據分析的步驟，感知問題、提出假說、選擇表征、收集數據、分析驗證；
提出假說和選擇表征是很多業務人數據分析做不下去的原因。
數據分析的方法崇拜

在和團隊小夥伴分享的的時候，發現一個問題：

我問，你怎麼看數據分析能力？如何評價自己的數據分析能力？

大家的回答主要是這樣的：

運營是基于數據驅動的，但是拿着很多數據，不能分析下去，主要是對于excel的一些陌生的公式、函數都不太會，我要專門去學一下excel

我感覺導緻現在轉化率低低原因是xxx，最近接觸到很多用戶都是這麼反饋的，但還沒有找到好的分析方法

産品的數據分析能力還是很重要，我想去學個R，能夠去構建量化模型

……

以上，我覺得太在意數據分析方法和工具，我覺得都還沒有把握住一個業務人數據分析能力的核心。

業務人考慮的最重要的問題是，業務結果到底怎麼樣，出現了什麼問題，原因是什麼，可能的解決方案是什麼。

數據分析隻是手段，它的誤區就是，太在意方法和工具。

而最缺少的，恰恰是最重要的思維。
數據分析的本質

數據分析最重要的思維就是，不斷确定業務中兩組變量之間的關系，用以解釋業務。

收入、轉化、用戶規模、用戶活躍等，我們稱為現象。而隻有通過數據量化的現象，我們才能精準感知。所以，數據是用來描述現象的，是被量化的現象。

而數據分析，就是尋找這些被量化的現象之間的「關系」。這個關系就是y=f（x）。找到兩個變量之間的關系，多找到一種這樣關系，在實踐中，就多一種有效手段。

比如，做社群運營的同學，常常會想，到底什麼因素在影響用戶的活躍度。在實踐的過程中，我們感覺到，不同的進入社群的時間點可能是活躍度比較關鍵的影響因素。于是，嘗試通過數據定義，确定x=進群時間點與開群的時間差，y=第一月活躍率。我們将x變量按天為單位氛圍不同類别，得到了以下的關系：

*x變量每類樣本N>50，且基本是同一時間的社群，排除了其他因素影響

當我們得到以上圖示的關系其實足以指導我們的工作了——做社群運營，盡量做到及時開群，不要讓用戶等待，消耗熱情。

所以，數據分析最重要的思維就是，不斷去尋找可能與業務結果有關的變量，确定這兩個變量之間的關系。多确定了一種關系，就多了一種手段，少了一些瞎幹。

要做到這些，excel的基礎功能，妥妥解決。通過統計學方法回歸分析出一個量化模型或論證其信效度。

因為，對于大部分業務而言，動作的精度有限，所以不需要分析的精度太高，同時，統計方法的量化模型無法用業務邏輯進行解釋，隻能預測，對于實操類業務意義不大。
業務中數據分析的一般方法

前面簡單說了數據分析的方法工具誤區和數據分析核心是要去尋找兩組變量之間的關系。

那在業務中，如何進行有效的數據分析。我将數據分析歸納為以下五個步驟：

第一步，感知問題
第二步，提出假說
第三步，選擇表征
第四步，收集數據
第五步，分析驗證
第一步，感知問題

如果沒有問題，是不需要數據分析的。

但是，那是不可能的。KPI總是差點才達到，即使達到了，領導還會問你，就不能做到更好嗎？

在業務中的問題有這樣兩種，一種是直接找最終結果的問題，比如收入比不上競品，DAU下降了10%等；一種是環節上的問題，拆解漏鬥和業務環節，比如通過分析app數據漏鬥，發現每日使用一次人數相對于每日打開人數相對于流失了30%等。

記住這樣一句話，但凡有差異，必有問題，但凡有問題，必要尋找原因。

這一步困難的不是有沒有問題，差距、不足總是在那裡。困難的是，能不能找到最重要，也就是最和業務結果相關的問題，優先級排序是關鍵。

而排序的關鍵就是，基于最重要的結果或KPI的标準進行排序。不斷思考一件事，解決了這個問題能夠對結果有多大的改善？
第二步，提出假說

找到問題，下一步就是找方法解決。

在管理咨詢界有個說法，叫作不要煮沸海洋。說的是，把所有的，可能導緻問題的因素全部找出來分析一遍，那是低效也是不可能的。

所以，這裡就需要使用到「假說」的方法。

哪些因素可能影響到收入？哪些因素會導緻打開app的人不使用任何功能直接離開？

找到以上問題可能的答案的過程，就是提出假說的過程。

這裡有兩個路徑用來提出假說，一個是歸納的方式，一個是演繹的方式：

什麼是歸納式的，就是根據個案進行總結。比如在收入可能的影響因素的時候，我會找所有相關工作人員進行頭腦風暴，提出可能的因素；也會對分層的用戶進行抽樣深讀訪談，了解他們購買或不購買的原因及其他看法。

什麼是演繹式的，就是根據模型進行推演。比如在app打開不使用直接離開，我們可以根據對用戶行為模型的理解進行拆解，而拆解的有效與否，其實就是關于你模型多少、深度。

結合歸納式和演繹式的方法，我們會得到非常多的可能與結果相關因素。進行整理，并進行重要性排序。

到這裡，我們就找出很多可能、未經确定、未經量化的y=f（x），也就是一對對可能有關系的變量。
第三步，選擇表征

不可被數據量化，就不能被改變。如前文所說，數據分析，需要将現象量化，得到可以分析的數據。

所以，需要将提出的假說中所選擇的變量，用數據來進行表征。

在入群時間點對用戶活躍度影響的例子中，我們将入群時間點（x）定義為：入群時間與開群時間差；将活躍度（y）定義為用戶從進入起一周的活躍率，即一月内活躍天數的占比。

在選擇數據表征元素的時候，需要把握的原則就是：

選擇的數據能夠充分代表假說中變量的内涵；

選擇的數據盡量是用戶客觀行為數據而非主觀态度數據；

選擇的數據是有被記錄或容易獲取。
第四步，收集數據

互聯網的很大優勢就是數據驅動的，數據往往是被有效收集的。

但是，也存在數據沒有被記錄情況。支持産品功能的數據，會被記錄，但是很多行為數據隻能通過調取接口數據或埋點的方式進行記錄。這就需要業務人能夠提前規劃所需數據，讓工程師将數據記錄在庫。

在收集數據的過程中，需要注意到就是有效數據量不能太小。
第五步，分析驗證

反倒是，分析驗證這個步驟變得不是那麼核心的步驟。

确定好了x與y的含義和數據，剩下的分析就很簡單了。通過數據可視化的方式，表現出x與y的關系，就能發現其中是否存在有價值的規律。

發現x與y存在某種關系的時候，最好通過數據進行再次驗證。選擇另外一組數據，再次進行分析，看确定的關系是否再次被複現。

當然，最重要的驗證是在業務實現中體現。
數據分析，一種必備能力

數據分析，是認識事物的重要方式之一，它的特點是定量的非定性的、過去的非未來的、相關的非因果的，有其适用範圍，但一定是所有業務人必須掌握的能力。

對于業務人，不用太崇拜于方法和工具，首先需要錘煉分析思維，尋找兩個變量的關系，真正指導業務才是關鍵。

而在分析的過程中，「提出假說」和「選擇表征」是關鍵所在，也是很多業務人沒有能夠作出有效分析的關鍵所在。

本文由 @個家原創發布于人人都是産品經理。未經許可，禁止轉載。

題圖來自 Pixabay，基于 CC0 協議
,