衆所周知,無論是一個國家還是一個企業,在制定決策策略的時候,都不會詢問每一個人的意見,對于國家而言,通常會收集各行各業代表的意見;對于企業而言,則是會選擇一些有代表性的人員來進行意見調研。
同理,當我們需要對大量數據進行分析時,是否一定要納入很多變量來構建模型呢?比如邏輯回歸模型可納入的變量個數是比較少的,那麼當變量個數成千上萬時,還可以來構建邏輯回歸模型嗎?此時,就需要引入維度分析的思想。
即選取一些重要維度中有代表性的變量來進行分析。比如某電信公司想要預測客戶是否流失,而影響客戶流失的維度有很多,比如有服務質量(信号差、計費錯誤)、費用高等等。
當你遇到這些問題時,如何快速找到問題的關鍵,從各維度中選取有代表性變量進行分析呢?
一般來講,收集的數據中有很多是高度相關的,這表明這些變量很可能提供同一個維度的信息,這就需要對數據進行壓縮,從大量的數據中歸納出少量的、最具有代表性的變量,選取的變量應該滿足同目标變量相關且各個變量之間互不相關兩個基本要求。
矩陣分析法的基本思想就是大數據小分析,所謂大數據小分析就是在做決策時對數據進行降維,以便決策者更加明确的了解事務的本質。所以,在學習矩陣分析法之前先來引入維度分析的思想。
從成千上萬的變量中選擇這樣符合條件的變量,這就是維度分析的概念。這裡的維度是指表述事物的不同方面。比如從長、寬、高3個維度描述立體形狀;從思維、認識、創造、适應環境和表達這5個維度表述個人的智力情況。
以下幾個例子反映了維度分析的重要性例1 某企業有多個産品,如何根據不同産品的表現制訂發展戰略呢?分析:企業中可以獲取的關于産品的信息有很多,比如利潤率、費用比率、年銷售增長率、市場飽和度、産品知名度、專利覆蓋度和市場占有率等。這些信息初想起來對制訂産品發展戰略都有意義。然而波士頓咨詢公司認為,隻有相對市場占有率和市場成長率這兩個變量在回答這個問題上最有價值,并将其固化為了“波士頓矩陣”,如圖1所示。
那麼,為什麼會選擇這兩個變量呢?原因在于産品相對市場占有率和利潤率、産品知名度有較強的關系,反映該産品的市場地位和産生現金流的能力,而市場成長率和市場飽和度強相關,反映産品的市場發展潛力,也就是說這兩個變量是最具有代表性的兩個變量,符合維度分析的基本思想。
(圖1)
這兩個代表性變量背後隐含的其實是在做産品分析時總會說到的所謂的産品生命周期理論,産品生命周期指的是随着時間的推移,産品總會經曆初創期、成長期、成熟期和衰退期這幾個階段,如圖2所示。
可以看出,在初創期,産品的收益率存在波動性,且成長率不太高;蟄伏很長時間後,産品進入成長期,銷售額及盈利均呈現快速增長趨勢;之後進入成熟期,該時期市場增長率開始降低,同時伴随着前期投資的變現,收益率增高;最後是衰退期,該時期如果追加投資,淨資産收益率(ROE)會很低,而且很多衰退期的産品已經達到了紅海的情況,競争非常激烈,增長率也會偏低。
(圖2)
進一步分析,市場成長率反映了産品生命周期的變化情況,而市場占有率反映了企業的具體産品的市場滲透情況,也就是說它們是兩個獨立的變量,分别反映不同維度(市場成長率反映了市場的情況,市場占有率反映了企業在市場上的情況)的信息,通過不同的維度對産品做出很好的分類。
以2005年的IBM為例,我們來看下IBM對于個人筆記本(PC)、服務器、咨詢這幾種不同類型的産品做出了怎樣的決策,首先是PC業務,市場占有率并不高,同時市場成長率也比較低,屬于瘦狗産品;其次是服務器業務,其市場占有率非常高,市場成長率處于成長期和成熟期之間,處于金牛和明星産品之間,更偏向于金牛産品;最後是咨詢業務,其市場成長率很高,處于成長期,但是市場占有率偏低,屬于問号産品。
根據以上分析背景,IBM公司做出了以下決策:瘦狗産品PC直接進行了出售,金牛産品服務器繼續保留投資,問号産品咨詢業務經過不斷扶持發展成為了明星産品,之後發展成為了金牛産品,最後進入瘦狗産品的行列。
上述案例分析表明,波士頓矩陣分析可以幫助企業制定出不同的産品發展戰略,包括資源分配、拟定業務戰略、制定績效目标以及平衡投資組合等。具體來講,對于瘦狗産品,一般不會對其進行發展性資源的分配,而且制定的績效會比較苛刻;對于問号産品,就要觀察其未來市場的發展情況,如果發展良好,市場占有率不斷增大,則可以考慮為其配置戰略性資源,制定溫和的績效目标(比如客戶粘性、客戶增長率、客戶好評度等等),而金牛産品更加關注收益類指标,對于客戶粘性基本不做過多關注。
最後,波士頓矩陣的象限特征總結如下,根據不同類型産品的特征制定不同的發展戰略。
(圖3)
在矩陣分析法中,問号産品的發展軌迹如下:
(圖4)
例2 某外企計劃開拓中國國内市場,應該先主攻哪個省呢?分析:模拟波士頓矩陣,波士頓咨詢公司也給出了示例答案,描述這個問題的兩個重要變量分别是市場規模和市場增長率,如圖5所示,運用這兩個變量對省份進行分類,從而做出相應的選擇。同時,除了上述變量外,還引入了第三個變量市場收入增長額。
(圖5)
可以看出,江蘇、浙江在市場規模較大且市場增長率也較高。
例3 一個擁有技術但缺乏社會資源的大數據創業公司,選擇哪個行業更容易成功?分析:在行業選擇方面的判斷涉及到的指标較為複雜,經分析,大數據價值潛力指數和海量數據捕捉難易程度指數這兩個指标在信息、數據等方面都更具備綜合性。以美國經濟為例,如圖6所示。
(圖6)
通過分析數據獲取的難易程度和數據的價值,做出行業的選擇。
例4 一家信用卡公司希望知道客戶按照價值貢獻-活躍度分類,有哪些類型?如何進行客戶維護?分析:根據波士頓矩陣分析思路,對個體客戶打标簽,通過聚類分析,得到客戶的類别,并且投影在由循環信用次數和交易次數這兩個指标組成的二維空間上,便于業務人員理解。其中,交易次數反映的是客戶的粘性,循環信用次數反映的是客戶的價值,總之,也是通過維度分析的方法對客戶進行了分類。
(圖7)
以上幾個例子都使用的是維度分析的方法,即決策層根據矩陣分析的結果獲得決策的依據,決定産品的投資與否;如果假設當前還沒有波士頓矩陣,那麼數據分析師該如何産出該矩陣呢?即如何從成千上萬的指标中選擇出有代表性的指标進行分析呢?
這就用到了常用的信息壓縮方法—主成分分析法,主成分分析法會幫助我們将多個指标壓縮到少量的幾個綜合指标,但是這幾個綜合指标沒有實際的業務含義,所以就産生了因子分析,因子分析可以在主成分分析的基礎上幫助我們探查相應的業務含義,最終可以直接根據因子分析的結果構建相應的分析矩陣,也可以根據因子分析的結果發現與因子相關的變量,根據代表性的變量構造分析矩陣。
在現實情況中,由于獲取的數據日益豐富,建模使用的原始數據可能有成千上萬個變量,這麼多的變量對于建模的解釋會造成一定的困難。其中的一大危險就是引入了冗餘變量。針對冗餘變量的問題,通常依據降維的理念對多維連續變量的數據進行處理,從而達到變量篩選和降維的目的。
降維的本質就是去除冗餘變量,保留主要變量。在進行建模時,一般原始數據的變量非常多,若直接建模,計算量會随變量數量的增加呈指數增長,同時模型穩定性下降,維護成本增加。此時就需要通過各種辦法降低數據的維度并篩選對模型有用的變量。若數據的維度能夠被降低到符合預期的程度并且不至于損失太多對模型有用的信息,那麼,這種降維就是理想的。
,