統計學是一門推斷事物本質,預測事物未來發展,是應用比較廣泛的綜合性科學!其中更是集合了的許多常用的數據分析方法。
很多入門級數據分析師,甚至一些“老油條”在日常工作中一直都在使用固定得機器學習框架來處理數據,并不會去了解其内在統計理論,但是為了知道如何使用或什麼時候使用分析方法,去了解一下統計學和其統計分析方法是很有幫助的。
一、描述統計描述統計是通過圖表或者數學方法,将數據資料進行整理和分析,描述和概括數據的特征、狀态以及随機變量之間的關系從而進行分析。
該方法主要分為相關分析、集中趨勢和離散趨勢三部分:
1、相關分析
簡單的來說就是探讨數據間有沒有統計學上的關聯性,這種關聯包括兩個數據之間的單一相關關系,也包括多數據間的多重關系;也可以是既包括A大B就大(小),A小B就小(大)的直線相關關系,也可以是複雜相關關系(A=Y-B*X);既可以是A、B變量同時增大這種正相關關系,也可以是A變量增大時B變量減小這種負相關,還包括兩變量共同變化的緊密程度——即相關系數,再将相關系數進行變量之間的估算。
2、集中趨勢
集中趨勢就是憑借平均數、中數和衆數等指标體系來描述一組數據的集中趨勢。
3、離散趨勢
離散趨勢是依靠極差、方差、四分位數間距、标準差、變異系數CV等等統計指标來研究數據的離散趨勢。
二、假設檢驗假設檢驗就是進行邏輯推理,用數據做出決策的過程。使用假設檢驗分析方法不僅可以提高思維能力,還能分析出問題發生的原因。
假設檢驗分析方法步驟:
1、提出假設
需要客觀提出假設,不能隻依賴經驗。比如拿到周數據之後,根據以往數據進行對比,找到其中的問題再提出假設。
2、收集證據
收集證據分析問題發生的原因,而且一個問題可能會由多個原因造成,需要多數據的對比分析。
3、得出結論
再根據自己找到的各種證據反複分析得出結論
三、信度分析
信度是用來測量工具可靠性的一個指标,它是指使用同樣的方法對相同對象重複測量,得出其結果的一緻性程度。如:一種測量工具是可靠的,那不管對其測量幾次,結果都是一緻而穩定的。信度的指标通常是通過穩定系數、等值系數、内在一緻性系數三類表示。
信度主要分為内在信度和外在信度兩種類型:内在信度和外在信度。内在信度簡單說就是一組問題,的内在是否一緻;外在信度就是指不同時間對同一對象測量的一緻性程度。
信度分析方法主要有:重測信度法、折半信度法、複本信度法和α信度系數法。
四、回歸分析
回歸分析是一種預測性的建模技術,它研究的是因變量和自變量之間的關系,這個方法一般都是用于預測分析,對數據分析具有很大幫助。
回歸分析具有很多種回歸方法,最常用的有以下幾類:
1、線性回歸
線性回歸指的是将兩個事物取值定義為自變量和因變量,因變量随着自變量的變化而變化,其中因變量是連續的,自變量可以是連續也可以是離散的,回歸線的性質是線性的。
線性回歸又分為一元線性回歸和多元線性回歸,這兩者的區别就是自變量數是一個還是多個。
2、邏輯回歸
邏輯回歸是一種概率分析,分析事件成功或失敗的概率。該回歸方法對因變量的分布沒有要求。
3、其他回歸方法
有序回歸、加權回歸等等。
統計學中數據分析方法還有很多,以上隻是其中的幾種而已。現如今越來越多崗位對數據分析有一定的需求,但很多人隻是知道一些片面的東西,并不願意深入了解其背後的理論知識。特别是現在越來越多人想要往數據分析師這一崗位轉,大家一味的學習工具、框架,并不會主動去了解數據分析的方法,想要提升也是很難的~
,