數值數據是一種以數字表示的數據類型,而不是自然語言描述。有時稱為定量數據,數值數據總是以數字形式收集。數值數據與其他數字形式數據類型的區别在于它能夠對這些數字進行算術運算。
數值型數據應用方法
應用方法基于描述性統計分析,主要方法有以下幾種。
次數分布和直方圖我們以天津的少兒英語培訓機構舉例來說。數據來源 教育寶,使用爬蟲抓取機構的名稱和口碑。
假設這100家機構入住到同一所3層大樓中,我們依照口碑如何進行樓層的劃分?(雖然這種方式不太合理)
樓層 |
口碑範圍 |
入駐商家數量 |
3 |
3-3.8 |
35 |
2 |
3.9-4.3 |
45 |
1 |
4.4-4.9 |
22 |
這種叫做 分組,編程語言裡稱作 聚合。每一層作為一個分區,稱作 組 。
可以嘗試計算一下每個組的一個占比情況,也稱作相對次序。
相對次序 = 所屬組别的個數 / 數據總數
口碑分組 |
組中值 |
次數 |
相對次數 |
3-3.8 |
3.4 |
35 |
34.31% |
3.9-4.3 |
4.1 |
42 |
41.12% |
4.3-4.9 |
4.6 |
22 |
24.57% |
依據這個次序分布表可以制作直方圖,進行數據的可視化,表示數據間占比的情況。
平均數
算數平均數
- 也稱為均值,是集中趨勢的最常用測度值,是一組數據的均衡點所在,易受極端值的影響。
- 根據總體數據計算的,稱為平均數,并且是個定值。
- 根據樣本數據計算的,稱為樣本平均數。
幾何平均數
- n 個變量值乘積的 n 次方根 。
- 适用于對比率數據的平均 。
- 主要用于計算平均增長率 。
排序後處于中間位置上的值。
- 不受極端值的影響。
- 主要用于順序數據,也可用數值型數據,但不能用于分類數據。
- 各變量值與中位數的離差絕對值之和最小。
- 中位數的位置和數值。
- 中位數的應用,例如平均某城市平均工資是6000,但是3、4K的工資占絕大多數,這是為什麼?
标準差标準差表示一組數據中 平均離散程度的指标 。 标準差的數據區間為 [0, ∞] 。
例如兩個球隊某場比賽中打成平手,數值分布如下,是否能看出來哪隊的平均勢力更強一些?
标準差的計算公式如下:
以未分組的情況舉例,因為兩隊的數據相互獨立。
A隊 = [ 38 ,73 ,86 ,90 ,111 ,124 ]
B隊 = [ 71 ,84 ,85 ,89 , 90 , 103 ]
通過計算得到結果為 A組 = 27.5 ,B組 = 9.5 。
推斷統計和描述統計推斷統計用于根據從樣本群體中收集的數據對大量群體進行預測或推斷。
- 趨勢分析:趨勢分析是一種區間數據分析技術,用于通過捕捉一定時期内的調查數據來得出趨勢和洞察。
- SWOT 分析: SWOT 是優勢、劣勢、機會和威脅的首字母縮寫詞。優勢和劣勢用于内部分析,而機會和威脅用于組織的外部分析。
- 聯合分析:這是一種市場研究分析技術,用于調查人們如何做出選擇。
- TURF 分析:這是 Total Unduplicated Reach and Frequency analysis 的首字母縮寫詞,用于評估産品或服務組合的市場潛力。
離散數據表示可數項,可以采用數字和分類形式,具體取決于使用情況。采用可以分組到列表中的值,其中列表可能是有限的或無限的。 無論是有限的還是無限的,離散數據都采用從 1 到 10 或從 1 到無窮大的數,這些數組分别是可數有限和可數無限的。
連續數據表示測量值的數值數據,值被描述為實數線上的間隔,而不是計數。例如 5分評分系統中的累積平均績點(CGPA)将一等學生定義為 CGPA 低于4.50 - 5.00,二等高為3.50 - 4.49,二等低為2.50 - 3.49,三等學生為 1.5 - 2.49,通過為 1.00 - 1.49,失敗為 0.00 - 0.99,以此類推
連續數據可以細分為兩種類型,即間隔和比率數據。
- 區間數據:是一種沿刻度測量的數據類型,其中每個點彼此之間的距離相等。區間數據采用隻能進行加減運算的數值。 例如以攝氏度或華氏度測量的物體溫度被視為區間數據。這個溫度沒有零點。
- 比率數據:是一種類似于區間數據的連續數據類型,但具有零點。換言之比率數據是零點的區間數據。 對于比率數據,溫度不僅可以用攝氏度和華氏度測量,還可以用開爾文測量。零點的存在适應了 0 開爾文的測量。
- 類别:數值數據兩個主要類别即離散和連續數據。連續數據進一步分解為區間和比率數據。
- 定量性:由于其定量性質,數值數據有時被稱為定量數據。與采用具有定性特征的定量值的分類數據不同,數值數據表現出定量特征。.
- 算術運算:可以對數值數據執行算術運算,例如加法和減法。就其定量特征而言,幾乎所有統計分析都适用于分析數值數據。
- 估計和枚舉:數值數據既可以估計也可以枚舉。在數值數據準确的情況下可以列舉,但是如果不準确則估計數據。例如在計算學生的 CGPA 時,4.495623 CGPA 向上舍入為 4.50。
- 間隔差異:數值數據尺度上每個間隔之間的差異相等。例如挂鐘上的 5 分鐘和 10 分鐘之間的差異與 10 和 15 分鐘之間的差異相同。
- 分析:根據研究的目的,使用描述性和推論性統計方法分析數值數據。一些描述性分析方法包括:均值、中位數、方差等。推論統計方法,如描述統計分析、趨勢分析、SWOT 分析等,也用于數值數據分析。
- 數據可視化:數值數據可以根據被調查的數據類型以不同的方式進行可視化。數值數據采用的一些數據可視化技術包括:散點圖、點圖、堆積點圖、直方圖等。
,