首页
/
每日頭條
/
科技
/
數據分析的基本方法和技巧
數據分析的基本方法和技巧
更新时间:2024-11-17 16:39:47

數值數據是一種以數字表示的數據類型,而不是自然語言描述。有時稱為定量數據,數值數據總是以數字形式收集。數值數據與其他數字形式數據類型的區别在于它能夠對這些數字進行算術運算。

數據分析的基本方法和技巧(入行數據分析要知道什麼是數值型數據)1

數值型數據應用方法

應用方法基于描述性統計分析,主要方法有以下幾種。

次數分布和直方圖

我們以天津的少兒英語培訓機構舉例來說。數據來源 教育寶,使用爬蟲抓取機構的名稱和口碑。

數據分析的基本方法和技巧(入行數據分析要知道什麼是數值型數據)2

數據分析的基本方法和技巧(入行數據分析要知道什麼是數值型數據)3

假設這100家機構入住到同一所3層大樓中,我們依照口碑如何進行樓層的劃分?(雖然這種方式不太合理)

樓層

口碑範圍

入駐商家數量

3

3-3.8

35

2

3.9-4.3

45

1

4.4-4.9

22

這種叫做 分組,編程語言裡稱作 聚合。每一層作為一個分區,稱作

可以嘗試計算一下每個組的一個占比情況,也稱作相對次序。

相對次序 = 所屬組别的個數 / 數據總數

口碑分組

組中值

次數

相對次數

3-3.8

3.4

35

34.31%

3.9-4.3

4.1

42

41.12%

4.3-4.9

4.6

22

24.57%

依據這個次序分布表可以制作直方圖,進行數據的可視化,表示數據間占比的情況。

數據分析的基本方法和技巧(入行數據分析要知道什麼是數值型數據)4

平均數

算數平均數

  • 也稱為均值,是集中趨勢的最常用測度值,是一組數據的均衡點所在,易受極端值的影響。
  • 根據總體數據計算的,稱為平均數,并且是個定值。
  • 根據樣本數據計算的,稱為樣本平均數。

幾何平均數

  • n 個變量值乘積的 n 次方根 。
  • 适用于對比率數據的平均 。
  • 主要用于計算平均增長率 。
中位數

排序後處于中間位置上的值。

  • 不受極端值的影響。
  • 主要用于順序數據,也可用數值型數據,但不能用于分類數據。
  • 各變量值與中位數的離差絕對值之和最小。
  • 中位數的位置和數值。

數據分析的基本方法和技巧(入行數據分析要知道什麼是數值型數據)5

- 中位數的應用,例如平均某城市平均工資是6000,但是3、4K的工資占絕大多數,這是為什麼?

标準差

标準差表示一組數據中 平均離散程度的指标 。 标準差的數據區間為 [0, ∞] 。

例如兩個球隊某場比賽中打成平手,數值分布如下,是否能看出來哪隊的平均勢力更強一些?

數據分析的基本方法和技巧(入行數據分析要知道什麼是數值型數據)6

标準差的計算公式如下:

以未分組的情況舉例,因為兩隊的數據相互獨立。

A隊 = [ 38 ,73 ,86 ,90 ,111 ,124 ]

B隊 = [ 71 ,84 ,85 ,89 , 90 , 103 ]

通過計算得到結果為 A組 = 27.5 ,B組 = 9.5 。

推斷統計和描述統計

推斷統計用于根據從樣本群體中收集的數據對大量群體進行預測或推斷。

  • 趨勢分析:趨勢分析是一種區間數據分析技術,用于通過捕捉一定時期内的調查數據來得出趨勢和洞察。
  • SWOT 分析: SWOT 是優勢、劣勢、機會和威脅的首字母縮寫詞。優勢和劣勢用于内部分析,而機會和威脅用于組織的外部分析。
  • 聯合分析:這是一種市場研究分析技術,用于調查人們如何做出選擇。
  • TURF 分析:這是 Total Unduplicated Reach and Frequency analysis 的首字母縮寫詞,用于評估産品或服務組合的市場潛力。
數值數據類型離散數據

離散數據表示可數項,可以采用數字和分類形式,具體取決于使用情況。采用可以分組到列表中的值,其中列表可能是有限的或無限的。 無論是有限的還是無限的,離散數據都采用從 1 到 10 或從 1 到無窮大的數,這些數組分别是可數有限和可數無限的。

連續數據

表示測量值的數值數據,值被描述為實數線上的間隔,而不是計數。例如 5分評分系統中的累積平均績點(CGPA)将一等學生定義為 CGPA 低于4.50 - 5.00,二等高為3.50 - 4.49,二等低為2.50 - 3.49,三等學生為 1.5 - 2.49,通過為 1.00 - 1.49,失敗為 0.00 - 0.99,以此類推

連續數據可以細分為兩種類型,即間隔和比率數據。

  • 區間數據:是一種沿刻度測量的數據類型,其中每個點彼此之間的距離相等。區間數據采用隻能進行加減運算的數值。 例如以攝氏度或華氏度測量的物體溫度被視為區間數據。這個溫度沒有零點。
  • 比率數據:是一種類似于區間數據的連續數據類型,但具有零點。換言之比率數據是零點的區間數據。 對于比率數據,溫度不僅可以用攝氏度和華氏度測量,還可以用開爾文測量。零點的存在适應了 0 開爾文的測量。
數值數據特征
  • 類别:數值數據兩個主要類别即離散和連續數據。連續數據進一步分解為區間和比率數據。
  • 定量性:由于其定量性質,數值數據有時被稱為定量數據。與采用具有定性特征的定量值的分類數據不同,數值數據表現出定量特征。.
  • 算術運算:可以對數值數據執行算術運算,例如加法和減法。就其定量特征而言,幾乎所有統計分析都适用于分析數值數據。
  • 估計和枚舉:數值數據既可以估計也可以枚舉。在數值數據準确的情況下可以列舉,但是如果不準确則估計數據。例如在計算學生的 CGPA 時,4.495623 CGPA 向上舍入為 4.50。
  • 間隔差異:數值數據尺度上每個間隔之間的差異相等。例如挂鐘上的 5 分鐘和 10 分鐘之間的差異與 10 和 15 分鐘之間的差異相同。
  • 分析:根據研究的目的,使用描述性和推論性統計方法分析數值數據。一些描述性分析方法包括:均值、中位數、方差等。推論統計方法,如描述統計分析、趨勢分析、SWOT 分析等,也用于數值數據分析。
  • 數據可視化:數值數據可以根據被調查的數據類型以不同的方式進行可視化。數值數據采用的一些數據可視化技術包括:散點圖、點圖、堆積點圖、直方圖等。

數據分析的基本方法和技巧(入行數據分析要知道什麼是數值型數據)7

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
一文懂量子
一文懂量子
普朗克、愛因斯坦、玻爾、海森堡、費米、薛定谔……20世紀科學界許多最為傑出的頭腦,都為一個概念着迷——量子。進入21世紀,仍然有無數的科學家與量子不斷地“糾纏”,創造一個一個奇迹。經過三十多年努力,中國量子科學夢之隊,已經是世界頂級科學家,...
2024-11-17
電腦數字鍵打不出數字怎麼辦
電腦數字鍵打不出數字怎麼辦
電腦數字鍵打不出數字怎麼辦?鍵盤上一般都有兩組數字鍵,如果這一排數字鍵怎麼按都沒反應的話,可能就是鍵盤故障,需要更換鍵盤,我來為大家科普一下關于電腦數字鍵打不出數字怎麼辦?以下内容希望對你有幫助!電腦數字鍵打不出數字怎麼辦鍵盤上一般都有兩組...
2024-11-17
文字轉語音智能配音神器
文字轉語音智能配音神器
相信很多人在刷視頻時,都會發現很多視頻中的配音不是真人錄音,但聽起來又毫無違和感,那這些配音是怎麼制作出來的呢?今天,給大家帶來一款文字轉語音神器,輸入文字便能自動生成配音,媲美真人發音,用起來非常爽!!!1.界面簡潔,上手容易說到配音,很...
2024-11-17
問道手遊寵物哪裡有賣的
問道手遊寵物哪裡有賣的
問道手遊寵物哪裡有賣的?導語:人氣回合制《問道》手遊“天鑄秘寶”2月資料片今日火爆開測全新玩法同步開啟:寵物交易,自由買賣神寵萌獸,輕松賺錢縱行中洲;首飾重鑄:屬性随機生成,打造所有相性5極品首飾法寶洗煉:激活全新技能,爽爽PK新服活動震撼...
2024-11-17
電話怎麼設置别人打不進來
電話怎麼設置别人打不進來
電話怎麼設置别人打不進來?在手機正常開機的情況下,先打開手機的撥号欄,然後在撥号欄輸入**21*888888#,我來為大家講解一下關于電話怎麼設置别人打不進來?跟着小編一起來看一看吧!電話怎麼設置别人打不進來在手機正常開機的情況下,先打開手...
2024-11-17
Copyright 2023-2024 - www.tftnews.com All Rights Reserved