首页
/
每日頭條
/
科技
/
數據分析數學基礎知識
數據分析數學基礎知識
更新时间:2024-09-27 17:21:17

數據分析跟數據打交道,想想是需要大量的數學知識。其實在這個工具豐富的時代,知道一點基礎的數學知識,足矣。

把握全局的第一步:集中趨勢

把握全局的重點是什麼?有人可能會說方差、标準差這樣的比較精準的方法。

其實把握全局的重點就是一個字--快!想想看,股票價格已經快到底了,你還在各種噼裡啪啦量化分析,結果就錯過了時機。天下武功,唯快不破!

快的要訣就是要足夠簡單。這裡重點介紹三個概念:均值、中位數、衆數。你可能小學就學過這幾個概念,可是你真的理解了嗎?

均值

簡單來說,均值就是平均數的一般度量。

大家平時接觸最多的其實是平均數的概念。計算大量數據的平均數的一個方法是:将所有數字加起來,然後除以數字個數。這是均值的特例,因為每個數字的頻數都是1.

均值的符号:μ,這是一個希臘字母(讀作“缪(miu)”)

數據分析數學基礎知識(數據分析裡的基礎數學知識)1

均值公式

有一點确實很重要:在計算均值的時候,要把每個數的頻數考慮進去。為了确保自己不忽略這一點,我們可以把它寫入公式。

數據分析數學基礎知識(數據分析裡的基礎數學知識)2

加入頻數的均值公式

中位數

中位數是一組數據的中間值,表示典型值。

生活中,我們都會被典型所吸引,典型是區别于普通的重要标志。這就像芸芸衆生,人人都喜歡看帥哥、美女。

将n個數字按順序(升序或降序)排列,無論 n 為奇數還是偶數,中位數的位置都為 (n 1) / 2。

掌握中位數,是進階四分位數、百分位數的基礎。

衆數

衆數是數據集中的頻數最大的一個值(類别)。

通俗一點說就是點個數最多的那個。與均值和中位數不同,衆數必須是數據集中的一個值。有時候,數據的衆數可以不止一個。如果有一個以上的數值具有最大的頻數,則每一個這樣的數值都是衆數。如果一批數據有兩個衆數,則我們說這種數據是雙峰數據。

掌握着這三個數值,就能快速把握數據的整體情況。但是一定要記住,隻看這三個數值,是不能準确下結論的。

給數據下結論的關鍵信息:距和差

數據分析的核心是什麼?當然是下結論,尤其是能幫助業務現狀改善的結論。

這裡就要介紹另外三個概念:全距、四分位距、箱線圖。

全距

全距又叫極差,它能指出數據的擴展範圍。計算方法很簡單,全距=最大值-最小值。

平均數讓我們有辦法确定一批數據的中心,卻無法知道數據的變動情況。

全距提供了一種對數據集之間進行比較的方法——全距是度量數據分散程度既簡單又方便的方法。

數據分析數學基礎知識(數據分析裡的基礎數學知識)3

全距

四分位距

四分位距是中位數和全距的延伸。四分位,就是把數據集分成四等份;第一四分位數和第三四分位數之間的差值被稱為四分位距(IQR)。

全距的主要問題是:僅僅描述了數據的寬度,由于全距是通過數據極值計算得出的,很容易受到兩端極值的影響,産生較大偏差。而四分位距就很好地剔除了異常值影響。

數據分析數學基礎知識(數據分析裡的基礎數學知識)4

四分位距(IQR) = 上四分位數(Q3) - 下四分位數(Q1)

箱線圖

箱線圖可以清晰地繪制各種“距”,四分位距、十分位距、百分位距......是數據分析最常用的圖之一。一圖就能清晰準确的表達整個數據集,還可以輕而易舉地發現異常值。

數據分析數學基礎知識(數據分析裡的基礎數學知識)5

箱線圖是一種顯示各種“距”和四分位數的簡明方法

箱線圖看上去複雜,其實在Python裡,matplotlib或seaborn裡的boxplot()函數就能輕松實現。

掌握以上6個概念,基本上就算是數據分析入了門。當然有時,更進一步,我們還需要做預測,就需要一些概率論知識。(下回再介紹)

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
油霧淨化器
油霧淨化器
油霧淨化器其實是屬于一種工業環保設備。在使用這種油霧淨化器的時候,将其安裝在機床,或者是清洗機等等的機械加工設備之上,吸除一些加工腔之中的油霧,因此而達到淨化空氣的效果,也是可以因此更好的保護工人身體健康的目的。希望我們要加以注重。油霧淨化器屬于是一種安裝在了CNC加工中心,或者是磨床、車床等等各類...
2024-09-27
如何使熨鬥保持清潔光亮
如何使熨鬥保持清潔光亮
可以用牙膏經常擦拭熨鬥的底部和其他部位,熨鬥可以保持光亮如新。也可以在每次用完以後,用幹布擦拭熨鬥一遍,每隔兩星期,在熨鬥底部塗抹一次橄榄油,這樣不僅能使熨鬥防鏽,也可以使熨鬥底部保持光滑。
2024-09-27
中央空調機分為幾類
中央空調機分為幾類
中央空調系統由冷熱源系統和空氣調節系統組成。制冷系統為空氣調節系統提供所需冷量,用以抵消室内環境的冷負荷;制熱系統為空氣調節系統提供用以抵消室内環境熱負荷的熱量。制冷系統是中央空調系統至關重要的部分,其采用種類、運行方式、結構形式等直接影響了中央空調系統在運行中的經濟性、高效性、合理性。按構造不同,...
2024-09-27
浴霸和地暖哪個好
浴霸和地暖哪個好
浴霸的使用功率要遠遠大于地暖衛生間溫暖地面系統的功率,耗電量大不節能;浴霸使用時舒适度極差有烘烤的感覺,在洗浴中浴霸隻在它的垂直下方光照的部分是能感覺到熱量,離開垂直下方熱的感覺明顯降低,在立式淋浴中隻有上半身能感覺到熱量但下半身依然很冷;浴霸的高強度光照對人體皮膚及眼睛有害,洗浴時人體毛孔張開的,...
2024-09-27
筆記本電池的使用
筆記本電池的使用
怎樣用好筆記本的電池,如何延長其使用時間和使用的壽命等問題,無疑是困擾在廣大筆記本電腦用戶心頭的一個難題。以下是筆記本電池使用的幾點建議:【1】激活新電池在新購機時筆記電池應帶有一定的電量。此時,您應該先不使用外接電源,把電池裡的餘電用盡,直至關機,然後再用外接電源充電。充電時間需要6-7個小時左右...
2024-09-27
Copyright 2023-2024 - www.tftnews.com All Rights Reserved