首页
/
每日頭條
/
生活
/
統計學深度學習方法
統計學深度學習方法
更新时间:2024-08-28 03:18:00

來源:CSDN

本文約3000字,建議閱讀5分鐘

本文講述了數據分析師應當了解的五個統計基本概念:統計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統計方法。

從高的角度來看,統計學是一種利用數學理論來進行數據分析的技術。象柱狀圖這種基本的可視化形式,會給你更加全面的信息。但是,通過統計學我們可以以更富有信息驅動力和針對性的方式對數據進行操作。所涉及的數學理論幫助我們形成數據的具體結論,而不僅僅是猜測。

利用統計學,我們可以更深入、更細緻地觀察數據是如何進行精确組織的,并且基于這種組織結構,如何能夠以最佳的形式來應用其它相關的技術以獲取更多的信息。今天,我們來看看數據分析師需要掌握的5個基本的統計學概念,以及如何有效地進行應用。

01 特征統計

特征統計可能是數據科學中最常用的統計學概念。它是你在研究數據集時經常使用的統計技術,包括偏差、方差、平均值、中位數、百分數等等。理解特征統計并且在代碼中實現都是非常容易的。請看下圖:

上圖中,中間的直線表示數據的中位數。中位數用在平均值上,因為它對異常值更具有魯棒性。第一個四分位數本質上是第二十五百分位數,即數據中的25%要低于該值。第三個四分位數是第七十五百分位數,即數據中的75%要低于該值。而最大值和最小值表示該數據範圍的上下兩端。

箱形圖很好地說明了基本統計特征的作用:

當箱形圖很短時,就意味着很多數據點是相似的,因為很多值是在一個很小的範圍内分布;

當箱形圖較高時,就意味着大部分的數據點之間的差異很大,因為這些值分布的很廣;

如果中位數接近了底部,那麼大部分的數據具有較低的值。如果中位數比較接近頂部,那麼大多數的數據具有更高的值。基本上,如果中位線不在框的中間,那麼就表明了是偏斜數據;

如果框上下兩邊的線很長表示數據具有很高的标準偏差和方差,意味着這些值被分散了,并且變化非常大。如果在框的一邊有長線,另一邊的不長,那麼數據可能隻在一個方向上變化很大

02 概率分布

我們可以将概率定義為一些事件将要發生的可能性大小,以百分數來表示。在數據科學領域中,這通常被量化到0到1的區間範圍内,其中0表示事件确定不會發生,而1表示事件确定會發生。那麼,概率分布就是表示所有可能值出現的幾率的函數。請看下圖:

統計學深度學習方法(從統計學到機器學習)1

統計學深度學習方法(從統計學到機器學習)2

常見的概率分布,均勻分布(上)、正态分布(中間)、泊松分布(下):

均勻分布是其中最基本的概率分布方式。它有一個隻出現在一定範圍内的值,而在該範圍之外的都是0。我們也可以把它考慮為是一個具有兩個分類的變量:0或另一個值。分類變量可能具有除0之外的多個值,但我們仍然可以将其可視化為多個均勻分布的分段函數。

正态分布,通常也稱為高斯分布,具體是由它的平均值和标準偏差來定義的。平均值是在空間上來回變化位置進行分布的,而标準偏差控制着它的分布擴散範圍。與其它的分布方式的主要區别在于,在所有方向上标準偏差是相同的。因此,通過高斯分布,我們知道數據集的平均值以及數據的擴散分布,即它在比較廣的範圍上擴展,還是主要圍繞在少數幾個值附近集中分布。

泊松分布與正态分布相似,但存在偏斜率。象正态分布一樣,在偏斜度值較低的情況下,泊松分布在各個方向上具有相對均勻的擴散。但是,當偏斜度值非常大的時候,我們的數據在不同方向上的擴散将會是不同的。在一個方向上,數據的擴散程度非常高,而在另一個方向上,擴散的程度則非常低。

如果遇到一個高斯分布,那麼我們知道有很多算法,在默認情況下高思分布将會被執行地很好,因此首先應該找到那些算法。如果是泊松分布,我們必須要特别謹慎,選擇一個在空間擴展上對變化要有很好魯棒性的算法。

03 降維

降維這個術語可以很直觀的理解,意思是降低一個數據集的維數。在數據科學中,這是特征變量的數量。請看下圖:

統計學深度學習方法(從統計學到機器學習)3

上圖中的立方體表示我們的數據集,它有3個維度,總共1000個點。以現在的計算能力,計算1000個點很容易,但如果更大的規模,就會遇到麻煩了。然而,僅僅從二維的角度來看我們的數據,比如從立方體一側的角度,可以看到劃分所有的顔色是很容易的。通過降維,我們将3D數據展現到2D平面上,這有效地把我們需要計算的點的數量減少到100個,大大節省了計算量。

另一種方式是我們可以通過特征剪枝來減少維數。利用這種方法,我們删除任何所看到的特征對分析都不重要。例如,在研究數據集之後,我們可能會發現,在10個特征中,有7個特征與輸出具有很高的相關性,而其它3個則具有非常低的相關性。那麼,這3個低相關性的特征可能不值得計算,我們可能隻是能在不影響輸出的情況下将它們從分析中去掉。

用于降維的最常見的統計技術是PCA,它本質上創建了特征的向量表示,表明了它們對輸出的重要性,即相關性。PCA可以用來進行上述兩種降維方式的操作。

04 過采樣和欠采樣

過采樣和欠采樣是用于分類問題的技術。例如,我們有1種分類的2000個樣本,但第2種分類隻有200個樣本。這将抛開我們嘗試和使用的許多機器學習技術來給數據建模并進行預測。那麼,過采樣和欠采樣可以應對這種情況。請看下圖:

在上面圖中的左右兩側,藍色分類比橙色分類有更多的樣本。在這種情況下,我們有2個預處理選擇,可以幫助機器學習模型進行訓練。

欠采樣意味着我們将隻從樣本多的分類中選擇一些數據,而盡量多的使用樣本少的分類樣本。這種選擇應該是為了保持分類的概率分布。我們隻是通過更少的抽樣來讓數據集更均衡。

過采樣意味着我們将要創建少數分類的副本,以便具有與多數分類相同的樣本數量。副本将被制作成保持少數分類的分布。我們隻是在沒有獲得更多數據的情況下讓數據集更加均衡。

05 貝葉斯統計

完全理解為什麼在我們使用貝葉斯統計的時候,要求首先理解頻率統計失敗的地方。大多數人在聽到“概率”這個詞的時候,頻率統計是首先想到的統計類型。它涉及應用一些數學理論來分析事件發生的概率,明确地說,我們唯一計算的數據是先驗數據(prior data)。

假設我給了你一個骰子,問你擲出6點的幾率是多少,大多數人都會說是六分之一。

但是,如果有人給你個特定的骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前的數據,而給你作弊的骰子的因素并沒有被考慮進去。

貝葉斯統計确實考慮了這一點,我們可以通過貝葉斯法則來進行說明:

在方程中的概率P(H)基本上是我們的頻率分析,給定之前的關于事件發生概率的數據。方程中的P(E|H)稱為可能性,根據頻率分析得到的信息,實質上是現象正确的概率。例如,如果你要擲骰子10000次,并且前1000次全部擲出了6個點,那麼你會非常自信地認為是骰子作弊了。

如果頻率分析做的非常好的話,那麼我們會非常自信地确定,猜測6個點是正确的。同時,如果骰子作弊是真的,或者不是基于其自身的先驗概率和頻率分析的,我們也會考慮作弊的因素。正如你從方程式中看到的,貝葉斯統計把一切因素都考慮在内了。當你覺得之前的數據不能很好地代表未來的數據和結果的時候,就應該使用貝葉斯統計方法。

聲明:轉載此文是出于傳遞更多信息之目的。若有來源标注錯誤或侵犯了您的合法權益,請作者持權屬證明與本網聯系,我們将及時更正、删除,謝謝。

來源: CSDN

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
大理白族服飾介紹
大理白族服飾介紹
#了不起的城市#白族是中國西南邊疆一個少數民族,主要分布在雲南省大理白族自治州。白族崇尚白色,服飾以白色為主色。女子頭飾代表大理的“風花雪月”,舞蹈道具霸王鞭;男子身着紮染馬褂,舞蹈道具八角鼓。白族姑娘頭上戴的頭飾上也有着“風花雪月”的含義...
2024-08-28
pdf怎麼轉ppt免費
pdf怎麼轉ppt免費
日常工作中可能都會遇到這樣一個難題,就是在辦公過程中經常會收到以PDF格式呈現的PPT文件,PDF文件雖然方便閱讀,格式也文檔,但無法像PPT一樣進行幻燈片切換演示,那麼有沒有什麼方法能夠将PDF轉換為PPT且還是可編輯修改的呢?下面給大家...
2024-08-28
常見的禮儀行為有哪些
常見的禮儀行為有哪些
常見的禮儀行為有哪些?不随地吐痰吐痰入盂,已吐出的痰或口香糖要先包裹後再扔進垃圾箱,我來為大家科普一下關于常見的禮儀行為有哪些?以下内容希望對你有幫助!常見的禮儀行為有哪些不随地吐痰。吐痰入盂,已吐出的痰或口香糖要先包裹後再扔進垃圾箱。不亂...
2024-08-28
做剩的油皮和油酥能放冰箱嗎
做剩的油皮和油酥能放冰箱嗎
做剩的油皮和油酥能放冰箱嗎?做剩的油皮和油酥能放冰箱将剩下的油皮和油酥放在碗中,用保鮮膜将碗密封,将密封的碗放入冰箱即可冰箱,持恒定低溫的一種制冷設備,也是一種使食物或其他物品保持恒定低溫狀态的民用産品箱體内有壓縮機、制冰機用以結冰的櫃或箱...
2024-08-28
查胃火的症狀有哪些
查胃火的症狀有哪些
胃屬于身體内的消化器官,因此我們每天吃得怎麼樣,對胃的刺激是直接性的,而因為上火的東西吃得多的話,胃也會因此而上火,胃火就是由此而生,不少人對胃火的了解不深,導緻了其不懂得如何去應對此症。胃火臨床症狀:如果胃發生了上火,那麼最典型的就是引起...
2024-08-28
Copyright 2023-2024 - www.tftnews.com All Rights Reserved