首页
/
每日頭條
/
生活
/
數據偏離真值的離散程度
數據偏離真值的離散程度
更新时间:2024-12-28 04:59:56

本文是吳恩達《機器學習》視頻筆記第68篇,對應第6周第10個視頻。

“Machine Learning System Design:——Error metrics for skewed classes”

數據偏離真值的離散程度(偏斜類的誤差度量)1

前面兩個小節講了怎樣快速用簡單算法将流程跑通,給出了基本的誤差分析方法。這一節講偏斜類問題。

偏斜類

所謂的偏斜類(Skewed Class)的問題,對于二元分類來說,其實就是一種分類的數據量遠遠大于另外一種分類。

以是否惡性腫瘤(癌症)的分類為例,我們希望能根據病人的一些特征判斷病人是否患有癌症(y=1表示有癌症,y=0表示沒有癌症)。

我們用邏輯回歸算法來解決問題,發現在測試集有99%的正确率,這個結果看上去很完美。但是,你要知道患有癌症的畢竟是少數,可能在我們的測試集中隻有0.5%的人真的患有癌症。

數據偏離真值的離散程度(偏斜類的誤差度量)2

這樣的話,你就知道我們的算法有多離譜了。因為,如果我們不管三七二十一全部給預測為y=0(沒有癌症),那也隻有0.5%的錯誤。

數據偏離真值的離散程度(偏斜類的誤差度量)3

像上面這種某一種分類占比特别大的情況,被稱為偏斜類。很明顯,對于偏斜類的誤差度量需要優化。

偏斜類的誤差度量

前面癌症判斷那個例子中,假如我們采用了一些辦法将算法從99.2%的準确率提升到99.5%的準确率,那我們對算法的這些改進是否有效呢?這是比較難判斷的。

當我們遇到偏斜類時,經常使用查準率(Precision)和召回率(recall)的概念。這兩個概念适用于二分類問題。

對于一個二分類問題,預測結果和實際結果有四種組合。

  1. 實際為1,預測為1;True positive, TP
  2. 實際為0,預測為1;False positive, FP
  3. 實際為1,預測為0;False negative, FN
  4. 實際為0,預測為0;True negative, TN

T開頭表示預測正确(本來為真、預測為真TP;本來為假、預測為假TN),F開頭表示預測錯誤(本來為假,預測為真FP,本例為真,預測為假FN)。

數據偏離真值的離散程度(偏斜類的誤差度量)4

查準率Precision的意思是,TP/(TP FP)。就是你所有預測為真那些樣本中,預測正确的樣本的占比。癌症那個例子就是,算法認為的所有癌症患者中真正的癌症患者占比是多少。查準率越高越好。

召回率Recall的意思是,TP/(TP FN)。這個意思是,你預測為真并且正确的數量在實際為真的數量中的占比。癌症的那個例子就是,實際患有癌症的患者被算法成功篩查出來的比例。召回率當然是越高越好。

回到前面的例子再來看看,如果我們不管三七二十一,都認為患者沒有癌症,準确率99.5%。那這樣做的召回率就是0,當然這個算法就毫無意義了。

這樣,如果一個算法同時有較好的查準率和召回率,那這個算法就還是不錯的。注意:使用查準率和召回率的時候,我們讓那個出現比較少的情況為1(y=1出現較少)。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
保暖加絨沖鋒衣名牌哪個好
保暖加絨沖鋒衣名牌哪個好
沖鋒衣和夾克看起來相似,但功能完全不同。3·15消費者權益保護日當天,京津冀三地消協組織針對部分品牌沖鋒衣産品名不副實問題整改效果不佳的問題,在天津約談6家品牌沖鋒衣生産銷售企業和相關電商平台。去年11月,京津冀三地消協組織共同公開發布“功...
2024-12-28
7歲兒童走失奶奶苦苦找到十三年
7歲兒童走失奶奶苦苦找到十三年
最新消息:經家屬反饋,走失者已被家屬平安找回,請關注此事的網友放心!為保護當事人隐私,現将其姓名、照片及家屬聯系方式撤下。走失者性别:男走失者年齡:32走失者特征:穿深綠色外套、黑色褲子、運動鞋,提紅綠相間條紋布袋,高1米78,偏胖,精神異...
2024-12-28
高素養在金剛經中的講究
高素養在金剛經中的講究
無法可得分原文:須菩提白佛言:“世尊!佛得阿耨多羅三藐三菩提,為無所得耶?”佛言:“如是!如是!須菩提!我于阿耨多羅三藐三菩提,乃至無有少法可得,是名阿耨多羅三藐三菩提。”這一段的題目是“無法可得”,前面是說無說可說,或者是所說非說,這一段...
2024-12-28
同工同酬就是相同崗位嗎
同工同酬就是相同崗位嗎
勞達Laboroot_Group主人公檔案姓名:賈一凡生日:1980年4月21日戶籍:浙江省杭州市畢業院校:上海師範大學星座:金牛座職場代表作:曾經把一名逼走四任人力資源總監的鬧事員工給順利辭退了。工作履曆:1.上海AB技術有限公司人事助理...
2024-12-28
明日之後怎麼增加金庫積分
明日之後怎麼增加金庫積分
明日之後中的玩法頗多,很多的小夥伴都在明日之後中找到了屬于自己的玩法,因為明日之後中不但可以秉承着FPS玩法,每天去找其他玩家打打架什麼的。還有着一些生活玩家,主要是養老,任務随緣做,大多數時間都是在和别人聊天。而更是有一些玩家堪稱建築大師...
2024-12-28
Copyright 2023-2024 - www.tftnews.com All Rights Reserved