首页
/
每日頭條
/
圖文
/
決策樹更适合什麼決策
決策樹更适合什麼決策
更新时间:2024-10-09 03:19:51
決策樹概況

決策樹是一種常見的機器學習方法,非常有名。決策樹可用于分類與回歸任務,在很多領域得到普遍應用。以分類任務為例,其目的是根據樣例的屬性預測其類别。決策樹分類器與人們日常決策時采用的邏輯非常相似。

以是否進行高爾夫運動為例,人們會根據天氣、溫度、濕度、風況等決定是否去打球。例如某人的決策邏輯為:如果天氣為陰天,則打球;如果天氣為晴天,還要看濕度情況,如果濕度較低則打球;如果天氣為雨天,… 。這一決策過程可以用樹狀結構表示:

決策樹更适合什麼決策(大名鼎鼎的決策樹)1

在現實中你并不知道此人的決策邏輯,隻是收集到他的一些曆史數據,比如某天的天氣、溫度、濕度,以及他是否打了高爾夫。是否可以根據曆史數據将他的決策邏輯倒推出來,這才是機器學習該做的事情。

決策樹的結構

在數據挖掘中,對于類标簽未知的實例,通過回答一系列關于屬性的問題可以判定其類别,将一系列關于屬性的問題及回答組織成一顆決策樹。決策樹是一個分層結構,它有三種類型的節點:

  • 根節點 決策問題的起點,一顆決策樹至少有一個根節點,它覆蓋全部樣例。
  • 内部節點 内部節點對應一個屬性測試,屬性測試的每個結果用一條分支表示,該節點所包含的樣例集根據屬性測試結果劃分為多個子集,對應到它的各子節點中。
  • 葉節點(終端節點) 葉節點對應決策結果,與一個類标簽相關聯。

決策樹構建完成後,對于任何一個樣例,存在從根節點到葉節點的一條路,對應一個屬性判定序列,根據判定結果将該樣例歸為某一類别。

決策樹形式簡潔、比較直觀、具有解釋性,對很多分類問題有較高的準确率,目前得到廣泛應用。

分類樹與回歸樹

根據目标屬性的數據類型,決策樹大緻分為分類樹(classification tree)與回歸樹(regression tree)。目标屬性為标稱型的數據使用分類樹,目标屬性是連續數值型使用回歸樹,也有一些決策樹如分類與回歸樹(CART, Classification and Regression Tree),既能用于分類也能用于回歸。在集成學習方法中,可以構建多顆決策樹進行數據挖掘,比較著名的算法有随機森林。

決策樹模型與算法

決策樹已經得到廣泛而深入的研究。作為一種機器學習方法,決策樹的核心問題是如何根據訓練集構造一棵泛化能力強的決策樹。最早的決策樹算法是Hunt等人1966年提出。20世紀70年代著名機器學習專家Quinlan提出了決策樹歸納算法ID3,Quinlan後來對ID3做了一些改進,提出C4.5算法,後續還發展了商業化版本See5/C5.0。1986年統計學家Breiman等在其著作《Classification and Regression Tree》中提出CART算法。Kass于1980年提出了卡方自動交互檢測(CHAID),CHAID是一種基于調整後的顯着性檢驗(Bonferroni檢驗)的決策樹技術,可以産生多分支決策樹。CHAID可以用于回歸與分類,以及檢測變量之間的相互作用。決策樹也可作為基本模塊與集成方法結合起來,如随機森林、梯度提升決策樹(GBDT)等。

決策樹算法框架

根據數據集構建決策樹有很多算法,著名的ID3、C4.5、CART等算法都采用貪心策略,自頂向下以遞歸方式構造決策樹。

在決策樹構造算法中有兩個關鍵問題:

(1)分裂準則。對非葉節點必須從多個屬性中選擇一個“最優”屬性,根據屬性測試結果将樣例集劃分為幾個子集。根據何種準則選擇“最優”屬性,使得決策樹的泛化能力較強,并且決策樹的構造簡單快速,是決策樹算法中的重要問題。

(2)終止條件。理想情況下,當節點包含的樣例都具有同樣的類标簽時,算法停止擴展。但是如果數據集有兩個以上的樣例具有同樣的屬性但類别不同,則不可能達到理想的終止條件。另外,為了追求算法效率或控制決策樹的規模,即使當前節點包含的樣例類标簽不一緻也有可能停止擴展,這樣的情形有多種,需要根據實際需要形成終止條件。

,
Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
故宮中的養心殿是用來幹什麼的(故宮最精美的養心殿将閉門精修)
故宮中的養心殿是用來幹什麼的(故宮最精美的養心殿将閉門精修)
  故宮博物院院長單霁翔說:“養心殿是故宮最精美、工藝難度最高的建築,因為有了修複壽康宮、慈甯宮的經驗,這才敢啟動養心殿的修繕。”      圖為養心殿中慈禧垂簾聽政的地方。 文彙報首席記者 江勝信攝   ■文彙報首席記者 江勝信   故宮城牆暗藏險情,養心殿出現多處隐患,古建修繕人才卻青黃不接,怎麼辦?故宮文物總數超過180萬件套,因前殿後宮不可能大規模改...
2024-10-09
董姓的新版排名(董姓最新排名出來了)
董姓的新版排名(董姓最新排名出來了)
  在最新出版的《中國四百大姓》一書中,繪制出了中國400個大姓的“姓氏地圖”。書中的姓氏地圖是一種頻率圖,也就是某姓氏人數在地區總人口中所占比例的示意圖,在較長的時期内,中國人的姓氏地理分布變化不會太大。由于400個大姓約占我國總人口的97%,這也代表了我國絕大多數人口的姓氏地圖。      《中國四百大姓(套裝共3冊)》主要分析了中國姓氏的特點以及400...
2024-10-09
玉娆和甄母現實中是親生母女嗎(為什麼隻有三小姐玉娆赢得了最終的幸福)
玉娆和甄母現實中是親生母女嗎(為什麼隻有三小姐玉娆赢得了最終的幸福)
  #頭條創作挑戰賽##我在頭條搞創作##甄嬛傳#   甄家一共三個女兒,長女甄嬛為了妹妹的家族的前途進宮選秀,成為帝王無數個女人當中的一個。次女浣碧乃是見不得光的私生子,耍了陰狠手段讓自己如願嫁給了果郡王,奈何對方心裡完全沒有她。隻有第三個女兒玉娆,她拒絕了皇帝的心意,依照自己的本心嫁給了心愛的男人慎貝勒。   為什麼甄家三姝裡隻有最小的玉娆得到了幸...
2024-10-09
田言嫁給誰了(究竟誰在套路誰)
田言嫁給誰了(究竟誰在套路誰)
  導語:在秦時明月最新的劇情當中,農家衆人集體上演了感人的一幕。原本農家六堂人多勢衆,在江湖上也算是基礎雄厚。可是六堂之人卻各自争鬥,每位堂主都對俠魁之位觊觎已久,因此,農家不得不分為兩大派。但随着劇情的發展,實力占優的田言這一派逐漸掌握了大局。因此心有不服的朱家也不得不審時度勢,将神農堂投向田言的懷抱,雙方彼此化解了往日的恩怨。      可事實上真的有...
2024-10-09
2米高的女兒牆可以用砌體施工麼(砌體女兒牆的限制)
2米高的女兒牆可以用砌體施工麼(砌體女兒牆的限制)
  什麼情況下可采用磚做女兒牆?有何構造要求?      《非結構構件抗震設計規範》JGJ 339-2015第4.4.2條,女兒牆高度超過0.5m時、人流出入口、通道處或9度時,出屋面砌體女兒牆應設置構造柱與主體結構錨固,構造柱間距宜取2.0m~2.5m;高層建築的女兒牆,不得采用砌體女兒牆。      22G614-1具體規定   1、砌體女兒牆頂部應采用...
2024-10-09
Copyright 2023-2024 - www.tftnews.com All Rights Reserved