首页
/
每日頭條
/
職場
/
knn算法的三個核心要素
knn算法的三個核心要素
更新时间:2025-01-07 11:55:40

  作為想在AI領域長期發展的PM同學來說,對算法有一個初步、通識的了解是非常有必要的。今天我們就從一個最為簡單、易懂的“k-近鄰(KNN)算法”聊起,KNN屬于監督學習算法,即可以用于分類,也可以用于回歸,後續還會逐步為大家介紹一些常用的其他算法。

  knn算法的三個核心要素(AI産品經理必懂算法)(1)

  我們之所以要了解算法,不僅僅有利于和算法同學的溝通,更能深入的理解人工智能為産品賦能的過程,隻有将這個過程了解透徹,才能清晰明确的把握産品的方向,挖掘産品的亮點。

  那麼,今天我們就從一個最為簡單、易懂的“k-近鄰(KNN)算法”聊起,KNN屬于監督學習算法,即可以用于分類,也可以用于回歸,後續還會逐步為大家介紹一些常用的其他算法。

  KNN的核心思想可以用一句俗語表達:“物以類聚、人以群分”,想了解一個人,可以看他交什麼樣的朋友。即它的核心思想是:如果一個樣本在特征空間中的k個最相鄰的樣本(距離最近的樣本)中的大多數屬于某一個類别,則該樣本也屬于這個類别,并具有這個類别上樣本的特性。該方法在确定分類決策上隻依據最鄰近的一個或者幾個樣本的類别來決定待分樣本所屬的類别。

  這裡面提及的距離,一般可以選用歐氏距離、曼哈頓距離、闵式距離等等公式進行計算,對于我們初步了解的産品經理來講,就不上各種公式了。

  knn算法的三個核心要素(AI産品經理必懂算法)(2)

  我們用這個圖做一個簡單的介紹,藍色方形(用B标識)和紅色三角(R)代表兩個不同的分類,綠色圓形(C)是待分類樣本,根據KNN的思想,如果K=3,則C的最近鄰有1B、2R,根據少數服從多數原則,C應該屬于“R”的類型。如果k=5呢?C的最近鄰有3B、2R,C是不是應該屬于“B”類型了呢?

  其中判定類别也有兩種方法:

  投票決定:少數服從多數,近鄰中哪個類别的點最多就分為哪類。加權投票法:根據距離的遠近、對鄰近的投票進行加權,距離越近咋權重越大(權重為距離平方的倒數。) 看到這兒,是不是有不少小夥伴産生了疑問,那該如何選擇K值呢?K值的大小又将如何影響模型的效果呢?

  關于K值的選擇,需要注意:

  k值過大,非相似數據被包含較多,造成噪聲增加而導緻分類結果的降低;k值過小,得到的鄰近數過少,會降低分類精度,同時也會放大噪聲數據的幹擾; 經驗規則:k一般低于訓練樣本數的平方根,通常采用交叉檢驗來确定。

  接下來我們簡單介紹一下訓練過程,有如下幾步:

  準備數據,對數據進行預處理;選用合适的數據結構存儲訓練數據和測試元組;設定參數,如k;維護一個大小為k的的按距離由大到小的優先級隊列,用于存儲最近鄰訓練元組。随機從訓練元組中選取k個元組作為初始的最近鄰元組,分别計算測試元組到這k個元組的距離,将訓練元組标号和距離存入優先級隊列;遍曆訓練元組集,計算當前訓練元組與測試元組的距離,将所得距離L 與優先級隊列中的最大距離Lmax進行比較。若L=Lmax,則舍棄該元組,遍曆下一個元組。若L Lmax,删除優先級隊列中最大距離的元組,将當前訓練元組存入優先級隊列。 遍曆完畢,計算優先級隊列中k 個元組的多數類,并将其作為測試元組的類别。測試元組集測試完畢後計算誤差率,繼續設定不同的k值重新進行訓練,最後取誤差率最小的k 值。 基本概念和訓練過程我們都簡單的介紹清楚了,下面來講講K近鄰的優勢及缺陷。

  優勢:

  簡單,易于理解,易于實現,無需估計參數,無需訓練;特别适合于多分類問題(multi-modal,對象具有多個類别标簽), kNN比SVM的表現要好。 缺點:

  計算複雜度高、空間複雜度高;樣本嚴重不平衡時,如果一個類的樣本容量很大,而其他類很小,有可能導緻輸入一個新樣本時,被誤判為該分類的概率會很大。 了解了算法的優勢和局限性,下面就要了解一下它的适用領域了:

  模式識别,特别是光學字符識别;統計分類;計算機視覺;數據庫,如基于内容的圖像檢索;編碼理論(最大似然編碼);數據壓縮(mpeg-2标準);向導系統;網絡營銷;DNA測序拼寫檢查,建議正确拼寫;剽竊偵查;相似比分算法,用來推動運動員的職業表現。 本文由 @燕然未勒 原創發布于人人都是産品經理。未經許可,禁止轉載。

  題圖來自 Unsplash ,基于 CC0 協議。

  ,

Comments
Welcome to tft每日頭條 comments! Please keep conversations courteous and on-topic. To fosterproductive and respectful conversations, you may see comments from our Community Managers.
Sign up to post
Sort by
Show More Comments
推荐阅读
江美儀說的降頭是誰(同盟被爆出幕後大老闆不是江美儀)
江美儀說的降頭是誰(同盟被爆出幕後大老闆不是江美儀)
  昨天最新一集《同盟》播出,幕後大boss露面,是由江美儀飾演的今天,然而有人爆出大boss竟是另有其人!你覺得究竟是誰呢?      有人說是易先生。這個猜測并不是沒有道理,畢竟保護令小姐多年,令小姐的一切他都最清楚。      羅樂林你們覺得可能性大嗎,反正他一出場我第一感覺是他。但是他除了操控警局,好像沒有操控媒體和廉政署的權利了吧!      也有...
2025-01-07
星際戰甲國服活動介紹(星際戰甲國服獲得版号)
星際戰甲國服活動介紹(星際戰甲國服獲得版号)
  昨日晚間時分,國家新聞出版署對“2020年進口網絡遊戲審批信息”進行了更新,客戶端遊戲《星際戰甲》确認過審獲得版号。      據新聞出版署官網信息顯示,《星際戰甲》國服由深圳市創夢天地科技有限公司出版并運營,創夢天地是一家大型獨立手遊發行平台,以發行海外精品手遊著稱,先後成功發行了《水果忍者》、《神廟逃亡》系列、《地鐵跑酷》、《紀念碑谷》、《夢幻花園》...
2025-01-07
雲浮家校協作攜手迎開學(兩校合并一家親)
雲浮家校協作攜手迎開學(兩校合并一家親)
     紅網時刻新聞8月30日訊(通訊員 易小旭)8月30日上午,邵陽市十五中、十六中在一中老校區行政樓二樓教工會議室召開秋季開學工作會議。   會議指出,本次會議是兩校重啟合并的首個工作會議,具有裡程碑的意義。兩所學校的合并,既是政策的需要,也是學校謀求長遠發展的重大舉措,有利于優化教育資源配置,進一步推動邵陽教育發展。希望全體教工充分理解,凝心聚力,以...
2025-01-07
山東交通職業學院濰坊校區新生照(濰坊高校迎來首批報到新生)
山東交通職業學院濰坊校區新生照(濰坊高校迎來首批報到新生)
  記者 尹明亮   新生來了,8月27日、28日,山東交通職業學院2022級大學新生相繼開學報到,成為濰坊首個迎來2022級大學新生的高校。5600多名新生也為這個大學校園增添的新的活力。      戴上學校徽章,大飛機前合個影   8月27日,在學校網紅大飛機前,學校公路與建築系和車輛工程系的迎新攤位一字擺開,藍天下、飛機旁,學校老師親手給每個報到的學生...
2025-01-07
審計工作底稿和保管期限(審計工作底稿的組成要素及歸檔期限)
審計工作底稿和保管期限(審計工作底稿的組成要素及歸檔期限)
  審計工作底稿指審計人員對制定的審計計劃、實施的審計程序、獲取的相關審計證據,以及得出的審計結論做出的記錄。   審計工作底稿可以以紙質、電子或其他介質形式存在。   審計工作底稿通常包括總體審計策略、具體審計計劃、分析表、問題備忘錄、重大事項概要、詢證函回函、管理層聲明書、核對表、有關重大事項的往來信件(包括電子郵件),以及對被審計單位文件記錄的摘要或複...
2025-01-07
Copyright 2023-2025 - www.tftnews.com All Rights Reserved