回歸預測的實例-tft每日頭條

在這篇文章中，我們要講到的是如何解決回歸問題，以及如何通過使用特征轉換、特征工程、聚類、提升算法等概念來提高機器學習模型的準确性。小白必入數據分析群，等你加入哦～

回歸預測的實例（如何提高回歸模型的準确性）1

數據科學是一個叠代過程，隻有經過反複實驗，我們才能得到滿足我們需求的最佳模型/解決方案。

回歸預測的實例（如何提高回歸模型的準确性）2

數據科學過程流 — 作者圖片

讓我們通過一個例子來關注上面的每個階段。我有一個健康保險數據集（CSV 文件），其中包含有關保險費用、年齡、性别、BMI 等的客戶信息。根據數據集中的這些參數來預測保險費用。這是一個回歸問題，我們的目标變量—費用/保險成本—是數字的。

讓我們從加載數據集并探索屬性開始（EDA — 探索性數據分析）

回歸預測的實例（如何提高回歸模型的準确性）3

回歸預測的實例（如何提高回歸模型的準确性）4

健康保險數據框

數據集有 1338 條記錄和 6 個特征。吸煙者、性别和地區是分類變量，而年齡、BMI 和兒童是數字變量。

處理空值/缺失值

讓我們檢查數據集中缺失值的比例：

回歸預測的實例（如何提高回歸模型的準确性）5

年齡和 BMI 有一些少量空值。首先将處理這些缺失的數據，然後開始數據分析。Sklearn 的SimpleImputer允許您根據相應列中的均值/中值/最頻繁值替換缺失值。在這個例子中，我使用中值來填充空值。

回歸預測的實例（如何提高回歸模型的準确性）6

現在我們的數據是幹淨的，我們将通過可視化和地圖來分析數據。一個簡單的seaborn pairplot可以給我們很多見解！

回歸預測的實例（如何提高回歸模型的準确性）7

回歸預測的實例（如何提高回歸模型的準确性）8

Seaborn Pairplot

看到了什麼..？

Seaborn 的箱線圖和計數圖可用于顯示分類變量對費用的影響。

回歸預測的實例（如何提高回歸模型的準确性）9

分類變量的 seaborn 計數圖

回歸預測的實例（如何提高回歸模型的準确性）10

基于上述圖的觀察結果：

我們可以得出，“吸煙者”對保險費用的影響相當大，而性别的影響最小。

創建一個熱圖來了解費用和數字特征（年齡、BMI 和兒童）之間相關性的強度。

回歸預測的實例（如何提高回歸模型的準确性）11

回歸預測的實例（如何提高回歸模型的準确性）12

相關圖

我們看到年齡和 BMI 與費用具有平均 ve 相關性。

我們現在将一一介紹模型準備和模型開發的步驟。

在這一步中，我們将分類變量（吸煙者、性别和地區）轉換為數字格式（0、1、2、3 等），因為大多數算法無法處理非數字數據。這個過程稱為編碼，有很多方法可以做到這一點：

LabelEncoding — 将分類值表示為數字（例如，具有值意大利、印度、美國、英國的區域等特征可以表示為 1、2、3、4）
OrdinalEncoding — 用于将基于等級的分類數據值表示為數字。（例如将高、中、低分别表示為 1、2、3）
One-hot Encoding — 将分類數據表示為二進制值 — 僅 0,1。如果分類特征中沒有很多唯一值，我更喜歡使用一次性編碼而不是标簽編碼。在這裡，我在 Region 上使用了 pandas 的一個熱編碼函數 ( get_dummies ) 并将其分成 4 别 — location_NE、location_SE、location_NW 和 location_SW。也可以對這一列使用标簽編碼，但是，一種熱門編碼給了我更好的結果。

回歸預測的實例（如何提高回歸模型的準确性）13