2022/09/03

隨機森林算法需要標準化嗎?

隨機森林是一種基於決策樹的算法,由多個決策樹組成以改進決策。它被稱為隨機森林,因為它是一個使用具有隨機性的樹的森林。這些多棵樹組合在一起進行預測。

標準化是在機器學習的數據準備階段完成的一種技術。使其具有一般分佈來組織數據集中數據的過程。這是一種縮放技術,其中值被重新縮放,因此它們的範圍在 0 和 1 之間 - 這也稱為 Min-Max 縮放。

為什麼不需要為隨機森林算法標準化數據?

通過標準化數據的過程是為了確保特定功能的優先級不高於另一個。這種技術在基於距離的算法中尤其重要,例如 K 最近鄰和 K-means,因為它需要歐幾里得距離。

然而,隨機森林算法不是基於距離的模型——它是基於樹的模型。隨機森林中的每個節點不比較特徵值,它只是拆分一個需要絕對值進行分支的排序列表。該算法基於對數據進行分區以進行預測,因此,它不需要標準化。

例如,決策樹在一個特徵上分割一個節點,這個特徵不受另一個特徵的影響,也不會影響另一個特徵。這意味著所有剩餘的特徵對分割沒有影響——所以可以說基於樹的算法對特徵的縮放不敏感。

沒有留言: