一項研究表明,使用合成數據訓練的圖像分類機器學習模型可以與在真實事物上訓練的機器學習模型相媲美。需要大量數據來訓練機器學習模型來執行圖像分類任務,例如識別自然災害後衛星照片中的損壞。然而,這些數據並不總是那麼容易獲得。如果一開始就存在可用數據,那麼生成數據集可能要花費數百萬美元,即使是最好的數據集也經常包含對模型性能產生負面影響的偏差。
為了規避數據集帶來的一些問題,麻省理工學院的研究人員開發了一種訓練機器學習模型的方法,該方法不是使用數據集,而是使用一種特殊類型的機器學習模型來生成極其逼真的合成數據,這些數據可以訓練另一個模型下游視覺任務。這種特殊的機器學習模型被稱為生成模型,與數據集相比,存儲或共享所需的記憶體要少得多。使用合成數據也有可能迴避一些關於隱私和使用權的擔憂,這些擔憂限制了一些真實數據的分發方式。還可以編輯生成模型以刪除某些屬性,例如種族或性別,這可以解決傳統數據集中存在的一些偏見。
生成合成數據
一旦生成模型在真實數據上進行了訓練,它就可以生成非常逼真的合成數據,幾乎與真實數據無法區分。訓練過程包括向生成模型展示數百萬張包含特定類別對象(如汽車或貓)的圖像,然後它會學習汽車或貓的外觀,以便生成類似的對象。生成模型學習如何轉換訓練它們所依據的基礎數據。如果模型在汽車圖像上進行訓練,它可以“想像”汽車在不同情況下的外觀然後輸出以獨特姿勢、顏色或尺寸顯示汽車的圖像。
比實物還要好
研究人員將他們的方法與其他幾個使用真實數據訓練的圖像分類模型進行了比較,發現他們的方法與其他模型一樣好,有時甚至更好。使用生成模型的一個優點是,理論上它可以創建無限數量的樣本。因此,研究人員還研究了樣本數量如何影響模型的性能。他們發現,在某些情況下,生成更多的獨特樣本會帶來額外的改進。使用生成模型也存在一些限制,在某些情況下,這些模型可以揭示可能帶來隱私風險的源數據,並且如果沒有經過適當的審計,它們可能會放大他們所訓練的數據集中的偏差。
沒有留言:
張貼留言