該如何對半監督學習演算法實際性應用進行評估？Google給出了新答案

圖源：unsplash

作者：Avital Oliver、Augustus Odena、Colin Raffel、Ekin D. Cubuk、Ian J. Goodfellow

「雷克世界」編譯：KABUDA、EVA

半監督學習（Semi-supervised learning， SSL）提供了一個強大的框架，可以在標記有限或昂貴的情況下利用無標記資料。近期，基於深度神經網路的SSL演算法已被證明在標準基準任務上是成功的。

然而，我們認為，這些基準無法解決這些演算法在實際應用程式中遇到的許多問題。在對各種廣泛使用的SSL技術進行了統一重新實現（unified reimplemention）之後，我們在一組旨在解決這些問題的實驗中對它們進行了測試。我們發現：不使用無標記資料的簡單基線的性能經常被低估；SSL方法對標記資料和無標記資料數量的敏感性不同；當無標記資料集包含類外的樣本時，其性能會大幅降低。為了幫助指導SSL研究在現實世界的實際應用，我們開源了我們的統一重新實現和評估平臺。

深度神經網路已經一再被表明，可以通過利用大量標記資料，在某些監督學習問題上達到人類水準或超越人類水準的性能。

然而，這些成功有著不同的代價；也就是說，創建這些大型資料集通常需要大量的人力（以手工對樣本增添標記）、痛苦或風險（對於涉及侵入性測試的醫療資料集）或財務費用（用於雇傭標記標注者或構建在特定領域收集資料所需的基礎設施）。對於許多實際問題和應用程式來說，沒有足夠的資源來創建足夠大的標記資料集，這限制了深度學習技術的廣泛採用。

有一個具有吸引力的方法可以緩解這個問題，就是半監督學習（semi-supervised learning， SSL）框架。與需要所有樣本都有標記的監督學習（supervised learning）演算法相反， SSL演算法可以通過使用無標記樣本來提高其性能。 SSL演算法通常提供一種從無標記樣本中學習資料結構的方法，

這可以減輕對標記的需求。最近的一些研究結果表明，在某些情況下， SSL能夠接近純粹監督學習的性能，即使在給定的資料集中有很大一部分的標記被丟棄。

每種SSL技術在CIFAR-10（六類動物）上的測試誤差，其中，在標記資料與無標記資料之間，存在不同程度的重疊。

例如， “25%”是指來自不同類的4種無標記資料之一，而非來自標記資料的6類。 “監督”是指不使用無標記資料。陰影區域表示5次試驗的標準差。

這些最近的成功引出了一個自然的問題：SSL方法是否適用于“現實世界”的環境？在本文中，我們認為，當前評估SSL技術的實際方法並不能以令人滿意的方式解決這個問題。具體而言，採用大型標記資料集並丟棄許多標記的標準評估程式沒有考慮到SSL應用程式的各種常見特徵。我們的目標是通過提出一種新的實驗方法來更直接地解決這個問題，我們認為該方法能夠更好地測量對現實世界問題的適應性。我們的一些發現包括：

•當給予調優超參數（hyperparameter）相同預算時，使用SSL和使用標記資料之間的性能差距比通常記錄的差距要小。

•此外，使用無標記資料的大型、高度正則化的分類器的強大性能證明了在同一個基礎模型上評估不同SSL演算法的重要性。

•在不同的標記資料集上對分類器進行預先訓練，然後僅在利益相關資料集中的標記資料上進行再訓練，這可以勝過所有我們研究過的SSL演算法。

•當無標記資料包含與標記資料不同的類分佈時， SSL技術的性能可能會急劇下降。

•不同的方法對標記資料和無標記資料數量的敏感度有很大不同。

•實際的小型驗證集（validation set）會妨礙對不同方法、模型和超參數設置進行可靠的比較。

在SVHN和CIFAR-10中，每種SSL技術的測試誤差都隨標記資料量的變化而變化。陰影區域表示5次實驗的標準差。X軸採用對數形式表示

此外，與機器學習中的許多領域一樣，對超參數、模型結構及訓練的微小調整，都會對方法的直接比較構成混淆，並對結果產生重大影響。為了改善這一問題，我們提出了關於各種SSL方法的統一的、模組化的重新實現，這些方法也使得我們的評估技術成為現實。

結論與建議

我們的實驗提供了有力的證據，證明SSL的標準評估實踐是不現實的。為了更好地反應在現實世界中的應用，我們應該對評估進行哪些改進呢？我們對SSL演算法的評估有以下建議：

•在比較不同的SSL方法時，使用完全相同的基礎模型。因為模型結構或實現細節的差異會對結果產生很大影響。

•報告需認真評估對完全監督精確度和遷移學習性能的要求，以將其作為基準。SSL的目標應該定為，顯著優於完全監督環境下的綜合表現。

•對類分佈失協情況的系統性變化的結果進行報告。我們表明，當採用是不同類的無標記資料，而非標記資料時，我們對SSL技術的研究受到了影響。據我們瞭解，這一現實問題被嚴重忽略了。

•在評估性能時，應調整標記資料和無標記資料的數量。理想的SSL演算法即使在標記資料很少的情況下也是非常有效的，並且它還可以從額外的無標記資料中受益。具體而言，我們建議將SVHN和SVHN-extract相結合，來測試大型無標記資料機制的性能。

•注意，不要在非真實的大型驗證集上過度調節超參數。如果驗證集非常小，那麼為了獲得理想的性能而在每個模型或每個任務基礎上，對超參數進行重大調整的SSL方法將不可用。

我們的研究還表明，面對以下情況時，SSL或許是研究人員最正確的選擇：

•當沒有來自類似域的高品質標記資料集用於微調時。

•當標記資料是通過獨立同分佈（i.i.d）採樣，從無標記資料集中採集得到，而不是從不同分佈中收集得來時。

•當標記的資料集足夠大，能夠準確計算驗證精確度時（這是進行模型選擇和超參數調優所必須的條件）。

近來，SSL收穫了巨大的成功。我們希望我們的研究成果，以及公開可用的統一實現，能夠讓成功之花在現實世界中遍地綻放。

原文連結：https://arxiv.org/pdf/1804.09170.pdf