AlphaGo Zero不需要人類也能自學?有家中國AI公司早就在用相似的方法為技術上帶來重大突破!
Nature期刊上一篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文在這兩天引起火爆討論,
DeepMind負責AlphaGo專案的頂級人工智慧科學家 David Silver 說道, “它比此前的版本更強大, 是因為不使用任何人類的資料和任何形式的人類經驗, 我們已經消除了人類知識的局限, 它能夠創造知識本身。 ”
機器學習分成監督學習與無監督學習, 監督學習是需要餵養給機器受過人工標注的資料, 無監督學習則是在不給予人工標注的情況下讓機器自己進行學習, 由於圍棋是有著明確的輸贏規則的, 即便AlphaGo Zero是通過自我學習達到現在的高超棋藝, 前期也還是需要人類告訴他這個圍棋的規則是什麼,
那麼究竟, 那家已經在用類似方法在技術上有所突破的中國AI公司, 和AlphaGo Zero到底有什麼關係?
2017年上半年, 蘇黎世聯邦理工大學聯合穀歌蘇黎世研究院等機構發佈了一個名為 WebVision 的大規模 Web 圖像資料集, 用於視覺識別。 基於此資料集, 他們還舉辦了一個視覺理解挑戰“Challenge on Visual Understanding by Learning from Web Data”, 也即 WebVision 競賽。
同年七月, 在電腦視覺學術頂會CVPR上, 舉辦了第一屆WebVision大規模視覺理解競賽。 有別於在過去十年對圖像識別領域有卓越貢獻的ImageNet的大規模圖像識別競賽,
WebVison大賽結果
在WebVision大規模視覺理解競賽獲得冠軍的, 是一家打敗世界上各大頂尖團隊的中國人工智慧公司——碼隆科技。 這家公司獲得冠軍所採用的方式, 恰好跟AlphaGo Zero的成功有著異曲同工之妙。
碼隆科技的演算法團隊在接受採訪時表示, 由於 WebVision 和 ImageNet 相比, 主要挑戰是資料沒有經過人工標注, 含有大量的噪音, 所以他們採用了弱監督學習的方式。
研究人員首先利用所有的原始資料訓練一個初始模型, 利用這種初始模型對所有圖片提取一種特徵表示。 接著, 引入課程學習(curriculum learning)。 第一步要先進行課程設計, 利用一種聚類演算法將每一個類別中的全部圖片聚類成N個資料子集, 然後根據每個資料子集的聚類密度,
對於獲勝得到的最大啟發, 碼隆科技演算法團隊表示:
“這個比賽最大的目的就是如何利用非人工標注的資料來訓練一個更好的深度模型。 在比賽初期, 我們通過仔細審查的舉辦方的資料, 發現資料裡面有非常大比例的資料標注是錯誤的。 於是, 我們摸索了一種針對含有雜訊資料的訓練策略, 該訓練策略第一次將弱監督學習(Weakly Supervised Learning)與課程學習(curriculum learning) (2009 年由 Y. Bengio 等提出)這種學習方式引入到大規模的雜訊資料訓練中。
“新設計的演算法策略有效地抑制錯誤標注的負面影響。最重要的是,這種演算法能夠有效地利用這些錯誤標籤來大大提升模型的魯棒性,同時讓所訓練的模型比用 ImageNet 人工標注資料所訓練的模型具有更好的泛化能力,具有更強的通用性,能夠更好的遷移到其他相關任務。”
歸根結底來說,AlphaGo Zero的成功具有劃時代的意義:通過擺脫對人類經驗和輔助的依賴, 而只利用圍棋的規則和自學習(self-learning)來完成整個訓練過程,這也可以認為是弱監督學習的一種方式。 類似的深度強化學習演算法或許能更容易地被廣泛應用到其他人類缺乏瞭解或是缺乏大量標注資料的領域。
而這家中國人工智慧公司正在做的事也證明了,現代深度學習技術可以不完全以人工標注資料為基礎,利用非常少量的監督資訊,也可以訓練性能強大的深度模型。 這為今後研究通用的弱監督和無監督學習打開了一扇門,也為弱人工智慧到強人工智慧的發展邁出重要一步。
該訓練策略第一次將弱監督學習(Weakly Supervised Learning)與課程學習(curriculum learning) (2009 年由 Y. Bengio 等提出)這種學習方式引入到大規模的雜訊資料訓練中。“新設計的演算法策略有效地抑制錯誤標注的負面影響。最重要的是,這種演算法能夠有效地利用這些錯誤標籤來大大提升模型的魯棒性,同時讓所訓練的模型比用 ImageNet 人工標注資料所訓練的模型具有更好的泛化能力,具有更強的通用性,能夠更好的遷移到其他相關任務。”
歸根結底來說,AlphaGo Zero的成功具有劃時代的意義:通過擺脫對人類經驗和輔助的依賴, 而只利用圍棋的規則和自學習(self-learning)來完成整個訓練過程,這也可以認為是弱監督學習的一種方式。 類似的深度強化學習演算法或許能更容易地被廣泛應用到其他人類缺乏瞭解或是缺乏大量標注資料的領域。
而這家中國人工智慧公司正在做的事也證明了,現代深度學習技術可以不完全以人工標注資料為基礎,利用非常少量的監督資訊,也可以訓練性能強大的深度模型。 這為今後研究通用的弱監督和無監督學習打開了一扇門,也為弱人工智慧到強人工智慧的發展邁出重要一步。