您的位置:首頁>正文

美國AlphaGoZero只擅長下棋?中國已有家AI公司用此實現技術商業化

AlphaGo Zero不需要人類也能自學?有家中國AI公司早就在用相似的方法為技術上帶來重大突破!

Nature期刊上一篇名為《Mastering the game of Go without human knowledge》(不使用人類知識掌握圍棋)的論文在這兩天引起火爆討論,

讓我們不禁好奇, 這個打敗之前所有版本的AlphaGo Zero, 如何只靠黑白兩子, 左右互搏, 無師自通, 以100-0的驚人成績擊敗了AlphaGo?

DeepMind負責AlphaGo專案的頂級人工智慧科學家 David Silver 說道, “它比此前的版本更強大, 是因為不使用任何人類的資料和任何形式的人類經驗, 我們已經消除了人類知識的局限, 它能夠創造知識本身。 ”

機器學習分成監督學習與無監督學習, 監督學習是需要餵養給機器受過人工標注的資料, 無監督學習則是在不給予人工標注的情況下讓機器自己進行學習, 由於圍棋是有著明確的輸贏規則的, 即便AlphaGo Zero是通過自我學習達到現在的高超棋藝, 前期也還是需要人類告訴他這個圍棋的規則是什麼,

他再依照符合人類知識體系的認知基礎上, 去自己和自己下棋, 自我訓練, 摸索出全域最優解, 進而能夠在人類的固有思維和司空見慣的事物中發現人類找不到的規則和破解問題的方法。 但是, 距離所謂的無監督學習──機器自己制定規則, 自己和自己學習, 還是有一定的距離。

那麼究竟, 那家已經在用類似方法在技術上有所突破的中國AI公司, 和AlphaGo Zero到底有什麼關係?

2017年上半年, 蘇黎世聯邦理工大學聯合穀歌蘇黎世研究院等機構發佈了一個名為 WebVision 的大規模 Web 圖像資料集, 用於視覺識別。 基於此資料集, 他們還舉辦了一個視覺理解挑戰“Challenge on Visual Understanding by Learning from Web Data”, 也即 WebVision 競賽。

同年七月, 在電腦視覺學術頂會CVPR上, 舉辦了第一屆WebVision大規模視覺理解競賽。 有別於在過去十年對圖像識別領域有卓越貢獻的ImageNet的大規模圖像識別競賽,

WebVision 所用資料集直接從互聯網爬取, 沒有經過人工標注, 資料含有很多噪音, 且資料類別的數量存在著極大不平衡, 相較於 ImageNet 比賽資料都屬乾淨資料(完全人工標注), WebVision 難度提高許多, 但同時也更加貼近于實際應用中的場景。

WebVison大賽結果

在WebVision大規模視覺理解競賽獲得冠軍的, 是一家打敗世界上各大頂尖團隊的中國人工智慧公司——碼隆科技。 這家公司獲得冠軍所採用的方式, 恰好跟AlphaGo Zero的成功有著異曲同工之妙。

碼隆科技的演算法團隊在接受採訪時表示, 由於 WebVision 和 ImageNet 相比, 主要挑戰是資料沒有經過人工標注, 含有大量的噪音, 所以他們採用了弱監督學習的方式。

研究人員首先利用所有的原始資料訓練一個初始模型, 利用這種初始模型對所有圖片提取一種特徵表示。 接著, 引入課程學習(curriculum learning)。 第一步要先進行課程設計, 利用一種聚類演算法將每一個類別中的全部圖片聚類成N個資料子集, 然後根據每個資料子集的聚類密度,

對它們進行從簡單到複雜排序:密度越大的子集被視為越簡單(乾淨), 資料的複雜程度隨著子集密度的減小而增大。 第二步就是根據設計好的課程, 在訓練模型的時候利用課程學習的原理, 從簡單到複雜的訓練深度卷積網路。 課程學習通過逐步增大資料子集的難度, 有效地提升模型的綜合性能和泛化能力。

對於獲勝得到的最大啟發, 碼隆科技演算法團隊表示:

“這個比賽最大的目的就是如何利用非人工標注的資料來訓練一個更好的深度模型。 在比賽初期, 我們通過仔細審查的舉辦方的資料, 發現資料裡面有非常大比例的資料標注是錯誤的。 於是, 我們摸索了一種針對含有雜訊資料的訓練策略, 該訓練策略第一次將弱監督學習(Weakly Supervised Learning)與課程學習(curriculum learning) (2009 年由 Y. Bengio 等提出)這種學習方式引入到大規模的雜訊資料訓練中。

“新設計的演算法策略有效地抑制錯誤標注的負面影響。最重要的是,這種演算法能夠有效地利用這些錯誤標籤來大大提升模型的魯棒性,同時讓所訓練的模型比用 ImageNet 人工標注資料所訓練的模型具有更好的泛化能力,具有更強的通用性,能夠更好的遷移到其他相關任務。”

歸根結底來說,AlphaGo Zero的成功具有劃時代的意義:通過擺脫對人類經驗和輔助的依賴, 而只利用圍棋的規則和自學習(self-learning)來完成整個訓練過程,這也可以認為是弱監督學習的一種方式。 類似的深度強化學習演算法或許能更容易地被廣泛應用到其他人類缺乏瞭解或是缺乏大量標注資料的領域。

而這家中國人工智慧公司正在做的事也證明了,現代深度學習技術可以不完全以人工標注資料為基礎,利用非常少量的監督資訊,也可以訓練性能強大的深度模型。 這為今後研究通用的弱監督和無監督學習打開了一扇門,也為弱人工智慧到強人工智慧的發展邁出重要一步。

該訓練策略第一次將弱監督學習(Weakly Supervised Learning)與課程學習(curriculum learning) (2009 年由 Y. Bengio 等提出)這種學習方式引入到大規模的雜訊資料訓練中。

“新設計的演算法策略有效地抑制錯誤標注的負面影響。最重要的是,這種演算法能夠有效地利用這些錯誤標籤來大大提升模型的魯棒性,同時讓所訓練的模型比用 ImageNet 人工標注資料所訓練的模型具有更好的泛化能力,具有更強的通用性,能夠更好的遷移到其他相關任務。”

歸根結底來說,AlphaGo Zero的成功具有劃時代的意義:通過擺脫對人類經驗和輔助的依賴, 而只利用圍棋的規則和自學習(self-learning)來完成整個訓練過程,這也可以認為是弱監督學習的一種方式。 類似的深度強化學習演算法或許能更容易地被廣泛應用到其他人類缺乏瞭解或是缺乏大量標注資料的領域。

而這家中國人工智慧公司正在做的事也證明了,現代深度學習技術可以不完全以人工標注資料為基礎,利用非常少量的監督資訊,也可以訓練性能強大的深度模型。 這為今後研究通用的弱監督和無監督學習打開了一扇門,也為弱人工智慧到強人工智慧的發展邁出重要一步。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示