您的位置:首頁>科技>正文

阿爾法元來了,人類限制了機器的想像力嗎?

誰能想到, 我們會在一年之內連續被AlphaGo刷屏兩次?關於阿爾法元如何快速學習成長擊敗AlphaGo Lee和AlphaGo Master的新聞這裡就不再贅述, 給出兩個關鍵資訊,

供讀者一起思考。

一、阿爾法元沒有錄入人類棋譜資料, 單純通過自我對弈, 依靠強化學習取得了現在的能力。

二、阿爾法元的工作和訓練效率都有了很大的提升, 僅用了三天的時間就能擊敗原版阿爾法狗, 同時在推理時, 阿爾法元只用了4塊TPU。

阿爾法元之所以震撼了整個業界, 是因為當我們以為Master已經封神時, 它用三天的時間告訴人類, 人類以為的最高水準, 在機器面前不值一提。 人類經驗成了阿爾法狗的累贅, 甩掉這些, 演算法可以更快更好的完成任務。

對於很多人來說, 這是一個巨大的打擊:我們引以為傲的大資料不僅僅會誤導演算法, 還會佔用更多的計算資源, 阻礙了通用人工智慧的發展。

這篇文章的主要任務,

就是來安撫一下驚慌失措的人類。 先從第一個問題說起, 看看阿爾法元到底是怎麼提升計算效率的。

從監督學習到強化學習

以前在國際象棋的人機對弈中, 電腦使用暴力窮舉法推算雙方對峙時的種種可能, 通過運算速度取勝。 可窮舉法一度曾經被認為不適合圍棋, 圍棋每走一步就會創造出19×19種可能, 運算量太過巨大。

直到有人開始用卷積神經網路解決圍棋問題, 用卷積神經網路擅長的降維降低搜索空間, 機器便有了戰勝人類的可能。

在擊敗了柯潔的阿爾法狗大師版本中, 應用了整整40層的策略網路/價值網路, 前者用於確定當前局面, 預測下一步行動, 價值網路則用來判斷執黑執白兩方的勝率。 另外, 還要加入快速走子系統, 以在稍微犧牲走棋品質的前提下, 極高的提升運算速度。 最後, 再用蒙特卡羅樹搜索演算法把以上三者連接起來。

而阿爾法元則直接將策略網路和價值網路相結合, 並且去掉了快速走子系統。 也就是說, 以往由三部分組成的阿爾法狗在如今直接變成了一個整體。

簡化之後, 策略+價值網路的輸入特徵由48個減少到了17個, 加上被刪掉的快速走子系統, 基本關於人類圍棋的知識都被去掉了。

從圖中可以看到, 沒有任何人類知識的阿爾法元, 在自我對弈的初期常常出現一些毫無邏輯的詭異棋局,

可到了後期, 卻總能有出其不意的打法。

去掉人類已知知識的特徵輸入, 意味著阿爾法元從監督學習走向了強化學習——分裂成兩個一無所知的棋手, 開始對弈, 出現勝者後用結果進行訓練, 然後繼續迴圈對弈。

而走向強化學習, 不僅僅是因為去掉了人類棋譜的監督, 還有關於殘差網路的應用。 殘差網路可以理解為卷積神經網路的深化, 簡單來說, 就是儘量減少每一層網路的神經元, 而把網路做的更深。 結合阿爾法元從監督學習轉向強化學習, 減少了輸入特徵, 也利於把整個神經網路做的更加簡單粗暴。

總之, 阿爾法元的重點就在於, 去掉人類的圍棋知識所需的計算的資源, 把網路做的更深, 好讓阿爾法元在越來越深的網路中自己發現這些知識。

而阿爾法元的確做到了。

甩掉資料,通用人工智慧就來了嗎?

所以,阿爾法元效率提升的重點在於,去掉人類資料的監督,才有可能實現結構的優化。

那麼同樣的套路,可以應用在其他領域嗎?

答案很有可能讓人失望。

首先,圍棋這種遊戲本身就是透明規則的數學計算,此前的Master和Lee,無非是在沒法單純使用推理時的權宜之計。到了其他無法使用通行透明規則的領域,深度學習可能就沒那麼好用了。

今年DeepMind對《星際爭霸》的挑戰就是案例之一,把整個遊戲拆分成多個模擬場景,企圖以分散式的模擬訓練解決整體問題。可目前來看,結果卻不盡如人意。畢竟在不完全資訊環境中,對長期規劃能力、多智慧體協作能力的考驗都太過嚴苛了。機器都不一定能很好的模仿人類的經驗,更不必提完全依靠機器的自己了。

在強化學習中,最容易出現的情況就是機器只顧獲取單一條件下的獎勵,無法顧及到多工環境中的整體進程。

遊戲中尚且如此,那在語音辨識、圖像識別等等其他領域中,資料的價值就更為重要了。現在提出強化學習=通用人工智慧,還為時尚早。

所以,沒有必要因為數學遊戲中的失敗就去否定人類存在的價值。用自己短處去和機器的長處相比,才是最沒意義的事。

人類限制了機器的想像力嗎?

而提到人類的短處,就不得不說在阿爾法元和Master對弈中發現的有趣的資訊。對典型的,就是在人類的影響下,Master常常走向局部最優。而一些圍棋手們在剛剛接觸圍棋時就要學習的打法,阿爾法元卻在訓練的極後期才能發現。

用我們常常評論學校教育的話講,就是人類的規則限制了機器的想像力。

這一切提醒了我們兩件事,第一,由於人類自身能力所限,我們常常限於局部收斂而不自知,進而會影響機器學習的能力;第二,大資料中的資訊雜訊不可忽視。

也就是說,如果總是依靠人類經驗和資料,依靠機器學習的人工智慧的水準頂多是一個腦子特別好使人類。

而阿爾法元的成功,是不是告訴了我們,依靠強化學習繞過大資料的局限、甚至是人類本身的局限?

雖然在很多沒有明確規則的場景中強化學習還表現乏力,但我們是否可以創造模擬環境,嘗試用強化學習重新解讀那些我們習以為常的基礎問題?比如分子的組成和運動甚至基礎物理,以此能影響到的材料、生物等等領域,都有著無限的想像空間。

阿爾法元對通用人工智慧的推進雖然有限,卻證實了用物美價廉的強化學習解決更多問題的可能。在未來,我們可以期待更多商業化的場景,看看強化學習是不是真的能讓機器學習有更多的應用空間。

作為一個從小就數學不好的人,我非常坦然的接受了自己的失敗——作為人類,我們的計算能力的確輸了機器一大截。那些通過計算而得來的智慧,顯然也不見得比機器更高明。

可我們存在的意義,從來不是算數,而是把自己的能力付諸到更高級的系統上,發揮出更強大的作用。就像我們不曾被計算器打敗一樣,雖然在計算這件事上,阿爾法元青出於藍。可換個角度想想,我們自己作為演算法的發明者,看著自己的造物補足了自己能力上的不足,是不是應該露出造物神一樣的微笑呢?

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

好讓阿爾法元在越來越深的網路中自己發現這些知識。

而阿爾法元的確做到了。

甩掉資料,通用人工智慧就來了嗎?

所以,阿爾法元效率提升的重點在於,去掉人類資料的監督,才有可能實現結構的優化。

那麼同樣的套路,可以應用在其他領域嗎?

答案很有可能讓人失望。

首先,圍棋這種遊戲本身就是透明規則的數學計算,此前的Master和Lee,無非是在沒法單純使用推理時的權宜之計。到了其他無法使用通行透明規則的領域,深度學習可能就沒那麼好用了。

今年DeepMind對《星際爭霸》的挑戰就是案例之一,把整個遊戲拆分成多個模擬場景,企圖以分散式的模擬訓練解決整體問題。可目前來看,結果卻不盡如人意。畢竟在不完全資訊環境中,對長期規劃能力、多智慧體協作能力的考驗都太過嚴苛了。機器都不一定能很好的模仿人類的經驗,更不必提完全依靠機器的自己了。

在強化學習中,最容易出現的情況就是機器只顧獲取單一條件下的獎勵,無法顧及到多工環境中的整體進程。

遊戲中尚且如此,那在語音辨識、圖像識別等等其他領域中,資料的價值就更為重要了。現在提出強化學習=通用人工智慧,還為時尚早。

所以,沒有必要因為數學遊戲中的失敗就去否定人類存在的價值。用自己短處去和機器的長處相比,才是最沒意義的事。

人類限制了機器的想像力嗎?

而提到人類的短處,就不得不說在阿爾法元和Master對弈中發現的有趣的資訊。對典型的,就是在人類的影響下,Master常常走向局部最優。而一些圍棋手們在剛剛接觸圍棋時就要學習的打法,阿爾法元卻在訓練的極後期才能發現。

用我們常常評論學校教育的話講,就是人類的規則限制了機器的想像力。

這一切提醒了我們兩件事,第一,由於人類自身能力所限,我們常常限於局部收斂而不自知,進而會影響機器學習的能力;第二,大資料中的資訊雜訊不可忽視。

也就是說,如果總是依靠人類經驗和資料,依靠機器學習的人工智慧的水準頂多是一個腦子特別好使人類。

而阿爾法元的成功,是不是告訴了我們,依靠強化學習繞過大資料的局限、甚至是人類本身的局限?

雖然在很多沒有明確規則的場景中強化學習還表現乏力,但我們是否可以創造模擬環境,嘗試用強化學習重新解讀那些我們習以為常的基礎問題?比如分子的組成和運動甚至基礎物理,以此能影響到的材料、生物等等領域,都有著無限的想像空間。

阿爾法元對通用人工智慧的推進雖然有限,卻證實了用物美價廉的強化學習解決更多問題的可能。在未來,我們可以期待更多商業化的場景,看看強化學習是不是真的能讓機器學習有更多的應用空間。

作為一個從小就數學不好的人,我非常坦然的接受了自己的失敗——作為人類,我們的計算能力的確輸了機器一大截。那些通過計算而得來的智慧,顯然也不見得比機器更高明。

可我們存在的意義,從來不是算數,而是把自己的能力付諸到更高級的系統上,發揮出更強大的作用。就像我們不曾被計算器打敗一樣,雖然在計算這件事上,阿爾法元青出於藍。可換個角度想想,我們自己作為演算法的發明者,看著自己的造物補足了自己能力上的不足,是不是應該露出造物神一樣的微笑呢?

更多精彩內容,關注鈦媒體微信號(ID:taimeiti),或者下載鈦媒體App

Next Article
喜欢就按个赞吧!!!
点击关闭提示