華文網

深度報導 柯潔再度告負!Alpha Go究竟有多厲害?

@電腦報前方記者黃旭現場報導

“我中途覺得自己快要勝利了,

內心很激動,為了讓自己心跳放緩,所以摸著胸口。”

在第二局的賽後新聞發佈會上,柯潔說起了自己的“痛失好局”,“或許這就是人類和機器的區別。

5月25日13點37分,在147手之後,柯潔執白中盤再次輸給了AlphaGo。這次時間更短,整個比賽用時只花了3小時零4分45秒。

要知道在比賽結束之前20多分鐘,解說嘉賓古力九段還在說柯潔占優,今天很有見證歷史希望,而哈薩比斯也發推說今天柯潔表現很完美。柯潔作為對戰者,記者見到他也明顯兩眼放光,似乎看到了通向勝利的曙光,為了壓抑激動情緒甚至去了一個廁所。

但想不到的是,阿爾法狗在133手的神之一手,確保可以多一枚白棋打爆黑棋。柯潔先是一愣,隨後陷入了大長考,眼神也逐漸黯淡無光。

“打劫的時候,柯潔打吃下錯了,受到情緒嚴重影響了。”一位棋手評論說。

形勢就這樣逆轉,柯潔突然認輸,同聲傳譯中傳來柯潔很明顯“哎”歎息聲時,整個媒體室、觀摩室也是一片“啊”的驚呼之聲。

“還在直播,突然就結束了,現在感覺好難過。”在Google的圍棋峰會媒體群中,一位同行有著說不出的悲傷。

或許,這就是人類和人工智慧的最大區別——人類總會計算錯誤,總會受到情緒的影響。

而AlphaGo,則永遠是在冰冷的機器背後, 無情而冷靜的演算著屬於它的勝利。

少見的輕鬆時刻,是在新聞發佈會上,在回答記者“假若AlphaGO執棋選手不是黃士傑,而是古力,會不會情緒更為輕鬆時”,柯潔說“我也不知道黃士傑士怎麼做到的,他不用吃飯,不用上廁所,就像AlphaGo機器坐在對面一樣。要是古哥的話,我肯定會笑的更多。”這個少年天性的回答,引得了陣陣掌聲。

全世界都事先認定的失敗

5月23日16點30分,新聞發佈會結束後,柯潔在幾位工作人員陪同下,往國際會展中心場外走去——這原本是一場五至六個小時的圍棋對決,由於AlphaGO異於人類的落子速度,時間縮短了兩小時。

場館外,是浙江烏鎮磅礴了一天的江南梅雨,積水早已沒過腳面。

與柯潔一同隨行的《電腦報》“AI與機器人的第二局比賽,安穩睡上一個好覺了。

很早之前,這就是一場全世界早就認定柯潔必輸的比賽。今年4月,人機大戰日程敲定後,聶衛平、古力、常昊、王小川、李開複、傅盛等棋界、科技界名人都先後表示了對結果的悲觀,聶衛平話說的很直接:“柯潔水準與AlphaGo差距太大,將以0比3完敗。”

還有歐洲博☆禁☆彩業開出了盤口:柯潔獲勝的賠率為1:8,即如果投10元,柯潔贏可賺到7元,而AlphaGo贏只能賺5毛。到了3月25日第二局開賽前,柯潔獲勝賠率高達為1:11。

實際上,就連不懂圍棋,此前也未聽說過AlphaGo的烏鎮人員,在記者到達烏鎮的當天,也下了“人怎麼可能贏得過機器”的斷然結論。而在比賽過程和比賽結束後,“AI與機器人董事長埃裡克·施密特透露稱,目前的AlphaGo,比去年戰勝李世石的那一版要“強三子”:“AlphaGo成為自己的老師,它從自己的搜索裡學習,有著更強大的策略和價值網路。”

也就是說,按照圍棋等級劃分,現在AlphaGo 的積分為4500分左右,遙遙超越所有人類,目前暫列人類職業棋手第一位的的柯潔積分為3620分。

儘管此後DeepMind團隊的樊麾二段發表聲明稱,“當AlphaGo與從未對弈過的人類棋手對局時,這樣的優勢就不復存在。”不過,這並不能掩蓋AlphaGo的種種可怕。

更可怕的,或許還是如今版AlphaGo強大的自我反覆運算和更新能力,在演算法上,這一版本的 AlphaGo 已經不需要外在“導師”,能實現自我學習了。

早期,AlphaGo仍通過學習六段以上的圍棋選手下法來進行學習,但如今與去年相比,2.0版的AlphaGo將正式摒棄人類棋譜,只靠電腦自身深度學習的方式成長。即通過數學模型下的自我對弈和深度學習,下出完全屬於人工智慧(AI)的圍棋。

搜狗總裁王小川稱,此次AlphaGo可能已經放棄了監督學習,也就是說不再依賴原先人類的3000萬局棋譜,甚至有可能放棄了蒙特卡洛樹搜索,大大減少了暴力計算,落子速度更快、準確率更高。兩台沒有棋譜資料的AlphaGo自我對戰學習如何下棋,並達到登峰造極的地步,只需要一周的時間。

換句話說,就是“AlphaGo已經是自己的導師”,甚至於它已經不滿足於只是單純取得勝利,而是控制勝利的概率以及輸贏的差距——根據舉個通俗的例子:90%贏10目和100%贏1目,AlphaGo一定會選擇贏1目的變化,因為勝率更高。這也是AlphaGo在早早掌控巨大優勢,後盤一路放緩腳步的原因。

這個說法得到了哈薩比斯等人某種程度上的認可。“我們的確在研究如何通過多線路決策來擴大勝率,甚至是去控制勝率,這是我們的一個探索方向。” 哈薩比斯說,他們的確在測試AlphaGo獲取勝利的程度。

從此以後,人機大戰或許再無意義

“此次出戰的AlphaGo是單機版,比李世石對弈的版本要高出十倍,以計算量僅需原來的十分之一,訓練時間也從幾個月縮減到了幾個星期。”哈薩比斯說,目前的AlphaGo是在雲端由單TPU運行,與李世石對戰的AlphaGo在雲上有50個TPUs在運作,搜索50個棋步為10000個位置/秒,而5月23日打敗柯潔的AlphaGoMaster則在單個TPU上進行遊戲。TPU是專門為機器學習而設計的處理器。

棋手張璿和常昊夫婦現場講解

如果說之前的AlphaGo還依賴于大量的資料的計算,那麼進化後的AlphaGo幾乎就像是一個真正深諳圍棋藝術的天才。柯潔說,和AI下棋時就像“安樂死”,AI的許多招法不僅超乎人類想像,甚至它在保證勝利的前提下還可以給人類一個“體面”的輸法。

“數千年以來,歷史留下了關於圍棋的無數玩法和總結,電腦卻告訴我們人類全都是錯的。”柯潔的話語中,是掩飾不了的淒涼。

自古以來,人類就對於這個19x19的棋盤迷戀不已,361個交叉點、150回合對弈,看似規則簡單,卻可以變幻出超越宇宙原子總數的可能。沒人知道,柯潔這個人類圍棋智慧堡壘最後守護者的失利,對中國圍棋界和圍棋的未來,意味著什麼。

“AI肯定會越來越厲害,將來人肯定下不過它們。但是這就像人終究是要死的,難道你今天就去尋死,就不活了嗎?”國家圍棋領隊、棋手華學明說, “這個階段對棋手是非常痛苦的,尤其是完全沉浸在勝負中的年輕棋手,圍棋就是他們的生命。”

在接受《南方人物週刊》採訪時,古力感歎,“我對科技產生了一種敬畏感,僅次於對大自然的敬畏。”“黑暗是你的朋友,絕望是你的領路人,”古力把這句話抄在本子上,“特別能體現我們棋手的心境。”他說自己記得最清楚的都是輸棋,但那些“輸了跟誰都不想說話的”黑暗經歷都無法與AI帶來的絕望相比。

他讚歎人工智慧的未來,“如果AI真能造福人類的話,我們的尊嚴根本算不上什麼。有時候也會覺得我們其實是幸運的,首當其衝被AI衝擊和改變,未來如何被AI改變,我們的體會要比普通人更深一點。”他也在新聞發佈會上再次明確表示:“這是我最後三盤和人工智慧對戰,我還是喜歡和人下棋。”

今年3月底,柯潔做客央視一套《朗讀者》節目,朗讀了《哈利波特與死亡聖器》的最後一個節選,內容是哈利波特與伏地魔第一次也是最後一次正面對決。他說要將這段朗讀獻給來自未來的對手。當時,柯潔已經決定正式應戰AlphaGo,但對陣的時間地點尚未確定,其寓意不言自明。

“ 哈利早就知道會這樣了,他知道他的身體不會這樣一直靜靜地躺在森林的地面上,為了證明自己的勝利,伏地魔一定會去踐踏、侮辱他的遺體……”柯潔贏可賺到7元,而AlphaGo贏只能賺5毛。到了3月25日第二局開賽前,柯潔獲勝賠率高達為1:11。

實際上,就連不懂圍棋,此前也未聽說過AlphaGo的烏鎮人員,在記者到達烏鎮的當天,也下了“人怎麼可能贏得過機器”的斷然結論。而在比賽過程和比賽結束後,“AI與機器人董事長埃裡克·施密特透露稱,目前的AlphaGo,比去年戰勝李世石的那一版要“強三子”:“AlphaGo成為自己的老師,它從自己的搜索裡學習,有著更強大的策略和價值網路。”

也就是說,按照圍棋等級劃分,現在AlphaGo 的積分為4500分左右,遙遙超越所有人類,目前暫列人類職業棋手第一位的的柯潔積分為3620分。

儘管此後DeepMind團隊的樊麾二段發表聲明稱,“當AlphaGo與從未對弈過的人類棋手對局時,這樣的優勢就不復存在。”不過,這並不能掩蓋AlphaGo的種種可怕。

更可怕的,或許還是如今版AlphaGo強大的自我反覆運算和更新能力,在演算法上,這一版本的 AlphaGo 已經不需要外在“導師”,能實現自我學習了。

早期,AlphaGo仍通過學習六段以上的圍棋選手下法來進行學習,但如今與去年相比,2.0版的AlphaGo將正式摒棄人類棋譜,只靠電腦自身深度學習的方式成長。即通過數學模型下的自我對弈和深度學習,下出完全屬於人工智慧(AI)的圍棋。

搜狗總裁王小川稱,此次AlphaGo可能已經放棄了監督學習,也就是說不再依賴原先人類的3000萬局棋譜,甚至有可能放棄了蒙特卡洛樹搜索,大大減少了暴力計算,落子速度更快、準確率更高。兩台沒有棋譜資料的AlphaGo自我對戰學習如何下棋,並達到登峰造極的地步,只需要一周的時間。

換句話說,就是“AlphaGo已經是自己的導師”,甚至於它已經不滿足於只是單純取得勝利,而是控制勝利的概率以及輸贏的差距——根據舉個通俗的例子:90%贏10目和100%贏1目,AlphaGo一定會選擇贏1目的變化,因為勝率更高。這也是AlphaGo在早早掌控巨大優勢,後盤一路放緩腳步的原因。

這個說法得到了哈薩比斯等人某種程度上的認可。“我們的確在研究如何通過多線路決策來擴大勝率,甚至是去控制勝率,這是我們的一個探索方向。” 哈薩比斯說,他們的確在測試AlphaGo獲取勝利的程度。

從此以後,人機大戰或許再無意義

“此次出戰的AlphaGo是單機版,比李世石對弈的版本要高出十倍,以計算量僅需原來的十分之一,訓練時間也從幾個月縮減到了幾個星期。”哈薩比斯說,目前的AlphaGo是在雲端由單TPU運行,與李世石對戰的AlphaGo在雲上有50個TPUs在運作,搜索50個棋步為10000個位置/秒,而5月23日打敗柯潔的AlphaGoMaster則在單個TPU上進行遊戲。TPU是專門為機器學習而設計的處理器。

棋手張璿和常昊夫婦現場講解

如果說之前的AlphaGo還依賴于大量的資料的計算,那麼進化後的AlphaGo幾乎就像是一個真正深諳圍棋藝術的天才。柯潔說,和AI下棋時就像“安樂死”,AI的許多招法不僅超乎人類想像,甚至它在保證勝利的前提下還可以給人類一個“體面”的輸法。

“數千年以來,歷史留下了關於圍棋的無數玩法和總結,電腦卻告訴我們人類全都是錯的。”柯潔的話語中,是掩飾不了的淒涼。

自古以來,人類就對於這個19x19的棋盤迷戀不已,361個交叉點、150回合對弈,看似規則簡單,卻可以變幻出超越宇宙原子總數的可能。沒人知道,柯潔這個人類圍棋智慧堡壘最後守護者的失利,對中國圍棋界和圍棋的未來,意味著什麼。

“AI肯定會越來越厲害,將來人肯定下不過它們。但是這就像人終究是要死的,難道你今天就去尋死,就不活了嗎?”國家圍棋領隊、棋手華學明說, “這個階段對棋手是非常痛苦的,尤其是完全沉浸在勝負中的年輕棋手,圍棋就是他們的生命。”

在接受《南方人物週刊》採訪時,古力感歎,“我對科技產生了一種敬畏感,僅次於對大自然的敬畏。”“黑暗是你的朋友,絕望是你的領路人,”古力把這句話抄在本子上,“特別能體現我們棋手的心境。”他說自己記得最清楚的都是輸棋,但那些“輸了跟誰都不想說話的”黑暗經歷都無法與AI帶來的絕望相比。

他讚歎人工智慧的未來,“如果AI真能造福人類的話,我們的尊嚴根本算不上什麼。有時候也會覺得我們其實是幸運的,首當其衝被AI衝擊和改變,未來如何被AI改變,我們的體會要比普通人更深一點。”他也在新聞發佈會上再次明確表示:“這是我最後三盤和人工智慧對戰,我還是喜歡和人下棋。”

今年3月底,柯潔做客央視一套《朗讀者》節目,朗讀了《哈利波特與死亡聖器》的最後一個節選,內容是哈利波特與伏地魔第一次也是最後一次正面對決。他說要將這段朗讀獻給來自未來的對手。當時,柯潔已經決定正式應戰AlphaGo,但對陣的時間地點尚未確定,其寓意不言自明。

“ 哈利早就知道會這樣了,他知道他的身體不會這樣一直靜靜地躺在森林的地面上,為了證明自己的勝利,伏地魔一定會去踐踏、侮辱他的遺體……”