最強對決：谷歌AlphaGo 5月決戰柯潔

機器之心報導

參與：李亞洲、李澤南、吳攀

4月10日下午，穀歌在北京的中國棋院召開新聞發佈會，正式宣佈AlphaGo將於今年5月23日在浙江烏鎮對決以柯潔為代表的中國頂尖棋手。

據機器之心現場瞭解，中國圍棋協會和浙江省體育局攜手谷歌三方將聯合主辦「中國烏鎮·圍棋峰會」。本次峰會將從5月23日至27日在浙江烏鎮展開，除AlphaGo與柯潔的三番棋對戰之外，還將舉辦配對賽和團體賽兩場形式不同的交流比賽。

配對賽中，兩位棋手將分別與AlphaGo組隊，挑戰棋手如何去理解AlphaGo的獨特風格並與之合作；在團隊賽中，將有五位中國頂尖棋手合作，建立棋手“神經網路”，降低心理因素的影響，從而做出更加客觀的判斷。

在發佈會現場，柯潔表示，「能與 AlphaGo 對陣是我的榮幸，但我一定會擊敗 AlphaGo」。據悉，此次比賽的獲勝獎金為 150 萬美元。

離AlphaGo和李世乭的“人機大戰”已經過去了一年， AlphaGo與柯潔的對弈是業內期待已久的一場對決。去年AlphaGo與世界圍棋冠軍李世乭的比賽引起了極大的關注，人機對戰成為人工智慧領域的熱門話題。不久之前，斬獲UEC杯電腦圍棋大賽冠軍的騰訊人工智慧系統「絕藝」，在東京舉行的第五屆“電聖戰”世界人機大戰中戰勝了日本圍棋界的新銳棋手一力遼七段（世界排名第44位，

日本第2）。

穀歌和DeepMind對於圍棋的探索並未隨著去年和今年初的兩次“亮相”而結束，由於圍棋近乎無窮的變化，人類棋手在千百年戰術發展的過程中似乎並未觸及圍棋的本質， DeepMind的研究者一直將目標定為探索圍棋的極限。 DeepMind 官方發佈的 2016 年度總結中寫道，「最激動人心的莫過於 AlphaGo 博弈過程中所呈現出來的創造力，有時，它的棋招甚至挑戰了古老的圍棋智慧。圍棋，這一古往今來最富深謀遠慮的遊戲之一， AlphaGo 可以識別並分享其中洞見。」

此前， AlphaGo在2016年3月與前圍棋世界冠軍，韓國棋手李世乭九段在韓國首爾進行了五次對決，並4比1獲勝，第一次在正式比賽環境中戰勝了人類頂尖棋手。

AlphaGo因此而獲得了韓國棋院頒發的“名譽九段”證書。在沉寂了一段時間後，去年末， AlphaGo以“Master”為名出現在騰訊野狐網上圍棋平臺中，與中日韓三國頂尖棋手進行了一系列網上快棋對決，並實現了60勝0負的完美戰績。

顯然， AlphaGo並不滿足於線上圍棋平臺的勝利，穀歌方面很早就與中國棋院達成了一致，準備於今年舉行新一輪的圍棋人機大戰。去年12月，谷歌聯合創始人、Alphabet總裁謝爾蓋·布林和谷歌CEO皮查伊（Sundar Pichai）一同造訪中國棋院，觀摩了棋手訓練，並與“棋聖”聶衛平九段及中國圍棋隊總教練俞斌九段進行了交流。

「我從（2016年）3月份開始到現在研究了大半年的棋軟，無數次的理論、實踐，就是想知道電腦究竟強在哪裡。昨晚輾轉反側，不想竟一夜無眠。人類數千年的實戰演練進化，

電腦卻告訴我們人類全都是錯的。我覺得，甚至沒有一個人沾到圍棋真理的邊。但是我想說，從現在開始，我們棋手將會結合電腦，邁進全新的領域達到全新的境界。新的風暴即將來襲，我將盡我所有的智慧終極一戰！」

AlphaGo升級版

去年1月28日， Nature雜誌以封面論文的形式介紹了DeepMind團隊開發的人工智慧程式AlphaGo，這也就是後來擊敗韓國棋手李世乭的AlphaGo版本。據此次發佈會提供的資訊，今年年初席捲中國圍棋界的「Master／Magister」是AlphaGo的升級版本，但它下的是快棋，與此次對決的規則不同。

AlphaGo結合了監督學習與強化學習的優勢。通過訓練形成一個策略網路，將棋盤上的局勢作為輸入資訊，並對有所可行的落子位置形成一個概率分佈。然後，訓練一個價值網路對自我對弈進行預測，以-1（對手的絕對勝利）到1（AlphaGo的絕對勝利）的標準，預測所有可行落子位置的結果。AlphaGo將這兩種網路整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現了它真正的優勢。

在獲取棋局資訊後，AlphaGo會根據策略網路（policy network）探索哪個位置同時具備高潛在價值和高可能性，進而決定最佳落子位置。在分配的搜索時間結束時，類比過程中被系統最繁瑣考察的位置將成為AlphaGo的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後，AlphaGo的探索演算法就能在其計算能力之上加入近似人類的直覺判斷。

據瞭解，新版的AlphaGo產生大量自我對弈棋局，為下一代版本提供了訓練資料，此過程循環往復。

然後，訓練一個價值網路對自我對弈進行預測，以-1（對手的絕對勝利）到1（AlphaGo的絕對勝利）的標準，預測所有可行落子位置的結果。AlphaGo將這兩種網路整合進基於概率的蒙特卡羅樹搜索（MCTS）中，實現了它真正的優勢。

據瞭解，新版的AlphaGo產生大量自我對弈棋局，為下一代版本提供了訓練資料，此過程循環往復。