您的位置:首頁>體育>正文

最強對決:谷歌AlphaGo 5月決戰柯潔

機器之心報導

參與:李亞洲、李澤南、吳攀

4月10日下午, 穀歌在北京的中國棋院召開新聞發佈會, 正式宣佈AlphaGo將於今年5月23日在浙江烏鎮對決以柯潔為代表的中國頂尖棋手。

據機器之心現場瞭解, 中國圍棋協會和浙江省體育局攜手谷歌三方將聯合主辦「中國烏鎮·圍棋峰會」。 本次峰會將從5月23日至27日在浙江烏鎮展開, 除AlphaGo與柯潔的三番棋對戰之外, 還將舉辦配對賽和團體賽兩場形式不同的交流比賽。

配對賽中, 兩位棋手將分別與AlphaGo組隊, 挑戰棋手如何去理解AlphaGo的獨特風格並與之合作;在團隊賽中, 將有五位中國頂尖棋手合作, 建立棋手“神經網路”, 降低心理因素的影響, 從而做出更加客觀的判斷。

在發佈會現場, 柯潔表示, 「能與 AlphaGo 對陣是我的榮幸, 但我一定會擊敗 AlphaGo」。 據悉, 此次比賽的獲勝獎金為 150 萬美元。

離AlphaGo和李世乭的“人機大戰”已經過去了一年, AlphaGo與柯潔的對弈是業內期待已久的一場對決。 去年AlphaGo與世界圍棋冠軍李世乭的比賽引起了極大的關注, 人機對戰成為人工智慧領域的熱門話題。 不久之前, 斬獲UEC杯電腦圍棋大賽冠軍的騰訊人工智慧系統「絕藝」, 在東京舉行的第五屆“電聖戰”世界人機大戰中戰勝了日本圍棋界的新銳棋手一力遼七段(世界排名第44位,

日本第2)。

穀歌和DeepMind對於圍棋的探索並未隨著去年和今年初的兩次“亮相”而結束, 由於圍棋近乎無窮的變化, 人類棋手在千百年戰術發展的過程中似乎並未觸及圍棋的本質, DeepMind的研究者一直將目標定為探索圍棋的極限。 DeepMind 官方發佈的 2016 年度總結中寫道, 「最激動人心的莫過於 AlphaGo 博弈過程中所呈現出來的創造力, 有時, 它的棋招甚至挑戰了古老的圍棋智慧。 圍棋, 這一古往今來最富深謀遠慮的遊戲之一, AlphaGo 可以識別並分享其中洞見。 」

此前, AlphaGo在2016年3月與前圍棋世界冠軍, 韓國棋手李世乭九段在韓國首爾進行了五次對決, 並4比1獲勝, 第一次在正式比賽環境中戰勝了人類頂尖棋手。

AlphaGo因此而獲得了韓國棋院頒發的“名譽九段”證書。 在沉寂了一段時間後, 去年末, AlphaGo以“Master”為名出現在騰訊野狐網上圍棋平臺中, 與中日韓三國頂尖棋手進行了一系列網上快棋對決, 並實現了60勝0負的完美戰績。

顯然, AlphaGo並不滿足於線上圍棋平臺的勝利, 穀歌方面很早就與中國棋院達成了一致, 準備於今年舉行新一輪的圍棋人機大戰。 去年12月, 谷歌聯合創始人、Alphabet總裁謝爾蓋·布林和谷歌CEO皮查伊(Sundar Pichai)一同造訪中國棋院, 觀摩了棋手訓練, 並與“棋聖”聶衛平九段及中國圍棋隊總教練俞斌九段進行了交流。

「我從(2016年)3月份開始到現在研究了大半年的棋軟, 無數次的理論、實踐, 就是想知道電腦究竟強在哪裡。 昨晚輾轉反側, 不想竟一夜無眠。 人類數千年的實戰演練進化,
電腦卻告訴我們人類全都是錯的。 我覺得, 甚至沒有一個人沾到圍棋真理的邊。 但是我想說, 從現在開始, 我們棋手將會結合電腦, 邁進全新的領域達到全新的境界。 新的風暴即將來襲, 我將盡我所有的智慧終極一戰!」

AlphaGo升級版

去年1月28日, Nature雜誌以封面論文的形式介紹了DeepMind團隊開發的人工智慧程式AlphaGo, 這也就是後來擊敗韓國棋手李世乭的AlphaGo版本。 據此次發佈會提供的資訊, 今年年初席捲中國圍棋界的「Master/Magister」是AlphaGo的升級版本, 但它下的是快棋, 與此次對決的規則不同。

AlphaGo結合了監督學習與強化學習的優勢。 通過訓練形成一個策略網路, 將棋盤上的局勢作為輸入資訊, 並對有所可行的落子位置形成一個概率分佈。 然後,訓練一個價值網路對自我對弈進行預測,以-1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。AlphaGo將這兩種網路整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。

在獲取棋局資訊後,AlphaGo會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,類比過程中被系統最繁瑣考察的位置將成為AlphaGo的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的探索演算法就能在其計算能力之上加入近似人類的直覺判斷。

據瞭解,新版的AlphaGo產生大量自我對弈棋局,為下一代版本提供了訓練資料,此過程循環往復。

然後,訓練一個價值網路對自我對弈進行預測,以-1(對手的絕對勝利)到1(AlphaGo的絕對勝利)的標準,預測所有可行落子位置的結果。AlphaGo將這兩種網路整合進基於概率的蒙特卡羅樹搜索(MCTS)中,實現了它真正的優勢。

在獲取棋局資訊後,AlphaGo會根據策略網路(policy network)探索哪個位置同時具備高潛在價值和高可能性,進而決定最佳落子位置。在分配的搜索時間結束時,類比過程中被系統最繁瑣考察的位置將成為AlphaGo的最終選擇。在經過先期的全盤探索和過程中對最佳落子的不斷揣摩後,AlphaGo的探索演算法就能在其計算能力之上加入近似人類的直覺判斷。

據瞭解,新版的AlphaGo產生大量自我對弈棋局,為下一代版本提供了訓練資料,此過程循環往復。

Next Article
喜欢就按个赞吧!!!
点击关闭提示