您的位置:首頁>體育>正文

頂尖圍棋選手很多,但頂尖圍棋 AI 似乎只有一個

3 月 23 日是首屆世界圍棋精英賽的最後一天, 參賽的中日韓代表選手分別是羋昱廷、井山裕太和樸廷桓, 3 位選手輪番對局 3 天, 除了彼此要分出高下, 還要分別對戰日本的圍棋程式 DeepZenGo。

DeepZenGo 的開發者加藤英樹在去年 12 月接受韓國《東亞日報》採訪時曾信心滿滿地說:明年 3 月進行的世界圍棋精英賽, DeepZenGo 有信心擊敗中韓日三國最強棋手。

然而面對 3 位頂尖選手, DeepZenGo 最後的成績是兩敗一勝, 前兩局被羋昱廷和樸廷桓絞殺, 最後一回合執黑子中盤勝井山裕太, 扳回一局。 這次比賽雖有贏面, 但是前有 Master 橫掃高手的範例, DeepZenGo 勝 1 輸 2 的表現並不太出色。

DeepZenGo 對戰中國選手羋昱廷。

雖然之前有 AlphaGo 戰勝李世乭的先例, 但 AlphaGo 無法代表圍棋 AI 的普遍水準, DeepZenGo 的開發者加藤英樹在前兩輪落敗後都表示遺憾, 但其實結果並沒有出乎大家的意料──19 日在東京落幕的第十屆 UEC 杯世界電腦圍棋賽中, DeepZenGo 就不敵騰訊研發的“絕藝”, 曾經稱霸 UEC 的黑馬這次失去了冠軍。

去年 3 月, DeepMind 的 AlphaGo 以 4 比 1 的成績戰勝韓國圍棋九段李世乭, 這是人工智慧首次在圍棋領域戰勝人類高手, 引起全世界空前關注。 但這之前, 機器在圍棋領域的學習已超過 10 年, 從 2007 年第一屆 UEC 杯開始, 研發團隊就不斷發掘電腦程式在圍棋專案上的潛力, DeepZenGo 的前身 Zen 就是其中一個。

2006 年日本遊戲工程師尾島陽兒開始研究圍棋演算法, 寫出最初始的 Zen。

到了 2009 年, 蒙地卡羅方法(Monte Carlo method)開始大面積引入圍棋程式, 成為了機器下棋的主流演算法, 也幫助 Zen 拿到第一個國際大賽冠軍。

棋類遊戲有一種最初始的演算法叫窮舉法, 窮盡所有可能進行列舉──在下棋時把所有會出現的情況都跑一遍, 總能找到一個最優解法, 不管是五子棋、象棋或西洋棋。 窮舉法給電腦帶來的優勢很明顯, 早在 1997 年 IBM“深藍”就用窮舉法戰勝了西洋棋世界冠軍卡斯帕洛夫。

但對圍棋來說, 最大的魅力正在於簡潔的規則下, 無窮盡的策略帶來無窮盡的變化。 這樣情況下, 依靠低效暴力的列舉無法抵過一個專業棋手的經驗和判斷。 蒙地卡羅方法的引入便是為窮舉增加一些隨機性, 縮小需要列舉的範圍, 在隨機範圍內尋求最優解即可,

相當於在一片果園中找到最大的蘋果, 比起原來一棵樹一棵樹找, 變成只挑一塊區域取樣找;最後找到的不一定是最大的, 但一定是所選範圍內最大的。

雖然對窮盡所有列舉有一定的最佳化, 但蒙地卡羅方法本質還是並不高明的列舉, 這樣演算法只能在一定程度上最佳化, 但無法帶來突破性變化。 所以只靠蒙地卡羅方法導致許多圍棋程式陷入瓶頸, 包括 Zen、法國的“瘋石”、韓國的“石子旋風”, 許多演算法都無法匹敵高段位的專業圍棋選手。

AlphaGo 的勝利像在圍棋演算法這灘死水丟入一條大魚, 讓圍觀群眾錯愕同時, 重新活絡了同行的熱情。 比賽一個月後, DeepMind 便在《自然》雜誌發佈論文, 公開 Alpha Go 革命性勝利的一小部分秘密:深度卷積神經網路的引入。

AlphaGo 每走一步棋, 會列舉 250 步潛在可能。

AlphaGo 在蒙地卡羅演算法的基礎上構建兩道神經網路:一道是策略網路, 負責評估棋局;一道是價值網路, 判斷應在哪落子。 這對傳統圍棋演算法最大的價值在於節省蒙地卡羅方法的搜索空間。 再用找大蘋果舉例, 就是會先根據經驗判斷該找一塊陽光好的地方, 再判斷哪塊陽光好, 找到大蘋果的機率更大。

神經網路縮短了機器演算法和專業選手間的差距, 也為圍棋演算法最佳化提供新思路, 包括加藤英樹等許多開發者都在 Google 發佈論文後, 把深度學習引入圍棋演算法。 Zen 在經過深度學習升級後, 也改名為今天的 DeepZenGo。

但 Google 論文中公佈的資訊仍然只是 AlphaGo 的冰山一角。

儘管用同樣基礎架構, 但 DeepZenGo 距離 AlphaGo 仍有很大差距。 首先是硬體不在同一水準──AlphaGo 擁有 1,920 個 CPU、280 個 GPU, 最新的 DeepZen 14.0 版本配備是 44 個 CPU、4 個 GPU, 這差距相當於 AlphaGo 坐著火箭起飛時 DeepZenGo 還在騎單車。

其次是演算法的差距。 AlphaGo 只用一份教材, 但各家學習方法不同導致學習效果不同。 AlphaGo 雖然研發時間不如 DeepZenGo 長, 但深度學習上 Google 已有 7 年經驗, DeepZen 即便引入神經網路, 模型訓練的時間和量都遠遠不及 AlphaGo。

無法對抗 AlphaGo 的 DeepZenGo 在眾多圍棋電腦中已是數一數二了, 如果不是“絕藝”橫空出世, 它仍會是這次 UEC 杯第一名。 但如果連 DeepZenGo 也很難跟上 AlphaGo 的腳步, 那身後更多 AI 小選手只能面臨淘汰。

如同任一種尖端技術, 並非所有人都能跟隨“潮流”而獲利, 除了幾位掌握核心技術的佼佼者能推動浪潮, 更多追隨者面臨的還是被浪潮吞沒。有傳聞說這屆的 UEC 杯就是最後一屆比賽了,大概也是因為這樣的競爭沒多少意義了。

小玩家被淘汰,大玩家會繼續競爭嗎?也不見得,據說 AlphaGo 會在今年 4 月再和號稱目前最強的中國選手柯潔對戰,贏了便會結束征戰圍棋界,享受無敵的寂寞,然後將精力放在其他技術上,比如去年 11 月開始在電腦遊戲《星海爭霸》的嘗試。最後,遊戲公司出身的 DeepZenGo,可能還是會先保住平民級遊戲戰場,和群眾打成一片,這未嘗不是一條好出路。

更多追隨者面臨的還是被浪潮吞沒。有傳聞說這屆的 UEC 杯就是最後一屆比賽了,大概也是因為這樣的競爭沒多少意義了。

小玩家被淘汰,大玩家會繼續競爭嗎?也不見得,據說 AlphaGo 會在今年 4 月再和號稱目前最強的中國選手柯潔對戰,贏了便會結束征戰圍棋界,享受無敵的寂寞,然後將精力放在其他技術上,比如去年 11 月開始在電腦遊戲《星海爭霸》的嘗試。最後,遊戲公司出身的 DeepZenGo,可能還是會先保住平民級遊戲戰場,和群眾打成一片,這未嘗不是一條好出路。

Next Article
喜欢就按个赞吧!!!
点击关闭提示