AlphaGo的個性？DeepZenGo的個性？——圍棋AI也有個性（上）

原址：http://diamond.jp/articles/-/143229

原題：囲碁AIにも「個性」があった！プロ棋士が対局して発見

摘自：Diamond Online

穀歌公司的AlphaGo在和人類最強棋手的對決中獲得3連勝。圍棋界對這場提前10年到來的完敗表示十分震驚。

AI的勝利對圍棋界有何影響，而人類今後和AI該如何面對。大橋拓文六段將描述AlphaGo橫空出世之後，對圍棋界的影響以及現狀。

我在7月10日寫的一篇報導《圍棋AI為什麼這麼強，強在哪裡，大橋拓文六段給你答案（上）》上面介紹了，在AlphaGo之後相繼開發出了各種圍棋AI。而我作為職業棋手，有幸和這些AI進行了實戰對局，研究他們的對弈棋譜，並且用在了自己的對局裡面。隨著自己對AI的深入研究，我也感受到了圍棋AI各自的個性都是如何的。所以我想把這樣一個“神奇”的東西分享給大家。

圍棋AI三足鼎立，相互競爭

自從2016年AlphaGo戰勝了職業頂尖棋手以來，其他圍棋AI也採用了深度學習（Deep Learning）這項技術進行研究。與此同時圍棋AI的世界大賽也隨之開始召開，

吸引了世界上的各大企業以及開發者參加比賽。其中湧現出了最強的三款AI，他們是AlphaGo，以及中日兩國的圍棋AI。

圍棋AI國家開發團隊實力AlphaGo英國DeepMind（穀歌旗下）

對世界頂尖棋手三連勝

在非正式比賽60連勝

DeepZenGo日本DeepZenGo項目團隊今年8月“中信證券杯”圍棋AI大會上奪冠，對職業棋手勝率95%以上絕藝中國騰訊今年3月“UEC杯”圍棋AI大會上奪冠，對職業頂尖棋手勝率90%以上

在AlphaGo如彗星般橫空出世之前，日本圍棋軟體DeepZenGo的前身Zen是當時世界頂尖的圍棋AI。在AlphaGo出現之前，幾乎所有圍棋AI都採用“蒙特卡洛演算法”來提高自己的水準。

“蒙特卡洛演算法”大致就是，讓AI自己隨機擺出變化圖，然後從中選出勝率最高的一手棋作為自己的下一手棋。這個技術雖然無法對將棋或者國際象棋這類可能在幾手後就可以結束對局的棋類上使用。

但是蒙特卡洛演算法可以在只要下到19*19=361手就必然可以終局的圍棋上使用。 Zen採用蒙特卡洛演算法已經達到了日本的業餘6段實力，現在隨著深度學習技術的引用，在一年多的時間內達到了職業頂尖棋手的水準。

“絕藝”是中國的一家IT企業騰訊公司開發的圍棋AI，他們僅用了不到1年的時間，就把一無所知的軟體成長到了擊敗職業棋手的水準。另外絕藝的開發團隊裡面沒有一個人是會下圍棋的，這一點讓我非常震驚。

絕藝是自從AlphaGo的論文發佈之後才開始開發的，而這也是絕藝的一大優勢。而DeepZenGo還是被叫做Zen的時候，就使用了蒙特卡洛演算法，經過一次又一次的改良來提升自己的實力，

在和深度學習技術進行融合的時候花了一點時間。我們因此也瞭解到，技術手段的增加並不一定能提高圍棋AI的實力。

AlphaGo和DeepZenGo各自的3種個性

前段時間，我有幸在一家網路直播上解說AlphaGo左右互搏的對局。通過DeepZenGo對局面的分析，也見識到了DeepZenGo的內部分析。兩款AI對局面的不同觀點，讓他們分析我們人類看不懂的局面之時， AlphaGo和DeepZenGo都展現出了各自不同的個性，我從中瞭解到了他們的三個特點。

其一是，從學習人類棋譜受到了多少影響。就像我上一次介紹AlphaGo喜歡在佈局階段就點三三，而DeepZenGo就不在這個時候點三三。 AlphaGo的點三三在人類棋譜裡也很難找到，可以說純粹是AlphaGo獨創的下法。而DeepZenGo喜歡從人類棋手的招法中，

選擇最好的一手棋。

AlphaGo喜歡在佈局階段採用例如黑1點三三的下法

其二是， AlphaGo和DeepZenGo的大局觀非常相似。大局觀就是在對局過程中，可以掌控全域的一種戰術。每當AlphaGo沒有下出點三三的時候，他對全域的掌控以及戰略方針基本上是一致的。

其三是，他們在持久戰上體現出技術上的差距。就像剛才我們所說的，關係到一盤棋方向上的問題上，AlphaGo和DeepZenGo有很多相同之處。但是在一堆棋子糾纏在一起，局面異常複雜之時，雙方在戰術和技術上有很大的不同。DeepZenGo喜歡朝著自己的目標一路走到底，而AlphaGo喜歡把局面搞得更複雜，逼迫對手下出自己希望看到的一手棋。

體會到了兩者的不同之處之後，我也得到了和圍棋AI進行對局的機會。

***明日繼續***

就像剛才我們所說的，關係到一盤棋方向上的問題上，AlphaGo和DeepZenGo有很多相同之處。但是在一堆棋子糾纏在一起，局面異常複雜之時，雙方在戰術和技術上有很大的不同。DeepZenGo喜歡朝著自己的目標一路走到底，而AlphaGo喜歡把局面搞得更複雜，逼迫對手下出自己希望看到的一手棋。

體會到了兩者的不同之處之後，我也得到了和圍棋AI進行對局的機會。

***明日繼續***