-
陳經:被圍棋AI橫掃后,職業棋手應該如何提高水平?
關鍵字: 圍棋AI柯潔MasterAlphaGo谷歌人工智能價值網絡算法【文/ 觀察者網專欄作者 陳經】
2016到2017歲末年初的三天假期,棋迷們驚喜地發現圍棋對弈網站出現了好幾個高水平圍棋AI。
在弈城上像勞模一樣一直猛下的是日本的DEEPZEN,至2017年1月3日五天時間已經下了超過200盤,輸了20盤。之前DEEPZEN在高手不多的KGS圍棋網上也是這么猛下,人們已經熟悉了它的風格。DEEPZEN在弈城的戰績并不出人意料,甚至有點令人失望。雖然它勝多負少,但主要是勝不帶P標志的業余棋手,對職業棋手輸得多,還沒有世界冠軍級棋手出手測試。
另一個一上線就引發關注的是騰訊野狐圍棋的“刑天”。騰訊在2016年11月上線的AI“絕藝”在一個月中已經打出了不小的名氣,勝了柯潔一盤,5:1勝樸廷桓。這讓人們對國產AI有了信心,騰訊也報名了2017年3月在日本舉辦的AI圍棋世界錦標賽。但是高手們似乎摸清了絕藝的路數找到了對付它的辦法,柯潔對絕藝的戰績是3:1,不少職業高手都戰勝過它,絕藝出過一些明顯的bug。因此從11月底,絕藝再沒下過棋,下線研發升級去了。
一個月后,2016年12月27日,升級版本“刑天”又上線開始下棋。這次升級應該有進步,對柯潔戰成5:2,對樸廷桓4:1。但不能說有本質進步,柯潔明顯找到了對付它的辦法,幾次吃死它的大龍,刑天死活還是有問題。這些測試棋全部是20秒或30秒一手的快棋,刑天對世界冠軍級高手們的勝利,很大程度是高手們因為時間壓力出現錯誤,如柯潔有一盤已經殺死了刑天的大龍絕對優勢,后面不小心輸回去了。騰訊開發的AI水平已經很高了,職業棋手感覺它的實力和2016年3月與李世石對戰的AlphaGo版本V18相當。職業棋手們已經找到了刑天的漏洞,對它有辦法了不會太怕。
上圖是2016年12月30日柯潔第一次對陣勝刑天,就執黑大勝。本局柯潔早早就吃掉刑天棋盤右邊的一條大龍,最后三招柯潔連下三個單長走起了五子棋,估計是人類操作員手動替刑天認輸了。AI如果走出這樣的棋,即使一時對人類高手勝多負少,棋手們也不會怕。
這時弈城網站上的Master在2016年12月29日也開始下棋了,一開始并不引人關注,開始10多局勝的并不是世界冠軍級棋手。隨著12月30日Master對排名第一第二的柯潔與樸廷桓各勝2局取得20連勝,終于引起了關注。棋迷與棋手并不是太吃驚,因為之前絕藝與刑天也有這樣的驚艷表現,而且Master下的是20秒的快棋,20秒時間太短高手容易犯錯,30秒高手們會好多了。
棋迷們喜大普奔,這么多高水平的AI同時在對弈網站上,AlphaGo的論文養出了一堆狗仔,“群狗鬧新年”太有意思了。接下來職業棋手和棋迷們自然的預期是,隨著每手時間提升至30秒,高手們耐心琢磨也找到Master的漏洞終于勝出,對它的預期和刑天差不多。
但事實證明,Master的水平比刑天要高得多。在弈城達成30連勝后,Master轉戰野狐,除1月1日新年休息了一天,保持每天10局的節奏。到2017年1月3日,Master達成了50連勝,對手中包括16位世界冠軍,三國水平最高的柯潔、樸廷桓、井山裕太都在其中。人類高手們排隊輪流上陣,不一會就倒下被門板抬走。人類一勝難求,甚至沒有出現過勝機。經常是一個局部就大為落后,Master早早領先10多目甚至20目以上,收官時再“讓”給人類一些目數送成4目半、2目半或者半目勝。
人類水平最高的棋手群體,在Master面前這樣漏洞百出,這讓一些職業棋手以及棋迷們有些難以接受。
Master的神秘身份
Master的身份顯然就是AlphaGo的升級版本,我斷定沒有其它可能。Master在弈城注冊為韓國職業棋手,這是因為AlphaGo勝了李世石后獲得了韓國棋院頒發的九段證書。1個月前在KGS天元開局虐殺DEEPZEN的GodMoves很可能也是AlphaGo,應該是放CPU與GPU較少的單機版到各網站測試。谷歌在11月宣稱AlphaGo取得了巨大進步,將于2017年初復出下棋。谷歌CEO還訪問了中國棋院,如果達成與柯潔的第二次人機大戰協議不奇怪。谷歌一向有簽保密協議的作風,但中國棋院要求谷歌放出單機版進行公開測試也正常。
谷歌對AlphaGo有信心了,放出來測試不怕被找到bug,主動或者應邀出來公測是自然的發展,時間也對得上。一個有趣的細節是,參與測試的棋手中,孟泰齡只獲得過一個國內冠軍,離世界冠軍們水平還差一點,但是他卻有機會與Master下了四盤棋。我猜測這是因為,Master和AlphaGo的“人肉機械臂”操作者都是谷歌論文的作者之一Aja Huang,他經常上WeiqiTV看孟泰齡的節目,是他的粉絲,因此多次邀請他與Master對局。
也有說Master可能是韓國研發的AI,這個可能性極低。圍棋AI的研發是有軌跡的,象騰訊這樣參照谷歌論文快速達到很高水平是可以理解的,但是也需要出來測試找到問題又回頭想辦法,不太可能悶頭研發一出來就天下無敵。而谷歌經過多個版本的升級,確實有這個實力。2016年中,Deepmind在學術報告上就宣稱后續版本能讓V18四個子了,又取得了巨大進步。
Master達成50連勝后并未終止下棋,1月4號上午又繼續開戰。如果是論勝負,由于Master只選擇30秒的快棋,對人類高手來說思考時間不足難以發揮最高水平。而Master固定地每8秒下一次,時間根本沒用完,這是機器天然的優勢。人類高手對戰時經常選擇20秒的讀秒,30秒算網棋中時間長的了,但基本是練習。現在對Master的挑戰已經帶上了悲壯色彩,比正式比賽氣氛還要激烈,野狐圍棋的創始人古力九段聲稱第一個戰勝Master的人獎金10萬元。
由于Master的棋力極高,又不走人類棋手習慣的套路,很多局面都需要強度極大的思考,30秒人類高手實在是不夠,會出不少漏洞。因此,如果還是30秒的棋局,Master的勝利會一直延續下去。有些讀秒功夫強的棋手號稱快慢棋水平差不多,但那是人與人在一些常見套路中對戰。而且讀秒功夫強是說后半盤收束,布局與前半盤如果出現新型,總是得停下來思考,10來分鐘都算短的,半小時或1小時以上的長考也常見。
上圖是1月3日柯潔與Master一個戰斗告一段落。柯潔花掉了兩次讀秒(一共就三次30秒)才在左上角的戰斗中頂住了。黑吃掉白四子目數不小,白也沒有安定,應該至少是不落后。后面Master也選擇了激烈的下法,柯潔只剩下一次30秒,應對不利輸掉了。在新型的戰斗中,其他棋手基本會被Master打垮。
因此,Master對人類最高水平棋手取得50連勝這個事實,不宜過于夸張。圍棋AI的算法特性是,搜索空間是指數增長的,幾十倍時長只是帶來搜索深度增加幾層,幾秒鐘與幾十分鐘的搜索可能棋力并無本質提升。增加時長更可能是用于MCTS的隨機模擬終局數量,模擬質量能上升一些。達到基本時長保證足夠的搜索深度與模擬的局面數量之后,再增加時間意義并不太大。
AlphaGo在分布式版本有1202個CPU和176個GPU,比“單機版”的48個CPU與8個GPU數多幾十倍,但是對單機版的勝率70%并沒有本質棋力提升。實戰證明,Master和刑天思考幾秒或者十幾秒就有基本的水平了。如果能夠戰勝“秒下”的AI版本,戰勝思考時間更長的版本沒有本質的困難。
而人類高手群體在這次Master翻牌式的點名測試中全敗,表現出了一些過去可能不太重視的弱點,值得好好總結分析。本文從圍棋棋藝與“棋機結合”的角度進行技術解讀。前面是新聞式的介紹,閱讀后面的內容就需要對圍棋技術與計算機算法有一定的了解。
-
本文僅代表作者個人觀點。
- 請支持獨立網站,轉發請注明本文鏈接:
- 責任編輯:武守哲
-
哈里斯放話:中國速度可不慢,美國不能干坐著 評論 111“明年特斯拉帶這個技術一來,就能看出中企誰是霸主” 評論 239我軍向太平洋發射洲際彈道導彈,現場圖公布 評論 701參加QUAD也加入金磚,“印度要邊走路邊嚼口香糖” 評論 302最新聞 Hot
-
哈里斯放話:中國速度可不慢,美國不能干坐著
-
日新澳軍艦過航臺海,海軍軍事專家:讓人感到軍國主義復活的危險
-
特朗普炮轟澤連斯基:烏克蘭都快亡了,你還來美國誹謗我
-
“明年特斯拉帶這個技術一來,就能看出中企誰是霸主”
-
美眾議院委員會著急:對華得想想辦法,不然就自掘墳墓
-
黎巴嫩10月航班增加、票價回落,開戰風險小了?
-
“如果美國不與阿聯酋合作,中國就會找上門”
-
澳國庫部長將訪華,“中方想要一個保證”
-
反華情緒蔓延,“美國方向錯了”
-
大眾:我們比不過中企,你們要犧牲
-
“去年中國拿下1500個新船訂單,美國才5個,想當年咱們…”
-
“澤連斯基,我要求你立即炒了她”
-
我軍向太平洋發射洲際彈道導彈,現場圖公布
-
開戰在即?真主黨“史無前例”動作,以軍緊急動員…
-
特魯多終于挺過了這波,但…
-
參加QUAD也加入金磚,“印度要邊走路邊嚼口香糖”
-