-
陳經(jīng):AlphaGo升級成Master后的算法框架分析
關(guān)鍵字: 圍棋AlphaGoMaster算法框架即使這樣,V18在實戰(zhàn)中也表現(xiàn)出了明顯缺陷,輸給李世石一局,也出了一些局部計算錯誤。如果與國際象棋AI的表現(xiàn)對比,對人并不能說有優(yōu)勢,而是各有所長。人類高手熟悉這類圍棋AI的特點后,勝率會上升,正如對騰訊AI刑天與絕藝的表現(xiàn)。
ZEN、刑天、AlphaGo版本V18共同的特點是大局觀很好。連ZEN的大局觀都超過一些不太注意大局的職業(yè)棋手,但是戰(zhàn)斗力不足。這是MCTS海量模擬至終局精確數(shù)目帶來的優(yōu)勢,對于地塊的價值估計比人要準(zhǔn)。它們共同的弱點也是局部戰(zhàn)斗中會出問題,死活搞不清,棋力高的問題少點。這雖然出乎職業(yè)棋手的預(yù)料,從算法角度看是自然的。海量終局模擬能體現(xiàn)虛虛的大局觀,但是這類圍棋AI的“搜索能力”仍然是不足的,局面評估函數(shù)水平不高,搜索能力就不足,或者看似搜得深但有漏洞。正是因為搜索能力不足,才需要用MCTS來主打。
但是AlphaGo的價值網(wǎng)絡(luò)是一個非常重要而且有巨大潛力的技術(shù)。它的革命性在于,用機器學(xué)習(xí)的辦法去解決局面評估函數(shù)問題,避免了開發(fā)者自己去寫難度極大甚至是不可能寫出來的高水平圍棋局面評估函數(shù)。國際象棋開發(fā)者可以把評估思想寫進代碼里,圍棋是不可能的,過去的經(jīng)驗已經(jīng)證明了這一點。機器學(xué)習(xí)的優(yōu)點是,把人類說不清楚的復(fù)雜邏輯放在多達幾百M的多層神經(jīng)網(wǎng)絡(luò)系數(shù)里,通過海量的大數(shù)據(jù)把這些系數(shù)訓(xùn)練出來。
給定一個圍棋局面,誰占優(yōu)是有確定答案的,高手也能講出一些道理,有內(nèi)在的邏輯。這是一個標(biāo)準(zhǔn)的人工智能監(jiān)督學(xué)習(xí)問題,它的難度在于,由于深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜系數(shù)極多,需要的訓(xùn)練樣本數(shù)量極大,而高水平圍棋對局的數(shù)據(jù)更加難于獲取。Deepmind是通過機器自我對局,積累了2000萬局高質(zhì)量對局作為訓(xùn)練樣本,這個投入是海量的,如果機器數(shù)量不多可能要幾百年時間,短期生成這么多棋局動用的服務(wù)器多達十幾萬臺。但如果真的有了這個條件,那么研究就是開放的,怎么準(zhǔn)備海量樣本,如何構(gòu)建價值網(wǎng)絡(luò)的多層神經(jīng)網(wǎng)絡(luò),如何訓(xùn)練提升評估質(zhì)量,可以去想辦法。
AlphaGo團隊算法負責(zé)人David Silver在2016年中的一次學(xué)術(shù)報告會上說,團隊又取得了巨大進步,新版本可以讓V18四個子了,主要是價值網(wǎng)絡(luò)取得了巨大進步。這是非常重要的信息。
V25能讓V18四個子,如果V18相當(dāng)于人類最高水平的棋手,這是不可想象的。根據(jù)Master對人類60局棋來看,讓四子是絕對不可能的,讓二子人類高手們都有信心。我猜測,V18是和V25下快棋才四個子還輸?shù)摹lphaGo的訓(xùn)練與評估流水線中,機器自我對局是下快棋,每步5秒這樣。2016年9月還公布了三局自我對局棋譜,就是這樣下出來的。V18的快棋能力差,V25在價值網(wǎng)絡(luò)取得巨大進步能力后,搜索能力上升極大,只要幾秒的時間,搜索質(zhì)量就足夠了。為什么價值網(wǎng)絡(luò)的巨大進步帶來的好處這么大?
如果有了一個比V18要靠譜得多的價值網(wǎng)絡(luò),就等于初步解決了局面評估函數(shù)問題。這樣,AlphaGo新的prototype就更接近于傳統(tǒng)的以局面評估為核心的搜索框架,帶有確定性質(zhì)的搜索就成為算法能力的主要力量,碰運氣的MCTS不用主打了。因此,V25對人類高手的實戰(zhàn)表現(xiàn),可以與高水平國際象棋AI相當(dāng)了。
我可以肯定V25的搜索框架會給價值網(wǎng)絡(luò)一個很高的權(quán)重(如0.9),只給走子至終局?jǐn)?shù)子很低的權(quán)重。如果局面平穩(wěn)雙方展開圈地運動,那么各局面的價值網(wǎng)絡(luò)分值差不多,MCTS模擬至終局的大局觀會起作用。如果發(fā)生局部戰(zhàn)斗,那么價值網(wǎng)絡(luò)就會起到主導(dǎo)作用,對戰(zhàn)斗分枝的多個選擇,價值網(wǎng)絡(luò)都迅速給出明快的判斷,通過較為完整的搜索展開,象國際象棋AI一樣論證出人類棋手看不懂的“AI棋”。
上圖為Master執(zhí)白對陳耀燁。在黑子力占優(yōu)的左上方,白20掛入,黑21尖頂奪白根據(jù)地意圖整體攻擊,白22飛靈活轉(zhuǎn)身是常型,23團準(zhǔn)備切斷白,這時Master忽然在24位靠黑一子。Master比起之前的版本V18,感覺行棋要積極一些,對人類棋手的考驗也更多。可以想見這里黑內(nèi)扳外扳兩邊長脫先各種應(yīng)法很多,并不是很容易判斷。
-
本文僅代表作者個人觀點。
- 請支持獨立網(wǎng)站,轉(zhuǎn)發(fā)請注明本文鏈接:
- 責(zé)任編輯:武守哲
-
“中國在非洲真正贏得了民心,就連斯威士蘭…” 評論 75最新聞 Hot
-
“中國在非洲真正贏得了民心,就連斯威士蘭…”
-
“日企抱團是絕望之舉,中國工廠效率質(zhì)量都是第一”
-
“中國有能力讓夢想照進現(xiàn)實,將贏得史詩般競爭”
-
被災(zāi)民暴罵到當(dāng)場破防,馬克龍發(fā)飆:你該慶幸你在法國!
-
美高校敦促國際學(xué)生抓緊回來:萬一把中印拉黑名單呢
-
美國政府“逃過一劫”
-
“澤連斯基要求歐盟新外長:對華批評要降調(diào)”
-
澳大利亞來了,中國就得走人?澳總理這么回應(yīng)
-
美媒感慨:基建狂魔發(fā)力,我們又要被超越了
-
英國剛公布新任大使,特朗普顧問就痛罵:傻X
-
“來自中國的老大哥能確保我們…”
-
俄羅斯的報復(fù)來了
-
澤連斯基罵普京“傻子”,俄方怒斥
-
還在扯皮中國,“涉華條款全刪了”
-
中國“光伏OPEC”發(fā)文嚴(yán)厲質(zhì)問央企,怎么回事?
-
“最后一道貿(mào)易障礙,中國解除了!”
-