-
陳經:AlphaGo升級成Master后的算法框架分析
關鍵字: 圍棋AlphaGoMaster算法框架現在職業棋手與AlphaGo團隊的棋藝競爭態勢可能是這樣的。AlphaGo不再靠MCTS主導搜索改而以價值網絡主打,思考時間大大縮短,在10秒以內就達到了極高棋力,之后時間再長棋力增長也并不多。棋力主要是由價值網絡的質量決定的,堆積服務器增加搜索時間對搜索深度廣度意義并不太大。所以Master已經較充分的展示了實力,并不是說還有棋力強大很多的版本。這和國際象棋AI類似,兩個高水平AI短時間就能大戰100局,并不需要人類那么長的思考時間。
Master的60局快棋擊中了人類棋藝的弱點,它極為自信地主動發起挑戰敢于導入復雜局面,而人類高手卻沒有能力在30秒內完善應對這些不太熟悉的新手。而這些新手并不是簡單的新型,背后有Master的價值網絡支持的龐大搜索樹。如果價值網絡的這些估值是準確的,人類高手即使完美應對,也只能是不吃虧,犯錯就會被占便宜。有些局面下,價值網絡的估計會有誤差,這時人類高手有懲罰Master的機會,但需要充足的時間思考,也要有足夠的自信與Master的判斷進行較量。這次60局中棋手由于用時太短心態失衡很少做到,一般還是會吃虧。
以下是我對柯潔與AlphaGo的人機大戰的建議:
1. 要對機器有足夠了解,不要盲目猜測??梢院唵蔚睦斫?,它接近一個以價值網絡為基礎的傳統搜索程序。
2. 要相信機器并不完美。如果它的局面評估函數沒有錯誤了,或者遠遠超過人,那就和國際象棋AI一樣不可戰勝了。但圍棋足夠復雜,即使是幾千萬局的深度學習,也不可能訓練出特別好的價值網絡,一定會有漏洞與誤差。只是因為人的局面評估也不是太好,才顯得機器很厲害。
3. 這次機器會堅定而自信地出手,它改變了風格,在局面仍然膠著的時候不會回避復雜變化。因為它的搜索深度廣度增加了,它認為自己算清了,堅定出手維護自己的判斷,甚至會主動撲劫造劫。
4. 機器的退讓是在勝定的情況下,它認為反正是100%獲勝了,就隨機選了一手。后半盤出現這種情況不用太費勁去思考了,應該保留體力迅速下完,下一局再戰斗。
5. 機器的大局觀仍然會很好,基于多次模擬數空,對于虛空的估計從原理上就比人強,這方面人要頂住但不能指望靠此獲勝。還是應該在復雜局部中與機器進行戰斗,利用機器價值網絡的估值失誤,以人對局面估計的自信與機器的自信進行比拼。機器是自信的,人類也必須自信。也許機器評估正確的概率更大,但是既然都不完美,人類也可能在一些局面判斷更為正確。
6. 機器對稍復雜戰斗局面的評估是有龐大搜索樹支持的,并不會發生簡單的漏算,不應該指望找到簡單的手段給機器毀滅性打擊。由于人類的思考速度慢,時間有限,不能進行太全面的思考。應該集中思考自己判斷不錯的局面,圍繞它進行論證。如果這個判斷正好是人類正確、機器錯誤,那人是有機會占優的。
通過以上分析,我對人機大戰柯潔勝出一局甚至更多局還是抱有一定期望的。希望柯潔能夠總結分析圍棋AI的技術特點,增加自信,針鋒相對采取正確的戰略,捍衛人類的圍棋價值觀。
本文系觀察者網獨家稿件,文章內容純屬作者個人觀點,不代表平臺觀點,未經授權,不得轉載,否則將追究法律責任。關注觀察者網微信guanchacn,每日閱讀趣味文章。
-
本文僅代表作者個人觀點。
- 請支持獨立網站,轉發請注明本文鏈接:
- 責任編輯:武守哲
-
“中國在非洲真正贏得了民心,就連斯威士蘭…” 評論 70“日企抱團是絕望之舉,中國工廠效率質量都是第一” 評論 113“她下月訪華,盡管特朗普團隊表達了擔憂” 評論 53“中國有能力讓夢想照進現實,將贏得史詩般競爭” 評論 120最新聞 Hot
-
“中國在非洲真正贏得了民心,就連斯威士蘭…”
-
“日企抱團是絕望之舉,中國工廠效率質量都是第一”
-
“中國有能力讓夢想照進現實,將贏得史詩般競爭”
-
被災民暴罵到當場破防,馬克龍發飆:你該慶幸你在法國!
-
美高校敦促國際學生抓緊回來:萬一把中印拉黑名單呢
-
美國政府“逃過一劫”
-
“澤連斯基要求歐盟新外長:對華批評要降調”
-
澳大利亞來了,中國就得走人?澳總理這么回應
-
美媒感慨:基建狂魔發力,我們又要被超越了
-
英國剛公布新任大使,特朗普顧問就痛罵:傻X
-
“來自中國的老大哥能確保我們…”
-
俄羅斯的報復來了
-
澤連斯基罵普京“傻子”,俄方怒斥
-
還在扯皮中國,“涉華條款全刪了”
-
中國“光伏OPEC”發文嚴厲質問央企,怎么回事?
-
“最后一道貿易障礙,中國解除了!”
-