-
李德毅院士談人工智能:二十二次說到“記憶”這個詞
關鍵字: 人工智能圍棋AlphaGo自動駕駛深度學習人腦認知弱智能【AlphaGo戰(zhàn)勝李世石,靠的是窮舉的計算能力?不,是靠“深度學習”了一天就能下300萬盤棋積累下的經(jīng)驗。李德毅老師的團隊也正在以算法+大數(shù)據(jù)的思路,打造“主要靠經(jīng)驗”的人工智能“老司機”。他在4月22日的全球人工智能技術大會所作的《人工智能在奔跑》演講,二十二次說到“記憶”這個詞。】
各位同行,我很高興下午做第一個發(fā)言。我的題目有點大,叫人工智能在奔跑。因為人工智能經(jīng)過60年的歷練已經(jīng)到了可以奔跑的時候了,我想講三個問題。先講講圍棋腦,然后再講講智能車駕駛腦,然后再講講決策腦,作為人腦最重要的部分怎么做決策。
先講講圍棋,圍棋其實是中國的文化遺產(chǎn),中國的圍棋在全世界很有名。就跟中國的乒乓球一樣有名,但乒乓球是舶來品,圍棋是我們中國人的。現(xiàn)在圍棋最好的是中日韓。圍棋是誰把誰圍住了誰就贏,所以我出了一個題目,叫做形象思維的自動化。下象棋大家都知道主要是吃子,有大小之分。圍棋就不一樣了,圍棋的子沒有大小之分,象棋是八分八的棋盤。我想特別回顧一下歷史,在2011年9月6號,我們中國人工智能學會組織了九路圍棋,81個格子,讓北郵的圍棋程序Lingo對俞斌,讓俞斌讓兩個子給Lingo,他說不好贏。在2011年的時候包括中央電視臺也播了,俞斌是我們中國圍棋隊總教練,我們的圍棋在世界上可以說是穩(wěn)拿的,兩盤都敗給了Lingo,當時認為兩三年九路棋盤是有希望的。這是五年前的事情,只不過我們中國人工智能學會影響不那么大,全世界不一定都感知到了。
到了2016年3月9號,李世石下了19路圍棋,而且最后4:1輸了。為什么?難在哪里?圍棋難以鎖定下一個目標,具有更大的不確定性。我有一篇著作叫做“不確定性人工智能”。圍棋的不確定性比象棋大很多,象棋更注重邏輯思維,圍棋在某個狀態(tài)下應對的步驟比象棋多很多,既有邏輯思維也更注重形象思維,更大局觀。
我們看看在《自然》雜志上,20個作者寫了AlphaGo的程序,他們采取的辦法。這篇文章里提到一個特定的圍棋棋局,有很多的計算量和推理量。我們中國人有一句話叫做千古無同局,所以歷來把它認為是給人工智能一個挑戰(zhàn)的很好的里程碑。那么我們仔細分析一下,AlphaGo為什么贏?這是我今天要報告的重點。它突破了傳統(tǒng)的程序,構建了兩道模仿人類思維的深度卷積神經(jīng)網(wǎng)絡。第一個網(wǎng)絡主要擔當棋局態(tài)勢的評估,第二個網(wǎng)絡是如何落子,這是人機大戰(zhàn),如果你知道每一步怎么下的,你會得到一個結論,那就是沒有看到有天外來客下出不食人間煙火的套路。這句話告訴大家AlphaGo的學習能力很強,因為它是我們圍棋手教他的。
所以在全世界一片振動之后,我提出四個問題請大家思考一下。
第一個問題,如果讓AlphaGo或李世石再下一次復盤,讓李世石原來怎么下還怎么下,請問AlphaGo能不能復盤,能下出跟原來一樣的嗎?它是以不確定性為強的,能不能重復?這是第一個問題。
第二個問題,在比賽之前以及比賽之后,這個程序變了沒有?還是原來的程序嗎?我們手機壞了實在不行重新啟動,還是原來的。AlphaGo的程序還是原來的嗎?它跟李世石下了五盤棋學到了什么東西。
第三個問題,跟李世石下棋之前,AlphaGo跟別人下過,如果用相同的版本對比的話結局如何?還有沒有意義?能不能提高AlphaGo的水平。
第四個問題,讓AlphaGo從此以后不再跟高棋手下棋,AlphaGo的程序水平會不會降低?
我覺得這幾個問題可以讓我們?nèi)斯ぶ悄芄ぷ髡呱晕⒍嘞胍幌隆F鋵嵲谖覀冄劾锢钍朗皇浅洚斄艘淮稳斯ぶ悄馨l(fā)展成果的測試員而已,他對我們來說只是我們測程序的一次科學實驗而已,是一個人與一群人的對決,包括棋類高手又包括人工智能高手。你們看deepmind的作者,他們不但是人工智能高手,也是圍棋高手,是兩個領域的能人,這個不容易的。所以我們經(jīng)常講什么叫人機大戰(zhàn),人機大戰(zhàn)實際上是人在前面機器在后面,或機器在前面人在后面的一場對決而已。因此從統(tǒng)計學上來看人機大戰(zhàn)總的結局應該是5:5。
下面講AlphaGo程序還有很多的不足,比如說它下棋的時候還要有一個助理員拿棋子,它的手還沒做出來,它沒有眼睛,沒有感受和行為能力。這個機器人一定要有它的感知能力、有行為能力,而它只有思考能力是不夠的。再一個AlphaGo程序目前還沒有情緒、沒有情感,不能現(xiàn)場分析對手的心理狀態(tài),跟誰下都是一回事,不能夠現(xiàn)場和對手展開心理戰(zhàn),缺少交互認知的能力。我想兩條AlphaGo程序的作者也一定會同意的。
AlphaGo對戰(zhàn)李世石
AlphaGo的成功用了深度卷積神經(jīng)網(wǎng)絡,但是這個卷積神經(jīng)網(wǎng)絡有四個毛病。
第一,有太多的學習參數(shù),就是今天上午各位講的權重系數(shù),這些系數(shù)的確定具有隨意性。包括有多少個卷積和,怎么卷,怎么下載,這里面隨意性太大。所以我們發(fā)現(xiàn)他們發(fā)表的文章我們做的時候恢復不了,文章主要的東西沒寫進去。
第二,你在學習的過程當中不能進行你的數(shù)據(jù)樣本很大,就能保證算法是正確的,這個事情很糟糕。
第三,現(xiàn)在用的卷積神經(jīng)網(wǎng)絡更多的還是前面的,這是跟人類學習不一樣的。
第四,現(xiàn)在用的對樣本的學習是沒有累積性的,我們?nèi)耸怯欣鄯e性的。
因此這四個缺陷是我們?nèi)斯ぶ悄芤朕k法努力克服的。我個人認為深度學習不管是卷積神經(jīng)網(wǎng)絡還是其他的神經(jīng)網(wǎng)絡學習方法,都不能是人工智能的終結者。尤其重要的是我們看到的人都是個性的,而AlphaGo程序目前還沒有定位為個性的,我們需要的張三李四,世界上并不存在一個人類,人類是我們?nèi)说目偡Q而已。
下面第二個議題,駕駛腦。因為圍棋實際上在我看來應該是個圍住和不圍住的問題,在統(tǒng)計學里面是拓撲學的問題,充其量AlphaGo是拓撲學動力學的問題,如果把這個問題引入到其他領域要很復雜。比如說開車需要駕駛認知,汽車發(fā)明130多年了,走的正好是跟圍棋相反的道路。先走的是行為能力,不管什么時候這個汽車都要能跑,這個很重要,這是汽車工業(yè)的驕傲。我們做了幾百輛車還覺得太少,你能跑惡劣環(huán)境嗎?所以在汽車上配置感知零部件,實現(xiàn)自動駕駛,是在車輛動力學和人工智能成立的基礎上。現(xiàn)在我們做自動駕駛,我們覺得自動還不行,當你買了這個自動駕駛車回來之后,我會告訴你,你會不滿意的,因為它時不時就說對不起,你請你轉入人工駕駛。這次長安的車很多都要人工干預,這里面缺少了一個問題,光感知是不夠的,一定要有認知腦。因此和圍棋腦相反,我們現(xiàn)在走的是現(xiàn)有行為能力,感知能力,目前汽車還需要有認知能力,那就變成了機器人。我們現(xiàn)在希望做一個機器人,是汽車上比較集中的目標。說得再挑戰(zhàn)一點,我們希望做一個飆車機器人,假如飆車機器人跑的比人類快,那就更加全面了,就不單是腦子的問題,還有感知和認知的問題了。
現(xiàn)在智能駕駛系統(tǒng)很煩惱,因為是離線輔助駕駛。我寫了一個報告,叫最后的繁榮和轉型之路。因為你做了那么多的中控設備,顯示設備,將來汽車要自己會自駕駛了,這個行業(yè),這個工業(yè)怎么辦?轉向自動駕駛。但是我剛才講了目前的自動駕駛是局部時段,局部區(qū)域,能滿足駕駛的范圍很小。自駕駛說得更多一點是無人駕駛,或者自助駕駛。我們昨天科技部進行了重要的答辯,用了以人為本的人機系統(tǒng)共享,不是單純的由人駕駛,也不是單純的由馬駕駛,而是共同的協(xié)調(diào)駕駛。
既然需要一個駕駛腦,我們就要考慮人腦有哪些功能,需要駕駛腦來承擔。我們認為記憶一點不亞于計算,尤其是長期記憶、短期記憶,或者瞬間記憶,這個形態(tài)是不一樣的,數(shù)據(jù)量也是不同的。現(xiàn)在所有廠家做的圖像識別,基本上還是在瞬間記憶階段。我們這個課題組不一樣,我們把它做到行政化后面去了,這就是我們的特長。
把人腦中動機、學習和思維、性格、記憶,都用機器來實現(xiàn),就可以做一個機器的駕駛腦。情緒注意力不集中就不要進來了,我們希望個性化還是要進來的。這樣的情況下我們有了思想,既能有感知信息,把感知信息合并到一起大概三大類。第一塊是路網(wǎng)文件,精確到10厘米左右。第二個是雷達通道,航天雷達、超聲雷達,都叫雷道通道,也是個千里眼。再一個就是攝像頭。這三個通道就好像人的感知器官一樣,很重要,但是哪一路都有不完善的地方。它們都在完成定位、路權檢測和導航的能力。定位就是我在什么地方,路權檢測就是周圍有什么,導航就是下一步怎么走。定位里面最重要的就是同步定位和映射,這個要做得好智能駕駛就好了,現(xiàn)在最難的就是這塊。周圍有什么我們用我們的行政化的方法,此時此刻我周圍多大的空間是我可以使用的。下一步怎么做就是方向盤了。
我們的課題組不僅做前面的視覺的感知深度神經(jīng)網(wǎng)絡學習,我們把這些叫做先視后覺。尤其要感興趣的是視而不覺,邊視邊覺和先覺后視。我多次講駕駛腦對路邊的美女是不用看的,我們強調(diào)要記住當前的感知,已有的認知對當前的感知起重要的作用。因此我們在駕駛腦里面有視圖儀表,通過長期的記憶,工作記憶和瞬間記憶,來記憶不同時間了解交通的信息,最后形成一個動作的執(zhí)行,這就是我們說的感知、認知、行動,再感知、再認知,再行動。
自動駕駛的未來圖景
其實跟下圍棋相比,駕駛活動更多的是技巧,是記憶或經(jīng)驗。而不是知識、推理和計算。駕駛腦的差異反映個人智力和運動能力的差異,一個孩子從小就看得出他有沒有跳芭蕾舞的天賦,其實開車有是大同小異的。為什么兩口子開到最后發(fā)現(xiàn)一個人更會開,他的小腦比另外一個人要發(fā)達一點。
-
本文僅代表作者個人觀點。
- 責任編輯:鐘曉雯
-
“臺積電答應美方要求,急于向特朗普證明…” 評論 15“中國提議交換樣本,美方至今沒吭聲” 評論 447“他,殺死了美國司法” 評論 223五角大樓“緊張”:一旦他下這種命令,該如何應對? 評論 200最新聞 Hot