-
余亮:與谷歌翻譯小別勝新婚之后,看清中國(guó)人工智能到底和谷歌比什么
關(guān)鍵字: 谷歌翻譯人工智能翻譯軟件語(yǔ)音識(shí)別百度翻譯機(jī)器翻譯的進(jìn)化
翻譯,是“自然語(yǔ)言處理”的最重要分支,也是比較難的一支。人工智能在早期就是符號(hào)智能,人把各種規(guī)則變成符號(hào)算式輸入機(jī)器,結(jié)果深挖下去發(fā)現(xiàn)規(guī)則比恒河沙粒還多,累死了自己。
最早的機(jī)器翻譯方法就是基于詞和語(yǔ)法規(guī)則。注意,人類(lèi)并不了解大腦是如何工作的,但是依然工作得很好。反過(guò)來(lái),人類(lèi)自己語(yǔ)言熟練,不代表人能理解自己語(yǔ)言神經(jīng)是怎么運(yùn)作的。這就導(dǎo)致依賴(lài)人工規(guī)則的翻譯軟件笑話(huà)百出。即便現(xiàn)在,谷歌、百度也無(wú)法避免下面這樣的翻譯錯(cuò)誤:
(百度)
后來(lái)出現(xiàn)了“統(tǒng)計(jì)機(jī)器翻譯方法”(SMT),也就是通過(guò)對(duì)大量的平行語(yǔ)料進(jìn)行統(tǒng)計(jì)分析,找出常見(jiàn)的詞匯組合規(guī)則,避免奇怪的組合。
SMT翻譯短語(yǔ)效果好,但是翻譯句子就一般。近幾年基于神經(jīng)網(wǎng)絡(luò)的翻譯模型( NMT)崛起。 與AlphaGo的神經(jīng)網(wǎng)絡(luò)原理類(lèi)似,NMT模擬人腦神經(jīng)的層級(jí)結(jié)構(gòu),具有多層芯片網(wǎng)絡(luò),從基礎(chǔ)層開(kāi)始,越是基礎(chǔ)的層級(jí)就越是只處理局部的任務(wù),把提煉出的局部模式傳遞給下一層。下一層再對(duì)上一層接收來(lái)的信息進(jìn)行匯總和進(jìn)一步抽象,自動(dòng)識(shí)別出總體規(guī)則、模式。人不了解那些規(guī)則也沒(méi)關(guān)系,反正交給機(jī)器了,只要結(jié)果正確即可。這就是端到端的翻譯。
但是無(wú)論SMT還是NMT,前提是數(shù)據(jù)量要大。簡(jiǎn)單的說(shuō),規(guī)則都是用函數(shù)表示的。假定給你一個(gè)未知函數(shù)f(x),我告訴你當(dāng)x=5,f(x)=250,你能推導(dǎo)出函數(shù)式f(x)到底是什么嗎?顯然不能,可是如果給你100個(gè)x的具體值,及其對(duì)應(yīng)的f(x)的值,你就可以通過(guò)數(shù)學(xué)學(xué)科里的逼近計(jì)算或者擬合函數(shù)推導(dǎo)出一個(gè)近似的函數(shù)f(x)。如果讓機(jī)器去做這個(gè)推導(dǎo),那就叫做“機(jī)器學(xué)習(xí)”。吳恩達(dá)的著名項(xiàng)目機(jī)器識(shí)別貓,就是輸入了數(shù)百萬(wàn)貓的照片(x),告訴機(jī)器輸出結(jié)果是貓這個(gè)語(yǔ)詞,機(jī)器自己找到了圖像形狀到“貓”這個(gè)詞之間的推導(dǎo)規(guī)則。
(從無(wú)數(shù)散點(diǎn)數(shù)據(jù)中近似地?cái)M合出一條函數(shù)曲線(xiàn))
在翻譯界的常識(shí)是:機(jī)器翻譯是突然爆發(fā)的,原因在于互聯(lián)網(wǎng)帶來(lái)的大數(shù)據(jù)。前谷歌工程師吳軍在《智能時(shí)代》里說(shuō)過(guò),2005年,谷歌翻譯在美國(guó)翻譯界大賽上異軍突起,秒殺老牌翻譯公司,靠的就是更多的數(shù)據(jù)。因?yàn)楣雀栌谢ヂ?lián)網(wǎng),有網(wǎng)上人類(lèi)提供的海量翻譯例句。
十年后機(jī)器翻譯第二次爆發(fā)。百度和谷歌一前一后上線(xiàn)NMT神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)。相比SMT聚焦于局部信息(短語(yǔ)),NMT更擅長(zhǎng)利用全局信息——在對(duì)整個(gè)句子的信息解碼、編碼后,才生成結(jié)果。所以無(wú)論是語(yǔ)音識(shí)別還是翻譯,你會(huì)發(fā)現(xiàn)句子長(zhǎng)一點(diǎn),機(jī)器識(shí)別和翻譯的效果就會(huì)更好一點(diǎn)。
比如,語(yǔ)序問(wèn)題是“翻譯”頭疼的問(wèn)題,中文會(huì)把所有的定語(yǔ)都放在中心詞前面,英文則會(huì)倒裝,以往機(jī)器?;煜@個(gè)順序。 NMT通過(guò)基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),向人類(lèi)較好地學(xué)習(xí)到語(yǔ)序模式,長(zhǎng)句翻譯比以往流暢多了。
在谷歌和騰訊都工作過(guò)的吳軍,卻認(rèn)為在搜索、翻譯領(lǐng)域,排在前面的就是谷歌和百度,別人很難追上這倆。因?yàn)樗麄兌际撬阉饕嫫鸺?,先發(fā)優(yōu)勢(shì)明顯。誰(shuí)積累的數(shù)據(jù)多、算法訓(xùn)練成熟,誰(shuí)就贏者通吃。搜狗搜索技術(shù)不弱,且有微信搜索的優(yōu)勢(shì),但是搜索結(jié)果依然被人詬?。ㄉ踔帘辉嵅〉臋C(jī)會(huì)也比百度少得多),就是因?yàn)槠鸩酵?,吃了馬太效應(yīng)的虧。
為了優(yōu)化對(duì)人類(lèi)語(yǔ)言世界的理解,谷歌和百度都構(gòu)建了龐大的知識(shí)圖譜,知識(shí)點(diǎn)之間不斷生成的關(guān)系非后來(lái)者能追。
段子手的調(diào)侃也抓住了一些本質(zhì)——由于長(zhǎng)期被排除在中國(guó)市場(chǎng)之外,谷歌缺少中文數(shù)據(jù)。去年谷歌的“你畫(huà)我猜”游戲風(fēng)靡一時(shí),我看那其實(shí)就是一種數(shù)據(jù)采集和訓(xùn)練模式。你的每一次繪畫(huà)和判定都是在教育谷歌的圖像識(shí)別系統(tǒng)更精準(zhǔn)。谷歌善于用喜聞樂(lè)見(jiàn)方式,既做到PR也做到技術(shù)提升。
谷歌翻譯進(jìn)入大陸,以后用的人越多,它的段子也可能翻譯越準(zhǔn),所以比段子沒(méi)什么好得意的。人類(lèi)之間存在文化壁壘,但是對(duì)于沒(méi)文化的機(jī)器,一切壁壘都會(huì)擊穿,或者說(shuō)一切文化它都能學(xué)會(huì),從推特上的種族歧視言論到中國(guó)的神段子。真正要比拼的只有技術(shù)深度和產(chǎn)品體驗(yàn)的積累。
很多人歡呼谷歌翻譯歸來(lái),不一定是關(guān)心技術(shù),那意思“翻譯”出來(lái)就是:谷歌終于回來(lái)了,我當(dāng)年的香沒(méi)有白燒。
僅從技術(shù)角度來(lái)講,我說(shuō)一切都是翻譯。語(yǔ)音識(shí)別也是一種翻譯(從聲音信號(hào)翻譯到文字符號(hào),或者從一種發(fā)音翻譯到另一種發(fā)音)。機(jī)器人的文藝世界也離不開(kāi)翻譯。英特爾、百度等公司都推出過(guò)機(jī)器寫(xiě)詩(shī)游戲,經(jīng)常真假難辨。試分辨下面兩首詩(shī)哪一首是人寫(xiě)的:
(答案在文章最后)
聽(tīng)王海峰介紹過(guò)機(jī)器寫(xiě)詩(shī)的原理。出乎很多人的意料,這個(gè)寫(xiě)詩(shī)系統(tǒng)正是用翻譯模型來(lái)做的。在系統(tǒng)看來(lái),當(dāng)已經(jīng)有了第一句詩(shī),那么寫(xiě)作第二句詩(shī)的過(guò)程就是一個(gè)翻譯過(guò)程——根據(jù)第一句尋找合適的對(duì)應(yīng)語(yǔ)句:
首先根據(jù)用戶(hù) Query(詩(shī)歌題目)對(duì)要生成詩(shī)歌的內(nèi)容進(jìn)行規(guī)劃,預(yù)測(cè)得到每一句詩(shī)的子主題,每一個(gè)子主題用一個(gè)單詞來(lái)表示。這個(gè)過(guò)程和人類(lèi)創(chuàng)作詩(shī)歌比較相似,詩(shī)人在創(chuàng)作之前往往會(huì)列出提綱,規(guī)劃出每一句詩(shī)要描寫(xiě)的核心內(nèi)容,然后再進(jìn)行每句詩(shī)的創(chuàng)作。主題規(guī)劃模型在生成每一句詩(shī)的時(shí)候,同時(shí)把上文生成的詩(shī)句和主題詞一起輸入來(lái)生成下一句詩(shī)。在這里,主題詞的引入可以讓生成的詩(shī)句不偏離主題,從而使整首詩(shī)都做到主題明確,邏輯順暢。
基于主題規(guī)劃的詩(shī)歌生成框架(寫(xiě)詩(shī) 2.0 版本)如圖所示:
圖:寫(xiě)詩(shī) 2.0 框架(來(lái)源于論文 Wang et al. 2016),有興趣讀者可以參考“機(jī)器之心”上這篇有趣文章 ,另外我不同意詩(shī)人寫(xiě)詩(shī)是先給每一句列提綱的。
翻譯技術(shù)無(wú)處不在,這樣我們才能從技術(shù)角度理解為什么亞馬遜、谷歌、百度都無(wú)比重視智慧音箱產(chǎn)品,那就是一個(gè)人機(jī)對(duì)話(huà)系統(tǒng),在人與機(jī)器世界之間充當(dāng)翻譯官角色。
- 原標(biāo)題:與谷歌翻譯小別勝新婚之后,看清中國(guó)人工智能到底和谷歌比什么 本文僅代表作者個(gè)人觀點(diǎn)。
- 責(zé)任編輯:馬密坤
-
“中國(guó)在非洲真正贏得了民心,就連斯威士蘭…” 評(píng)論 48“日企抱團(tuán)是絕望之舉,中國(guó)工廠效率質(zhì)量都是第一” 評(píng)論 101美國(guó)政府“逃過(guò)一劫” 評(píng)論 126最新聞 Hot
-
“中國(guó)在非洲真正贏得了民心,就連斯威士蘭…”
-
“日企抱團(tuán)是絕望之舉,中國(guó)工廠效率質(zhì)量都是第一”
-
“中國(guó)有能力讓夢(mèng)想照進(jìn)現(xiàn)實(shí),將贏得史詩(shī)般競(jìng)爭(zhēng)”
-
被災(zāi)民暴罵到當(dāng)場(chǎng)破防,馬克龍發(fā)飆:你該慶幸你在法國(guó)!
-
美高校敦促?lài)?guó)際學(xué)生抓緊回來(lái):萬(wàn)一把中印拉黑名單呢
-
美國(guó)政府“逃過(guò)一劫”
-
“澤連斯基要求歐盟新外長(zhǎng):對(duì)華批評(píng)要降調(diào)”
-
澳大利亞來(lái)了,中國(guó)就得走人?澳總理這么回應(yīng)
-
美媒感慨:基建狂魔發(fā)力,我們又要被超越了
-
英國(guó)剛公布新任大使,特朗普顧問(wèn)就痛罵:傻X
-
“來(lái)自中國(guó)的老大哥能確保我們…”
-
俄羅斯的報(bào)復(fù)來(lái)了
-
澤連斯基罵普京“傻子”,俄方怒斥
-
還在扯皮中國(guó),“涉華條款全刪了”
-
中國(guó)“光伏OPEC”發(fā)文嚴(yán)厲質(zhì)問(wèn)央企,怎么回事?
-
“最后一道貿(mào)易障礙,中國(guó)解除了!”
-