-
專訪中科院自動化所所長徐波:構(gòu)建紫東太初——全球首個三模態(tài)大模型,“類人智能”的大門正在打開
最后更新: 2021-07-20 14:38:30【采訪/觀察者網(wǎng) 周遠(yuǎn)方 編輯/呂棟】
人的大腦中,語義是最神秘的。
在神經(jīng)科學(xué)實驗中,當(dāng)看一張猴子照片的時候,大腦中視覺關(guān)聯(lián)區(qū)域神經(jīng)活動會更加活躍;聽到聲音,聲音關(guān)聯(lián)區(qū)域神經(jīng)活動會更加活躍。但是當(dāng)大腦在想象一只猴子的時候,大腦更大片區(qū)域都處于激活狀態(tài)。語義是人工智能技術(shù)最難表征和最難處理的。其實,它就是人的多個感知模態(tài)相互融合、相互關(guān)聯(lián)、相互協(xié)同、相互激活的結(jié)果。
目前,這種多模態(tài)互動的認(rèn)知過程,正在被人工智能學(xué)習(xí)。
7月9日,2021世界人工智能大會(WAIC)昇騰人工智能高峰論壇上,中國科學(xué)院自動化研究所所長徐波正式報告了跨模態(tài)通用人工智能“紫東太初”平臺。該平臺以全球首個圖、文、音(視覺、文本、語音)三模態(tài)預(yù)訓(xùn)練模型為核心,并基于國產(chǎn)化自主AI基礎(chǔ)軟硬件平臺(昇騰)開發(fā)實現(xiàn),向更加通用型人工智能跨出一步。
在會后,觀察者網(wǎng)對徐波所長進(jìn)行專訪,就人工智能發(fā)展的現(xiàn)實意義、多模態(tài)大模型的發(fā)展現(xiàn)狀、中外人工智能的技術(shù)對比、三模態(tài)大模型的應(yīng)用案例和未來展望、通用人工智能的路徑探索等話題展開討論。
徐波指出,人工智能是一種賦能技術(shù),未來將成為社會經(jīng)濟(jì)生活無所不在的“發(fā)動機(jī)”,而“大數(shù)據(jù)+大模型+多模態(tài)”將改變當(dāng)前單一模型對應(yīng)單一任務(wù)的人工智能研發(fā)范式和產(chǎn)業(yè)范式,多模態(tài)大模型將成為不同領(lǐng)域的共性平臺技術(shù),是邁向通用人工智能路徑的探索。全棧國產(chǎn)化通用人工智能平臺的實踐更對中國實現(xiàn)AI領(lǐng)域科技創(chuàng)新、占領(lǐng)核心技術(shù)高地具有重要的戰(zhàn)略意義。
徐波在昇騰人工智能高峰論壇發(fā)表演講 圖片來源:中科院自動化研究所
以下是專訪實錄:
觀察者網(wǎng):我們看到,中國目前在人工智能技術(shù)研發(fā)投入上可謂是不遺余力,作為人工智能行業(yè)專家,您認(rèn)為持續(xù)探索人工智能技術(shù)創(chuàng)新之路,對整個產(chǎn)業(yè)和社會發(fā)展的意義是什么?
徐波:人工智能在本質(zhì)上是一種賦能技術(shù)。隨著社會的持續(xù)發(fā)展和進(jìn)步,人工智能作為社會經(jīng)濟(jì)生活的“發(fā)動機(jī)”,無處不在的推動著多個行業(yè)的智能化發(fā)展。人工智能在不斷與行業(yè)進(jìn)行融合創(chuàng)新的同時,會出現(xiàn)多種形態(tài)的變化,呈現(xiàn)出百花齊放的現(xiàn)象。
人工智能作為新一輪技術(shù)革命和產(chǎn)業(yè)變革的重要驅(qū)動力,已經(jīng)改變很多現(xiàn)有的流程、理念、生產(chǎn)方式、組織形式,將進(jìn)一步解放和發(fā)展社會生產(chǎn)力,深度改變?nèi)藗兊乃枷胗^念。當(dāng)前,人工智能正在全方位賦能商業(yè)、教育、醫(yī)療、制造、交通和社會治理,成為不可或缺的發(fā)展引擎。但人工智能發(fā)展創(chuàng)新絕非一帆風(fēng)順,短時間內(nèi),相關(guān)技術(shù)還將經(jīng)歷一個艱難爬坡、臨界點突破再遇到新的瓶頸這樣螺旋式發(fā)展上升過程。
觀察者網(wǎng):自從國外OpenAI公司的GPT3、華為公司的盤古等人工智能模型出現(xiàn)以來,無監(jiān)督學(xué)習(xí)迅速發(fā)展,目前預(yù)訓(xùn)練大模型已經(jīng)發(fā)展到了什么階段?
徐波:圖靈獎獲得者Yann Lecun曾經(jīng)說過,如果智能是一塊蛋糕,那么蛋糕的主體是無監(jiān)督學(xué)習(xí),蛋糕上的糖衣是監(jiān)督學(xué)習(xí),蛋糕上的櫻桃是強(qiáng)化學(xué)習(xí)。人類對世界的理解主要來自于大量未標(biāo)記的信息。
“蛋糕主體”指的是無監(jiān)督學(xué)習(xí),現(xiàn)在很多人工智能碰到的落地上的可信和魯棒性難題,其本質(zhì)問題是現(xiàn)有AI缺乏語義級的認(rèn)知。認(rèn)知如同浮在海平面上的冰山。自然語言是冰山浮出水面的部分,而理解自然語言的基礎(chǔ)是大量的人類常識、背景知識、領(lǐng)域知識等世界知識,這是冰山水面以下看不到的部分。把這些合起來統(tǒng)稱為“語義空間”。現(xiàn)有的AI系統(tǒng)很難把這些語義空間加以全面準(zhǔn)確的表達(dá)。例如,“張三吃大碗”、“張三吃食堂”、“張三吃面條”這三句話。“張三吃大碗”并不是說張三把大碗吃掉,“張三吃食堂”也不是要把食堂吃掉,這種表述背后的邏輯可能是食堂是吃飯的地方,很多人都在食堂吃飯,張三家里可能沒做飯,所以在食堂吃飯。對人工智能來說,必須有這些相關(guān)的背景知識,才能理解“張三吃食堂”這句對人來講很容易理解的話。人工智能需要學(xué)習(xí)很多背景知識才能理解自然語言。這就是“認(rèn)知冰山”問題,冰山海平面之下才是獲得認(rèn)知的關(guān)鍵。有的人工智能專家把這些大量的背景知識稱作人工智能的“暗物質(zhì)”。怎么把這些“暗物質(zhì)”挖掘出來放在一個系統(tǒng)里?無監(jiān)督學(xué)習(xí)是一條路徑。
這些的“暗物質(zhì)”隱含存在于我們的圖片、日常對話和海量文本中。但是,目前的預(yù)訓(xùn)練大多數(shù)還是單模態(tài)。“百聞不如一見”,可能很復(fù)雜的語義表述只需要看一張圖片就能理解。同時,人類的聲音還蘊(yùn)藏著情緒和感情,只有準(zhǔn)確捕獲這些細(xì)節(jié)信息,才有可能懂得語言背后真正的含義,而不僅僅是文字表面的意思。那么,我們?nèi)绾尾拍芡瑫r有效把聲音、圖片和文字這些信息都整合起來呢?
這次,我們在武漢人工智能計算中心算力支持下研發(fā)的全球首個三模態(tài)大模型“紫東太初”,在實現(xiàn)圖、文、音的統(tǒng)一表達(dá)方面取得重要進(jìn)展。已有多模態(tài)預(yù)訓(xùn)練模型通常僅考慮兩個模態(tài),如圖像和文本,或者視頻和文本,不但忽視了周圍環(huán)境中普遍存在的語音信息,并且模型不好兼具理解與生成能力,難以在生成任務(wù)與理解類任務(wù)中同時取得良好表現(xiàn)。我們首次將語音信息引入,并通過一個統(tǒng)一語義空間網(wǎng)絡(luò)表達(dá)生成三模態(tài)模型,可以把剛才提到的“認(rèn)知冰山”或“暗物質(zhì)”的龐大語義空間學(xué)習(xí)出來,能更加接近人類真正的感情和思考。特別的,由于側(cè)重交互功能的語音的加入,使我們的大模型一下子變“活”了,使人工智能邁向更高層次的通用型人工智能方向發(fā)展。
“紫東太初”三模態(tài)訓(xùn)練模型采用了多層次多任務(wù)自監(jiān)督預(yù)訓(xùn)練的學(xué)習(xí)方式,論文已經(jīng)公開發(fā)表。最重要的是提出來三模態(tài)數(shù)據(jù)的語義統(tǒng)一表達(dá),可同時支持三種或者任兩種模態(tài)的若干數(shù)據(jù)預(yù)訓(xùn)練。這個模型不僅可以實現(xiàn)跨模態(tài)理解,還能實現(xiàn)跨模態(tài)生成,做到理解和生成兩個最重要的認(rèn)知能力的平衡,首次實現(xiàn)以圖生音,以音來生圖的功能。
三模態(tài)大模型可能把更多人類許多與生俱來的東西學(xué)習(xí)出來,把“認(rèn)知冰山”水面以下的東西能進(jìn)行挖掘和表達(dá)。另外,單模態(tài)預(yù)訓(xùn)練模型無疑越大越好,但三模態(tài)模型的重點更在于探索如何讓它更“巧”。三模態(tài)大模型要做好還要下很多功夫,但我們已經(jīng)在正確的方向上邁出了重要的一步。
觀察者網(wǎng):多模態(tài)大模型“紫東太初”名稱的內(nèi)涵,是不是包涵了某種開天辟地的意義?
徐波:可以這么理解,就是相當(dāng)于人工智能走向類人智能的一個混沌初開之際,也是感知智能走向通用智能重要的第一步。
一個比較有意思的話題是,人工智能領(lǐng)域之外的人,比如哲學(xué)、科幻領(lǐng)域,特別喜歡討論人工智能的一些終極問題,例如機(jī)器人可能統(tǒng)治人類,同時涉及一些更高層面的倫理問題。但絕大多數(shù)人工智能領(lǐng)域的科學(xué)家非常清楚地認(rèn)知到現(xiàn)有人工智能距離真正的人類智能相差甚遠(yuǎn)。
在成功研發(fā)“紫東太初”三模態(tài)模型后,我們似乎感受到比現(xiàn)有人工智能更為強(qiáng)大的通用型人工智能大門正在打開。有時候,我們甚至在思考怎么讓人工智能依附一個好的軀體,更好地感知到自然和社會環(huán)境中的信息,把類似情緒和情感的信息做進(jìn)一步的處理,AI將會有更大的發(fā)展和比較好的靈活性。這種門檻一旦突破,人工智能的發(fā)展很可能會出現(xiàn)指數(shù)型的增長。這是一個即將呈現(xiàn)爆發(fā)式增長的領(lǐng)域。
-
本文僅代表作者個人觀點。
- 責(zé)任編輯: 呂棟 
-
這次冬奧會,裁判可能“不是人類”
2021-07-20 13:41 世界人工智能大會 -
中芯國際發(fā)35億股票激勵,四大高管浮盈超1200萬
2021-07-20 13:29 上市公司 -
農(nóng)業(yè)農(nóng)村部:生豬高利潤階段已經(jīng)結(jié)束,不要再賭市場
2021-07-20 11:36 -
養(yǎng)豬龍頭企業(yè)半年預(yù)虧30億
2021-07-20 08:06 聚焦三農(nóng) -
美媒:隨著中國新規(guī),2萬億美元赴美上市大潮宣告結(jié)束
2021-07-19 16:33 上市公司 -
發(fā)改委:大宗商品價格總體回落,比年內(nèi)高點下跌3%-14%
2021-07-19 16:01 金融圈 -
“繼續(xù)限制ASML與中國大陸合作,是美國安顧問首要任務(wù)”
2021-07-19 14:23 上市公司 -
證監(jiān)會從嚴(yán)從快從重查辦16起重大典型案件,點名這些違規(guī)行為
2021-07-18 09:37 -
長江存儲:不會受紫光集團(tuán)破產(chǎn)重整司法程序的直接影響
2021-07-16 16:10 上市公司 -
央行:商業(yè)機(jī)構(gòu)推出全球性“穩(wěn)定幣”將帶來諸多風(fēng)險和挑戰(zhàn)
2021-07-16 15:59 -
全國碳排放權(quán)交易在上海、武漢上線
2021-07-16 09:58 金融圈 -
證監(jiān)會發(fā)布《證券期貨違法行為行政處罰辦法》
2021-07-16 07:32 中國經(jīng)濟(jì) -
全國碳排放權(quán)交易明天開市
2021-07-15 21:06 政策風(fēng)向標(biāo) -
智能手機(jī)業(yè)務(wù)增長近4倍,紫光展銳稱5G時代必須回到中國
2021-07-15 17:03 科技前沿 -
6月新房價格環(huán)比漲幅回落,外媒:樓市政策效果顯現(xiàn)
2021-07-15 16:32 中國房市 -
商務(wù)部:將按照必要合理的原則審查影響國家安全的外商投資
2021-07-15 15:48 政策風(fēng)向標(biāo) -
全面降準(zhǔn)是為應(yīng)對經(jīng)濟(jì)下行?國家統(tǒng)計局回應(yīng)
2021-07-15 14:02 中國經(jīng)濟(jì) -
李克強(qiáng):此次審計發(fā)現(xiàn)違規(guī)倒賣大宗商品等問題線索,情節(jié)十分惡劣
2021-07-15 13:44 中國經(jīng)濟(jì) -
新冠檢測收入下滑,華大基因二季度凈利潤驟降超50%
2021-07-15 11:38 上市公司
相關(guān)推薦 -
最新聞 Hot
-
美國審查計劃“逼死”華裔科學(xué)家?
-
滯留3個多月后,波音“星際客機(jī)”發(fā)出異響
-
規(guī)模最大!以色列民眾怒了,70萬人走上街頭抗議
-
反恐轉(zhuǎn)向?qū)θA!美國想用這個新項目修補(bǔ)“漏洞”
-
“沙特尋求中國技術(shù),將自己塑造成汽車和自動化中心”
-
“執(zhí)政聯(lián)盟的災(zāi)難”,德國選擇黨首次贏得州議會選舉
-
要收緊ASML出口管制?荷蘭新首相表態(tài)
-
涉及中國,美國二度推遲“重大貿(mào)易決定”
-
來真的,左翼聯(lián)盟“刺頭”推出彈劾馬克龍草案
-
“柯文哲在地下候?qū)徥疫^夜”,法院預(yù)計今晚開庭
-
俄羅斯給朝鮮24匹馬,“他最愛的品種”
-
哈里斯下場:特朗普不尊重圣地
-
武契奇:不會對人民撒謊,不太可能在2028年前入歐
-
馬克龍:歐洲AI落后了,得砸錢追上中美
-
巴西對X平臺下禁令,盧拉喊話馬斯克
-
全球AI換臉色情人物一半是韓國人!韓方找法方:要和“電報”談
-