-
劉聰:代表人工智能第三次浪潮的快速發展,這是中國人的原創
最后更新: 2024-07-26 16:16:00不久前,科大訊飛作為第一完成單位的“多語種智能語音關鍵技術及產業化”項目,榮獲2023年度國家科學技術進步獎一等獎,這是過去十年人工智能領域首個國家科學技術進步獎一等獎,對引領我國的語音產業,支撐智能制造產業出海和升級等都有重要意義。
觀察者網·心智觀察所日前與科大訊飛研究院院長劉聰進行了一次交流,討論了科大訊飛最新的語音技術進展、現有語音技術與大模型的結合、國產芯片及生態建設等問題。在對話中,劉聰提到了訊飛現有多語種智能語音技術的領先優勢,目前已經應用在多個產品中,支撐中國智造出海。訊飛采用國產芯片做語音模型訓練,難度很大,工作開展異常艱苦,劉聰呼吁各個企業聯合建設更完善的軟件生態。
項目主要完成人代表在領獎后合影
對話全文如下:
心智觀察所:科大訊飛這次作為第一個完成多語種智能語音關鍵技術及產業化的單位,獲得了國家科學技術進步獎一等獎。據聞,這是過去十年人工智能領域首個一等獎。請您總體上介紹一下此項目的基本情況,它的背景和意義。
劉聰:我們這次得獎項目的核心是智能語音技術,也是訊飛的初心。在這個項目歷經的十年間,深度學習領域發展迅速,也代表著人工智能第三次浪潮的快速發展。在這一背景下,此次也是過去十年人工智能領域首個國家科學技術進步獎一等獎。
智能語音領域對我們一直很重要。過去十年里,我們一直強調語音作為人類最自然、最便捷的交流方式,是萬物互聯、人機交互的關鍵入口。
在人工智能領域里,多語種智能語音廣受關注。訊飛雖然是從中文語音技術起家,但我們在過去十年里逐步拓展到更多語種以及方言領域當中,這是一個非常重要的跨越。
國家科學技術進步獎主要考量兩大方面,一是提報項目需要有核心技術創新,代表中國從技術原創角度在世界上取得領先。另一方面,與其他獎項不同,國家科學技術進步獎特別強調提報項目的技術創新能否帶來大規模的產業化落地。
從技術創新上來看,語音領域涉及合成、識別等技術,本項目主要針對智能語音關鍵技術產業化中攻克了多項技術難題,例如面向很多復雜場景時,會出現語音識別聽不準、語音合成不自然、口語理解歧義等問題,以及當我們從中英文向多語種拓展、走向全球化的時候,出現數據資源稀缺的問題。在持續攻關中,我們提出了四個方面的關鍵技術創新:復雜語音信號解耦建模關鍵技術突破、多語種共享建模關鍵技術突破、語音語義聯合建模關鍵技術突破、語音語義聯合建模關鍵技術突破、國產異構硬件平臺訓練及推理加速關鍵技術突破。通過這些技術創新,我們解決了剛剛所說的技術難題,實現了在多個行業領域和智能設備上的應用落地。
總結來說,本項目的意義,第一在于開創引領了我國的語音產業,支撐智能制造產業出海和升級。
第二,通過支持多語言互通,助力民族團結,促進全球語音語言互通,協助“一帶一路”建設。在這個過程中,我們很好支撐了北京冬奧會和冬殘奧會、進博會、博鰲論壇等國家重大活動。
第三,我們一直強調自主可控,本項目整個構建了自主可控的多語種智能語音技術,以及全球的產業生態。
第四,我們認為技術也要有溫度,所以本項目里面的相關技術也持續助力公益,關注關愛我們的弱勢群體和特殊人群。
心智觀察所:我稍微補充問一下,請問此項目的發起時間大概是什么時候?訊飛雖然是第一完成單位,但獲獎團隊不止是訊飛這一家。請問獲獎團隊的構成如何?
劉聰:這個項目開始時間大概是在2012年左右,至今差不多是一個十年左右的周期。
除了訊飛作為第一單位牽頭,過去十年里在該項目上與我們有緊密合作的還有一些科研機構,如中國科學技術大學、清華大學,訊飛與這兩所高校都有聯合共建的實驗室;還有產業鏈上的相關單位,如華為終端有限公司、中移(杭州)信息技術有限公司、訊飛醫療、訊飛智元等。
心智觀察所:語音識別研究當中有一個非常有挑戰的問題名叫雞尾酒會效應,請問訊飛是怎么突破這個難題的?然后,能否用一些比較通俗的比喻來向公眾解釋一下其中的原理。
劉聰:雞尾酒會是語音領域一個非常具有挑戰性的難題,討論的是在復雜環境下分辨聲音種類的問題。人的聽覺系統非常強大,例如你如果參加一個雞尾酒會的話,周圍非常吵鬧,酒會里有非常多的噪聲、談話聲、音樂聲以及酒杯碰撞的聲音。此時,如果你想聽清楚誰在和你說話,你會將你的聽力系統集中過去,在周圍很吵的環境下專注于某一個特別定向的人發出的聲音,這是人類所具備的一個能力。
在我們做語音識別、語音合成技術時,若要衡量語音識別系統的優劣,就要跟人的水平去做對比。在雞尾酒會難題里,由于噪聲很多,所以對機器來說進行精準的語音識別是非常難的。我從學生時代起就在研究通過單點技術來降噪,此后也嘗試過通過多麥克風陣列來提升整個前端的效果。雖然做了很多的工作,但是都只是在循序漸進,很難徹底解決這樣的問題。
此次獲得國獎的項目中第一個創新點——復雜語音信號解耦建模關鍵技術突破,其中有兩項技術能夠比較好地解決雞尾酒會問題。
我們在降噪里面的一個關鍵問題是要把語音里面的人聲和非人聲解構出來,這就叫解耦。對語音來說非常困難,因為語音是一個一維信號。在這個一維信號當中包含了很多的信息,如人聲、噪聲等。甚至如果再進一步細化,可能還有人聲里面的說話人聲音,及其音色、內容、性別等信息。
為了解決這個問題,我們首先基于深度學習的框架,針對性地對語音里每一個人的每一種屬性做了針對性的建模。建模之后,我們就可以將剛才所說的噪聲、人聲的各類屬性比較清楚地顯示出來。通俗來講,我們可以更加精細地把控語音里面原來混雜在一起的、各種各樣的屬性。此后,我們就可以更好地對噪聲做分離處理,也可以知道語音里的聲音是跟說話人還是跟噪聲的聲音更接近。
同時,如果我們用聲學前端多麥克風陣列的多通道信號來采集語音的話,還可以對這個信號的時間、空間等屬性進行分離。
-
本文僅代表作者個人觀點。
- 責任編輯: 武守哲 
-
歐盟港停滿中國車?“產能過剩”不背鍋
2024-07-26 14:51 心智觀察所視頻 -
統一生態:鴻蒙如何踩著諾基亞和三星的“尸體”前進
2024-07-26 14:22 心智觀察所視頻 -
專稿|“藍屏網災”暴露三大悖論,“純血鴻蒙”另辟蹊徑
2024-07-25 15:01 心智觀察所 -
打破認知局限!我國科學家研發出這一新型材料
2024-07-25 09:39 科技前沿 -
歐盟的反補貼調查,到底圖中國啥?
2024-07-24 13:56 心智觀察所視頻 -
鴻蒙系統與安卓“割席”,未來勝算幾何?
2024-07-24 13:41 心智觀察所視頻 -
“慢就是快”的啟示:中國無人駕駛憑什么后來居上?
2024-07-24 09:49 心智觀察所 -
“7月24日至25日地球可能出現地磁暴過程”
2024-07-23 21:54 天文 -
我國科學家在月壤中首次發現分子水
2024-07-23 18:19 嫦娥奔月 -
新一代載人火箭三級液氫液氧發動機長程高模試驗成功
2024-07-23 10:17 航空航天 -
國內最大、世界第二!可用于航空航天等領域大型核心零部件的加工處理
2024-07-20 22:18 中國精造 -
科技部通報國家重點研發計劃有關項目4個抄襲問題和1個評審請托問題
2024-07-20 14:52 學術造假 -
意義重大!中國電力體系的壯闊藍圖,正在逐步清晰
2024-07-19 13:44 電力改革 -
“中國沒有,國際也沒有,但不意味中國科學家不能做出來”
2024-07-19 08:11 科技前沿 -
我國團隊研發出太陽能動力微型無人機
2024-07-19 07:22 科技前沿 -
重大突破!我國科學家發現新型高溫超導體
2024-07-18 20:45 科技前沿 -
我國科學家為“尼安德特人被現代人所同化”提供有力遺傳學證據
2024-07-18 15:11 科技前沿 -
Open RAN之死:華為中興不戰而勝
2024-07-18 10:27 華為 -
手機直連衛星,中國星鏈何時能登場?
2024-07-18 08:33 -
“設計速度400公里每小時,試驗臺速度達600公里每小時”
2024-07-18 07:13 中國精造
相關推薦 -
刺激消費,全民“發錢”這招可行嗎? 評論 240美國申訴后奪銅,羅馬尼亞徹底怒了 評論 258“去過中國30次,反對中美敵對”,共和黨猛攻他親華 評論 191“阿克薩洪水策劃人”辛瓦爾被選為哈馬斯領導人 評論 338“中國為我們所做的一切,都是美國做不到的” 評論 157最新聞 Hot
-
韓國教練哭了:20年了,每次都輸給中國隊
-
美議員聲稱擔心中企當“間諜”,密歇根州州長已讀不回
-
澳大利亞奧運選手涉嫌在巴黎購買可卡因被捕
-
馬杜羅:WhatsApp見鬼去吧,建議改用微信…
-
日本長崎拒絕邀請以色列,G7另外六國不干了
-
美國申訴后奪銅,羅馬尼亞徹底怒了
-
他欲召集拉美17國開會討論委局勢,還請求美國支持
-
共和黨人一看,覺得自己又行了
-
“他建議我主修中文,這真的改變了我的生活”
-
他遭美司法部逮捕,被控受伊朗指使欲雇兇刺殺特朗普
-
“去過中國30次,反對中美敵對”,共和黨猛攻他親華
-
“跟隨歐洲盟友步伐,他計劃訪華”
-
烏軍突入俄境內7公里,俄稱擊退進攻
-
“中巴合作不應滿足于現狀,加入‘一帶一路’是根本措施”
-
員工曝波音工廠亂象,“換問題艙門像換內褲一樣頻繁”
-
“阿克薩洪水策劃人”辛瓦爾被選為哈馬斯領導人
-