-
學會反思的國產大模型,真變強了?
-
張廣凱13764468101
真正能夠像人類一樣進行邏輯推理的大模型,距離我們還有多遠?
隨著OpenAI推出更側重推理能力的 o1大模型,推理大模型正成為行業新的競爭方向。本周一,月之暗面推出的Kimi探索版,成為國產推理大模型的最新代表。
讓大模型學會推理的訣竅是什么?各家廠商都提到了一個關鍵詞——反思。通過將復雜問題一步步拆分,并且對每一步的輸出結果進行反思檢驗,是降低大模型幻覺的有效途徑。而這樣的思路,看上去與人類的邏輯推理確實有一定相似性。
不過經過實測,我們發現現有大模型的邏輯推理能力仍然難以讓人滿意,這背后可能仍然繞不開大模型底層原理的限制。
但有趣的是,為了提高推理能力,國產大模型在使用工具的路上越走越遠,反而可能是當下最現實的大模型落地途徑之一。
推理大模型,真的會做題嗎?
上周五,月之暗面宣布推出Kimi探索版,并于本周一正式上線。
據官方介紹,Kimi探索版具備AI自主搜索能力,可以模擬人類的推理思考過程,多級分解復雜問題,執行深度搜索,并即時反思改進結果,提供更全面和準確的答案,幫助你更高效地完成分析調研等復雜任務。
那么實測來看,Kimi探索版實力究竟如何?
談到推理能力,人們往往最先想到的是數學。很多測評都使用高等數學題目去測試大模型的推理能力,并且往往能夠取得不錯的效果。
不過從實用層面來看,大部分用戶的需求并不是求解高數,而是解決日常生活中的應用題。
所以,我們打算讓Kimi替最近上市的新車樂道L60算筆賬。
蔚來換電體系下獨特的BaaS電池租賃方案,讓不少消費者在計算用車成本的時候也感到頭疼,樂道L60發布會后,到底怎么買更劃算引起了網友熱烈討論,不少網友甚至搬出了專業的會計知識。
我們問Kimi的問題是這樣的:分析樂道L60車輛采用BaaS方案下的每年用車成本,BaaS方案和電池買斷方案哪個更劃算。
可以看到,Kimi正確理解了BaaS的含義,雖然沒有意識到樂道是換電而不是充電,不過按充電成本算也沒有太大出入,整個邏輯基本是清晰的。
問題在于,雖然一開始提到了購車價格,但是在總用車成本的計算上,Kimi卻并沒有加上購車成本的折舊,沒達到我們想要的效果。
于是,我們要求Kimi把折舊成本考慮進去,結果是這樣的:
在最后的結論里,Kimi對購車價格和折舊成本進行了重復計算,顯然是錯誤的。而這個錯誤,恰恰說明Kimi對于成本和折舊的邏輯理解還存在不足。
作為對比,我們用ChatGPT-4o mini測試了相同的問題,發現4o mini可以正確理解包括折舊、BaaS在內的各項成本的邏輯,可是卻沒有正確獲得車輛的價格。
也就是說,Kimi并沒有表現出比GPT-4更好的邏輯能力,但是在中文信息檢索能力上卻更加優秀。事實上,后者也是Kimi真正的強項所在,后面我們會再次討論這一點。
不過在此之前,我們還發現了一個相對小眾的選手——學而思九章大模型,也相當值得關注。
提到學而思,大家都知道它是以教培起家,尤其擅長數學教學。而九章大模型也繼承了學而思的特長,專攻教育領域,并且宣稱有更好的數學能力。
當我們以上述問題測試九章大模型時,它的表現非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念,還具體獲得了樂道BaaS“滿四減一”優惠、實際電耗水平等信息,因此給出的答案更能解決問題。
但美中不足的是,它并沒有給出車輛折舊的具體數字,導致最終沒有輸出一個明確的答案。
這究竟是一個缺點,還是優點?其實從邏輯來看,九章這么做的原因,應該是同樣出于“具體問題具體分析”的理念,由于自己沒辦法確定相關車輛的具體折舊率,因此就直接說明自己的不確定,充分保證了答案的嚴謹性。
看上去,九章的確更像是一個嚴謹、可靠的數學模型。
AI可能還沒有學會推理
強化大語言模型的推理能力,在技術上是怎么實現的?大家都提到了一個關鍵詞——反思。
月之暗面方面指出:就像人一樣,Kimi探索版可以借助反思能力,來提升和改進回答的質量。面對開放探索型問題,Kimi探索版發現第一次回答的信息存在缺失,會主動補充回答更多。面對數字相關的搜索問題,Kimi了解更多信息后如果發現了數據沖突,則會及時補充提供多方視角的信息供參考決策。
從上面的演示中可以看到,Kimi會把自己的思考過程展示出來,讓用戶明確看到自己進行了一次補充檢索。
九章大模型負責人白錦峰進一步解釋說,同大模型類似,人類在幼年時期同樣缺乏邏輯能力,會產生幻覺。但隨著人類的成長,會逐漸學會邏輯推理,讓自己的觀點在邏輯上自洽,并拿觀點去跟已經存在的事實進行校驗,從而消除幻覺。
白錦峰表示,目前大語言模型的第一性原理是Next Token Prediction,也就是通過預測下一個字符的方式給出答案,而這種預測是基于概率的,這決定了大模型一定會有出錯的概率。
為了提升準確率,目前的推理大模型普遍應用了CoT(思維鏈)和Voting&Verifier兩種算法,前者將復雜問題拆分為多個步驟,后者則對于每一步的結果進行反思,多做幾次檢驗來找到一致性最高的答案。
這兩種算法模仿了人類思維方式中的校驗過程,但其實仍然是基于概率,而不是邏輯推理。白錦峰指出,為了真正保證結果的正確性,大模型還需要應用定律的技術,例如學會使用數學定律來解決問題。
但是在應用定律方面,大模型仍然存在根本性的難點。白錦峰舉例說,像加法交換律(a+b=b+a)這樣簡單的定律,人類可以直接理解公式,但是大模型只能通過窮舉大量的案例(1+2=2+1等)來悟到這個規律。
因此,對于當前的大模型技術能否真正實現推理能力,很多人并不樂觀。美國著名AI科學家Yann LeCun近日就尖銳地表示,當下的模型“似乎在進行推理,但實際上它們只是在重復已經訓練過的信息”,按照現有訓練方式,無論多少GPU都不會讓我們實現AGI。
蘋果AI團隊的最新研究也認為:大語言模型在相同問題的不同版本上表現出高性能差異、難度略微增加時性能大幅下降以及對無關信息的敏感性,表明其推理能力很脆弱。它可能更像是復雜的模式匹配,而不是真正的邏輯推理。
從大模型到Agent
盡管以AGI的標準來衡量,目前的推理大模型還遠遠不夠完善,但是從實用層面,國產大模型正在這輪推理競賽展現出了一個重要進化——調用工具。
例如,九章大模型在解決數學問題的時候,采用了一個看似原始卻非常實用的辦法——直接調用計算器。就像人類一樣,學會使用工具,也是AI應當具備的能力。
Kimi調用的工具則是搜索引擎。Kimi探索版在回答問題時,最高能夠搜索并精讀500個網頁,相較于此前版本提升了10倍。
而且我們在實測中發現,Kimi列出的參考頁面普遍都來自較為權威的站點,內容質量也相對較高。在開放性的問題中,Kimi能夠充分保證輸出的客觀和準確性,這才是探索版給我們印象最深刻的地方。
Kimi 探索版產品負責人表示,“如果 Kimi 搜不到的信息,那大概率用戶也很難自己通過傳統搜索引擎找到。未來搜索引擎會成為AI更擅長調用的工具,人只需要專注于提出好的問題,AI就可以結合模型本身的能力在龐大的互聯網中自主海量搜索,不斷反思迭代,更精準地找到所需答案。”
對于大部分普通用戶來說,這話并不夸張。
從本質上講,調用工具使得這些模型更接近于AI Agent的概念。尤其是對于Kimi探索版,相當于替用戶完成了網頁檢索的任務,并且能夠幫助用戶去除搜索引擎中大量的低質量和營銷內容,實用性極強。
如果說,當前的AI理論本身就限制了大模型難以實現真正的邏輯能力,那么在理論突破之前,如何最大化模型的實用性,讓AI從Copilot向Agent盡可能地邁進,就是當下最重要的命題。
此外,從Kimi、九章的表現來看,國產大模型如今繼續提升實用性的方式,并不一定是增加規模,或者提出什么獨特的算法,而是通過專注于自己最擅長的垂直領域來提升準確率,并形成獨特護城河。
白錦峰舉例說,對于教育大模型來說,能答對問題和能教好學生之間,仍然存在區別。例如同樣是除法,用除號還是用分號來表示,在教學中就是不一樣的。對于小學生來說,因為還沒有學過分數,所以用分號就是錯誤的回答。因此,學而思利用自己長期積累的教材和教師資源,能夠做出更好的教育大模型。
專注垂直,也能夠讓成本更加可控。學而思方面人士向觀察者網直言,大模型初期投入是不可避免的,目前也看不到直接的回報,但投入又是必須要做的,否則等到技術成熟再發力,早就失去了上牌桌的機會。
但是學而思并沒有選擇去自己研發基座大模型,而是基于開源大模型的基礎,在百度云上進行千卡規模的訓練,以可控的成本實現了不錯的性能。
因此,國產推理大模型當下給我們的最大啟示,或許仍然是實用為王。
標簽 大模型- 責任編輯: 張廣凱 
-
滬指大漲近3%,創業板指飆升近8%!兩市成交額創9日以來新高
2024-10-18 15:12 金融觀察 -
滬深兩市成交突破1.5萬億,芯片行業ETF放量飆升
2024-10-18 14:10 觀網財經-金融 -
吳清:加快落實中長資金入市,嚴懲違規減持
2024-10-18 13:59 觀網財經-宏觀 -
央行兩項新工具今日實施!“預計還有降準降息”
2024-10-18 12:50 觀網財經-金融 -
諾基亞在中國裁員近2000人,在華份額已不到5%
2024-10-18 11:19 觀網財經-科創 -
李德仁院士提出“時空智能學”
2024-10-18 10:00 觀網財經-科創 -
歐洲央行宣布降息25個基點
2024-10-17 20:34 金融觀察 -
美的科技月:累計獎勵超5億元,加強全球人才引入
2024-10-17 20:26 觀網財經-科創 -
存量房貸下調后還有紅包:下月起定價機制可重新協商?
2024-10-17 18:35 觀網財經-金融 -
?茅臺在香港降價千元?門店員工稱暫未接到通知
2024-10-17 18:04 觀網財經-消費 -
成都將迎大規模拆遷?房小團發布澄清聲明
2024-10-17 16:23 觀網財經-房產 -
英特爾向聯想交付1.8納米CPU樣品
2024-10-17 16:18 觀網財經-科創 -
李彥宏:AI幻覺已基本解決,泡沫后1%的AI企業能脫穎而出
2024-10-17 15:45 觀網財經-互聯網 -
你的寶貝正在路上,終于被翻譯對了
2024-10-17 13:41 觀網財經-互聯網 -
京東物流官宣:將為淘寶天貓商家提供服務
2024-10-17 13:41 觀網財經-互聯網 -
英特爾表態
2024-10-17 13:06 -
住建部回應樓市“虹吸效應”
2024-10-17 10:48 觀網財經-房產 -
朔爾茨再批歐盟對華關稅:我的訴求是…
2024-10-17 09:16 德意志 -
無錫新政:可用上海二手房換購無錫新房
2024-10-16 23:03 觀網財經-房產 -
“中國拯救世界”,一部正在發生的偉大史詩
2024-10-16 18:17 觀察者頭條
相關推薦 -
-
美西方歡呼“勝利”,哈馬斯迅速任命代理領導人 評論 103央行兩項新工具今日實施!“預計還有降準降息” 評論 81辛瓦爾死了,以色列下一步怎么走? 評論 600“以軍已打死哈馬斯領導人辛瓦爾” 評論 400美國首次出動B-2轟炸胡塞武裝,“對伊朗的警告” 評論 328最新聞 Hot
-
美西方歡呼“勝利”,哈馬斯迅速任命代理領導人
-
中企拿下!“這下歐盟要尷尬了”
-
美智庫最新報告:這樣做,中美能共存
-
“哈里斯已經籌集到10多億美元,但她還想要更多”
-
央行兩項新工具今日實施!“預計還有降準降息”
-
耶倫強詞奪理:可不能獎勵中國
-
臺灣家長慌了,臺當局要把學生送上戰場?
-
“人們已經受夠了,希望他下臺”
-
美軍方操心:武器給了中東、烏克蘭,臺海出事可咋辦
-
辛瓦爾死了,以色列下一步怎么走?
-
朔爾茨:將繼續提供武器,幫助以色列“自衛”
-
被曝光后,“他明顯惱怒了”
-
中國邀請哥倫比亞,“美國急了”
-
美國首次出動B-2轟炸胡塞武裝,“對伊朗的警告”
-
特魯多一句話,被印度抓住了把柄
-
南非強硬要求臺當局:月底前把“代表處”遷出首都
-