久久久久久尹人网香蕉,99麻豆最新地址,久久精品人妻系列青青

APP下載

掃一掃

下載觀察者APP

學會反思的國產大模型，真變強了？
- 張廣凱13764468101
分享到：

2024-10-18 16:17:33 字號：A- A A+ 來源：觀察者網

真正能夠像人類一樣進行邏輯推理的大模型，距離我們還有多遠？

隨著OpenAI推出更側重推理能力的 o1大模型，推理大模型正成為行業新的競爭方向。本周一，月之暗面推出的Kimi探索版，成為國產推理大模型的最新代表。

讓大模型學會推理的訣竅是什么？各家廠商都提到了一個關鍵詞——反思。通過將復雜問題一步步拆分，并且對每一步的輸出結果進行反思檢驗，是降低大模型幻覺的有效途徑。而這樣的思路，看上去與人類的邏輯推理確實有一定相似性。

不過經過實測，我們發現現有大模型的邏輯推理能力仍然難以讓人滿意，這背后可能仍然繞不開大模型底層原理的限制。

但有趣的是，為了提高推理能力，國產大模型在使用工具的路上越走越遠，反而可能是當下最現實的大模型落地途徑之一。

推理大模型，真的會做題嗎？

上周五，月之暗面宣布推出Kimi探索版，并于本周一正式上線。

據官方介紹，Kimi探索版具備AI自主搜索能力，可以模擬人類的推理思考過程，多級分解復雜問題，執行深度搜索，并即時反思改進結果，提供更全面和準確的答案，幫助你更高效地完成分析調研等復雜任務。

那么實測來看，Kimi探索版實力究竟如何？

談到推理能力，人們往往最先想到的是數學。很多測評都使用高等數學題目去測試大模型的推理能力，并且往往能夠取得不錯的效果。

不過從實用層面來看，大部分用戶的需求并不是求解高數，而是解決日常生活中的應用題。

所以，我們打算讓Kimi替最近上市的新車樂道L60算筆賬。

蔚來換電體系下獨特的BaaS電池租賃方案，讓不少消費者在計算用車成本的時候也感到頭疼，樂道L60發布會后，到底怎么買更劃算引起了網友熱烈討論，不少網友甚至搬出了專業的會計知識。

我們問Kimi的問題是這樣的：分析樂道L60車輛采用BaaS方案下的每年用車成本，BaaS方案和電池買斷方案哪個更劃算。

可以看到，Kimi正確理解了BaaS的含義，雖然沒有意識到樂道是換電而不是充電，不過按充電成本算也沒有太大出入，整個邏輯基本是清晰的。

問題在于，雖然一開始提到了購車價格，但是在總用車成本的計算上，Kimi卻并沒有加上購車成本的折舊，沒達到我們想要的效果。

于是，我們要求Kimi把折舊成本考慮進去，結果是這樣的：

在最后的結論里，Kimi對購車價格和折舊成本進行了重復計算，顯然是錯誤的。而這個錯誤，恰恰說明Kimi對于成本和折舊的邏輯理解還存在不足。

作為對比，我們用ChatGPT-4o mini測試了相同的問題，發現4o mini可以正確理解包括折舊、BaaS在內的各項成本的邏輯，可是卻沒有正確獲得車輛的價格。

也就是說，Kimi并沒有表現出比GPT-4更好的邏輯能力，但是在中文信息檢索能力上卻更加優秀。事實上，后者也是Kimi真正的強項所在，后面我們會再次討論這一點。

不過在此之前，我們還發現了一個相對小眾的選手——學而思九章大模型，也相當值得關注。

提到學而思，大家都知道它是以教培起家，尤其擅長數學教學。而九章大模型也繼承了學而思的特長，專攻教育領域，并且宣稱有更好的數學能力。

當我們以上述問題測試九章大模型時，它的表現非常出色——不僅能正確理解車輛殘值、成本均攤等邏輯概念，還具體獲得了樂道BaaS“滿四減一”優惠、實際電耗水平等信息，因此給出的答案更能解決問題。

但美中不足的是，它并沒有給出車輛折舊的具體數字，導致最終沒有輸出一個明確的答案。

這究竟是一個缺點，還是優點？其實從邏輯來看，九章這么做的原因，應該是同樣出于“具體問題具體分析”的理念，由于自己沒辦法確定相關車輛的具體折舊率，因此就直接說明自己的不確定，充分保證了答案的嚴謹性。

看上去，九章的確更像是一個嚴謹、可靠的數學模型。

AI可能還沒有學會推理

強化大語言模型的推理能力，在技術上是怎么實現的？大家都提到了一個關鍵詞——反思。

月之暗面方面指出：就像人一樣，Kimi探索版可以借助反思能力，來提升和改進回答的質量。面對開放探索型問題，Kimi探索版發現第一次回答的信息存在缺失，會主動補充回答更多。面對數字相關的搜索問題，Kimi了解更多信息后如果發現了數據沖突，則會及時補充提供多方視角的信息供參考決策。

從上面的演示中可以看到，Kimi會把自己的思考過程展示出來，讓用戶明確看到自己進行了一次補充檢索。

九章大模型負責人白錦峰進一步解釋說，同大模型類似，人類在幼年時期同樣缺乏邏輯能力，會產生幻覺。但隨著人類的成長，會逐漸學會邏輯推理，讓自己的觀點在邏輯上自洽，并拿觀點去跟已經存在的事實進行校驗，從而消除幻覺。

白錦峰表示，目前大語言模型的第一性原理是Next Token Prediction，也就是通過預測下一個字符的方式給出答案，而這種預測是基于概率的，這決定了大模型一定會有出錯的概率。

為了提升準確率，目前的推理大模型普遍應用了CoT（思維鏈）和Voting&Verifier兩種算法，前者將復雜問題拆分為多個步驟，后者則對于每一步的結果進行反思，多做幾次檢驗來找到一致性最高的答案。

這兩種算法模仿了人類思維方式中的校驗過程，但其實仍然是基于概率，而不是邏輯推理。白錦峰指出，為了真正保證結果的正確性，大模型還需要應用定律的技術，例如學會使用數學定律來解決問題。

但是在應用定律方面，大模型仍然存在根本性的難點。白錦峰舉例說，像加法交換律（a+b=b+a）這樣簡單的定律，人類可以直接理解公式，但是大模型只能通過窮舉大量的案例（1+2=2+1等）來悟到這個規律。

因此，對于當前的大模型技術能否真正實現推理能力，很多人并不樂觀。美國著名AI科學家Yann LeCun近日就尖銳地表示，當下的模型“似乎在進行推理，但實際上它們只是在重復已經訓練過的信息”，按照現有訓練方式，無論多少GPU都不會讓我們實現AGI。

蘋果AI團隊的最新研究也認為：大語言模型在相同問題的不同版本上表現出高性能差異、難度略微增加時性能大幅下降以及對無關信息的敏感性，表明其推理能力很脆弱。它可能更像是復雜的模式匹配，而不是真正的邏輯推理。

從大模型到Agent

盡管以AGI的標準來衡量，目前的推理大模型還遠遠不夠完善，但是從實用層面，國產大模型正在這輪推理競賽展現出了一個重要進化——調用工具。

例如，九章大模型在解決數學問題的時候，采用了一個看似原始卻非常實用的辦法——直接調用計算器。就像人類一樣，學會使用工具，也是AI應當具備的能力。

Kimi調用的工具則是搜索引擎。Kimi探索版在回答問題時，最高能夠搜索并精讀500個網頁，相較于此前版本提升了10倍。

而且我們在實測中發現，Kimi列出的參考頁面普遍都來自較為權威的站點，內容質量也相對較高。在開放性的問題中，Kimi能夠充分保證輸出的客觀和準確性，這才是探索版給我們印象最深刻的地方。

Kimi 探索版產品負責人表示，“如果 Kimi 搜不到的信息，那大概率用戶也很難自己通過傳統搜索引擎找到。未來搜索引擎會成為AI更擅長調用的工具，人只需要專注于提出好的問題，AI就可以結合模型本身的能力在龐大的互聯網中自主海量搜索，不斷反思迭代，更精準地找到所需答案。”

對于大部分普通用戶來說，這話并不夸張。

從本質上講，調用工具使得這些模型更接近于AI Agent的概念。尤其是對于Kimi探索版，相當于替用戶完成了網頁檢索的任務，并且能夠幫助用戶去除搜索引擎中大量的低質量和營銷內容，實用性極強。

如果說，當前的AI理論本身就限制了大模型難以實現真正的邏輯能力，那么在理論突破之前，如何最大化模型的實用性，讓AI從Copilot向Agent盡可能地邁進，就是當下最重要的命題。

此外，從Kimi、九章的表現來看，國產大模型如今繼續提升實用性的方式，并不一定是增加規模，或者提出什么獨特的算法，而是通過專注于自己最擅長的垂直領域來提升準確率，并形成獨特護城河。

白錦峰舉例說，對于教育大模型來說，能答對問題和能教好學生之間，仍然存在區別。例如同樣是除法，用除號還是用分號來表示，在教學中就是不一樣的。對于小學生來說，因為還沒有學過分數，所以用分號就是錯誤的回答。因此，學而思利用自己長期積累的教材和教師資源，能夠做出更好的教育大模型。

專注垂直，也能夠讓成本更加可控。學而思方面人士向觀察者網直言，大模型初期投入是不可避免的，目前也看不到直接的回報，但投入又是必須要做的，否則等到技術成熟再發力，早就失去了上牌桌的機會。

但是學而思并沒有選擇去自己研發基座大模型，而是基于開源大模型的基礎，在百度云上進行千卡規模的訓練，以可控的成本實現了不錯的性能。

因此，國產推理大模型當下給我們的最大啟示，或許仍然是實用為王。
|

舉報
- 違反法律法規
- 垃圾信息、廣告
- 色情、淫穢信息
- 人身攻擊
- 謠言、不實信息
- 冒充，冒用信息
- 破壞社區秩序
- 其他
- 涉未成年人有害信息
觀察者網舉報制度規范
確定取消
標簽大模型
- 責任編輯: 張廣凱
- 滬指大漲近3%，創業板指飆升近8%！兩市成交額創9日以來新高
  
  2024-10-18 15:12 金融觀察
- 滬深兩市成交突破1.5萬億，芯片行業ETF放量飆升
  
  2024-10-18 14:10 觀網財經-金融
- 吳清：加快落實中長資金入市，嚴懲違規減持
  
  2024-10-18 13:59 觀網財經-宏觀
- 央行兩項新工具今日實施！“預計還有降準降息”
  
  2024-10-18 12:50 觀網財經-金融
- 諾基亞在中國裁員近2000人，在華份額已不到5%
  
  2024-10-18 11:19 觀網財經-科創
- 李德仁院士提出“時空智能學”
  
  2024-10-18 10:00 觀網財經-科創
- 歐洲央行宣布降息25個基點
  
  2024-10-17 20:34 金融觀察
- 美的科技月：累計獎勵超5億元，加強全球人才引入
  
  2024-10-17 20:26 觀網財經-科創
- 存量房貸下調后還有紅包：下月起定價機制可重新協商？
  
  2024-10-17 18:35 觀網財經-金融
- ?茅臺在香港降價千元？門店員工稱暫未接到通知
  
  2024-10-17 18:04 觀網財經-消費
- 成都將迎大規模拆遷？房小團發布澄清聲明
  
  2024-10-17 16:23 觀網財經-房產
- 英特爾向聯想交付1.8納米CPU樣品
  
  2024-10-17 16:18 觀網財經-科創
- 李彥宏：AI幻覺已基本解決，泡沫后1%的AI企業能脫穎而出
  
  2024-10-17 15:45 觀網財經-互聯網
- 你的寶貝正在路上，終于被翻譯對了
  
  2024-10-17 13:41 觀網財經-互聯網
- 京東物流官宣：將為淘寶天貓商家提供服務
  
  2024-10-17 13:41 觀網財經-互聯網
- 英特爾表態
  
  2024-10-17 13:06
- 住建部回應樓市“虹吸效應”
  
  2024-10-17 10:48 觀網財經-房產
- 朔爾茨再批歐盟對華關稅：我的訴求是…
  
  2024-10-17 09:16 德意志
- 無錫新政：可用上海二手房換購無錫新房
  
  2024-10-16 23:03 觀網財經-房產
- “中國拯救世界”，一部正在發生的偉大史詩
  
  2024-10-16 18:17 觀察者頭條
搜索

   觀察者頭條查看全部

美西方歡呼“勝利”，哈馬斯迅速任命代理領導人評論 103

央行兩項新工具今日實施！“預計還有降準降息” 評論 81

辛瓦爾死了，以色列下一步怎么走？評論 600

“以軍已打死哈馬斯領導人辛瓦爾” 評論 400

美國首次出動B-2轟炸胡塞武裝，“對伊朗的警告” 評論 328

   風聞 · 24小時最熱查看全部

   最新視頻查看全部
最新聞 Hot
快訊

久久久久精品免费福利电影,国产又黄又大又粗视频,A级毛片免费播放无码,人人妻人人爽人人澡欧美一区

學會反思的國產大模型，真變強了？

滬指大漲近3%，創業板指飆升近8%！兩市成交額創9日以來新高

滬深兩市成交突破1.5萬億，芯片行業ETF放量飆升

吳清：加快落實中長資金入市，嚴懲違規減持

央行兩項新工具今日實施！“預計還有降準降息”

諾基亞在中國裁員近2000人，在華份額已不到5%

李德仁院士提出“時空智能學”

歐洲央行宣布降息25個基點

美的科技月：累計獎勵超5億元，加強全球人才引入

存量房貸下調后還有紅包：下月起定價機制可重新協商？

?茅臺在香港降價千元？門店員工稱暫未接到通知

成都將迎大規模拆遷？房小團發布澄清聲明

英特爾向聯想交付1.8納米CPU樣品

李彥宏：AI幻覺已基本解決，泡沫后1%的AI企業能脫穎而出

你的寶貝正在路上，終于被翻譯對了

京東物流官宣：將為淘寶天貓商家提供服務

英特爾表態

住建部回應樓市“虹吸效應”

朔爾茨再批歐盟對華關稅：我的訴求是…

無錫新政：可用上海二手房換購無錫新房

“中國拯救世界”，一部正在發生的偉大史詩

美西方歡呼“勝利”，哈馬斯迅速任命代理領導人

中企拿下！“這下歐盟要尷尬了”

美智庫最新報告：這樣做，中美能共存

“哈里斯已經籌集到10多億美元，但她還想要更多”

央行兩項新工具今日實施！“預計還有降準降息”

耶倫強詞奪理：可不能獎勵中國

臺灣家長慌了，臺當局要把學生送上戰場？

“人們已經受夠了，希望他下臺”

美軍方操心：武器給了中東、烏克蘭，臺海出事可咋辦

辛瓦爾死了，以色列下一步怎么走？

朔爾茨：將繼續提供武器，幫助以色列“自衛”

被曝光后，“他明顯惱怒了”

中國邀請哥倫比亞，“美國急了”

美國首次出動B-2轟炸胡塞武裝，“對伊朗的警告”

特魯多一句話，被印度抓住了把柄

南非強硬要求臺當局：月底前把“代表處”遷出首都