• 正文
    • 01.大模型Claude被放論文一作駁斥蘋果的“AI崩潰論”
    • 02.蘋果AI論文七大質疑紐約大學名譽教授:都缺乏說服力
    • 03.Salesforce新研究“撞題”蘋果:多輪推理測試下準確率僅35%
    • 04.UC伯克利論文:視覺語言模型很脆弱,只會學習捷徑
    • 05.結語:蘋果AI論文爭議呼喚新評估范式
  • 相關推薦
申請入駐 產業(yè)圖譜

蘋果被硅谷AI圈圍毆了!

5小時前
150
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

大模型評估體系崩塌?蘋果之外,UC伯克利、Salesforce連環(huán)論文狙擊。

作者 | ?李水青
編輯 | ?心緣

智東西6月21日報道,自上周蘋果發(fā)表一篇論文,質疑大模型的思考能力,并論證大模型在復雜難題上“準確率崩潰”后,不少產業(yè)人士對其進行了圍攻。(《蘋果AI“暴論”震動AI圈!DeepSeek、Claude等熱門大模型只是死記的模式機器?》)近日,紐約大學名譽教授、《代數思維》和《深度學習正在遭遇瓶頸》的作者加里·馬庫斯(Gary Marcus)發(fā)文總結了反駁蘋果論點的7個觀點,包括“人類也無法做到真推理”、“實驗例子設計存在邏輯漏洞”、“推理內容超出token限制導致結果失真”、“一作是實習生”等,并對此進行了一一駁斥,證明這些觀點缺乏說服力。

馬庫斯還援引全球SaaS龍頭Salesforce于5月24日發(fā)布的一篇論文,擁護蘋果的觀點。這篇論文提到,在可能需要推理和算法精度的“多輪”條件下,即便是Gemini-2.5-Pro這樣的頂級模型在測試中性能僅為35%。

此外,加州大學伯利克里分校于6月9日發(fā)表的一篇論文展示了視覺語言模型的脆弱性:“視覺語言模型的表現明顯比其視覺編碼器差,性能會下降到接近偶然水平?!边@也被認為是蘋果“大模型崩潰論”的有力論證。

值得一提的是,參與這場AI論辯的除了人類還有AI作者。此前6月10日,大模型Claude被放在arXiv論文的一作,與一名人類作者聯(lián)合“發(fā)文”質疑蘋果的實驗設計有問題,強調所謂的“推理崩潰”其實只是token限制導致。

01.大模型Claude被放論文一作駁斥蘋果的“AI崩潰論”

蘋果剛剛發(fā)布一篇論文質疑大型推理模型是“假思考”,就有大模型“本模”跳出來反駁了。6月10日,Anthropic旗下大模型Claude被一位名為Lawsen的人類作者放在論文一作,在arXiv平臺上“發(fā)表”了一篇題為《思維的幻覺的幻覺(The Illusion of the Illusion of Thinking)》的論文。

蘋果此前的論文報告大型推理模型在超過特定復雜度閾值的規(guī)劃難題上會表現出“準確率崩潰”,Claude的這篇論文則試圖證明,他們發(fā)現這主要反映了實驗設計的局限性,而非根本性的推理失敗。這篇論文主要攻擊了蘋果AI論文中的河內塔實驗。河內塔游戲是一種經典的游戲,它有三個柱子和多個圓盤,玩家需要將左側柱子上的所有圓盤移動到右側柱子上,并且不能將較大的圓盤堆疊在較小的圓盤上。論文的分析揭示了三個關鍵問題:1、河內塔實驗在報告的失敗點系統(tǒng)性地超出了模型輸出token的限制,而模型在其輸出中明確承認了這些限制;2、作者的自動評估框架未能區(qū)分推理失敗和實際約束,導致模型能力分類錯誤;3、最令人擔憂的是,他們的“過河”基準測試包含了由于船只容量不足導致N>5在數學上不可能出現的實例,但模型卻因未能解決這些無法解決的問題而被評為失敗。當他們控制這些實驗結果時,通過請求生成函數而不是詳盡的移動列表,跨多個模型的初步實驗表明,此前被報告為完全失敗的河內塔實例具有很高的準確率。這些發(fā)現凸顯了在評估AI推理能力時,精心設計實驗的重要性。這篇論文的觀點得到不少人的贊同。有網友認為,Claude的批評證明了象征性限制扭曲了大模型的產出。蘋果的“推理崩潰”是技術性的,而非根本性的——研究方法終將適應。也有人稱“token限制論證為性能指標提供了新的視角”,并認為“看到AI直接參與學術討論很有趣了?!?/p>

不少網友贊嘆“AI作為一作的時代正式到來”、“C. Opus將成為被引用次數最多的研究人員之一”、“現在每個人都在讀LLM的文章,甚至連研究人員都一樣”,這側面論證了大模型的強大能力。

但反駁的聲音依然強大。X平臺用戶Chomba Bupe說:“整件事都只是在重復我在推特上看到的那些觀點。Claude到底貢獻了什么,竟然被列為作者?如果語言模型(LM)連需要255次迭代的算法都執(zhí)行不了,那它還有什么用?”

02.蘋果AI論文七大質疑紐約大學名譽教授:都缺乏說服力

針對大量反駁蘋果AI論文的觀點,紐約大學名譽教授、《代數思維》和《深度學習正在遭遇瓶頸》的作者加里·馬庫斯進行了總結,依次列出了七個論點并進行了一一反駁??偟膩碚f,馬庫斯認為所有這些反駁都缺乏說服力。蘋果的論文再次明確表明,規(guī)?;⒎墙鉀Q之道。觀點1:人類在處理復雜問題和內存需求方面存在困難。馬庫斯反駁稱:“沒錯。但這還不夠全面。我們完全有理由期待機器去做我們做不到的事情。汽車擁有更強的耐力,計算器不會犯算術錯誤。這就是我們發(fā)明計算機的原因:進行無差錯的重復計算。而且在很多情況下,包括論文中重點提到的河內塔問題,我們現有的系統(tǒng)都能完美運行,不會出現任何錯誤。AGI應該向前邁一步。但在很多情況下,大語言模型反而是倒退了一步。請注意,他們把‘我們要構建能夠徹底改變世界的AGI’變成了‘相信我們,我們的系統(tǒng)會犯錯,人類也會犯錯’。蘋果論文的真正要點是,隨著算法復雜度和與訓練分布的距離不斷增加,大語言模型不再適合用來運行算法,就像人類不應該充當計算器一樣。如果我們想要實現AGI,就必須做得更好。”觀點2:大型推理模型無法解決問題,是因為輸出需要太多的輸出標記(也就是說,正確答案太長,大型推理模型無法生成)。馬庫斯反駁稱:“這部分屬實,但也是一個非常巧妙的觀察:大型推理模型有一個缺點,那就是其輸出長度有限。對于某些大型推理模型來說,12步河內塔的正確答案太長,無法輸出,作者應該已經解決了這個問題。但關鍵在于:1、這個反對意見雖然很巧妙,但實際上并不能解釋結果的整體模式。大型推理模型在8個盤的河內塔問題上失敗了,其中最優(yōu)解是255步,完全在所謂的標記限制之內;2、編寫良好的符號人工智能系統(tǒng)通常不會遇到這個問題,通用人工智能也不應該遇到這個問題。大語言模型的長度限制是一個Bug,絕對不是一個特性。再說,如果大語言模型連像“河內塔”這樣基本的計算都無法可靠地完成,你怎么能認為它能夠正確計算軍事戰(zhàn)略(尤其是在戰(zhàn)爭迷霧籠罩的情況下)或分子生物學(存在許多未知數)呢?蘋果團隊要求的比現實世界通常要求的要簡單得多?!?strong>觀點3:這篇論文是由一名實習生撰寫的。馬庫斯反駁稱:“這讓我很生氣,因為它是一種人身攻擊而不是實質內容,它具有誤導性,幾乎不真實,而且完全缺乏背景。第一作者確實是蘋果的實習生Parshin Shojaee,但馬庫斯強調:1、她也是一位非常有前途的三年級博士生,曾在許多主要會議上發(fā)表過論文。2、如果你真的讀過這篇文章,就會清楚地發(fā)現她與擁有博士學位的Iman Mirzadeh共同承擔領導責任。3、這篇論文實際上有六位作者,而不是一位,其中四位擁有博士學位;其中一位是Yoshua Bengio的兄弟Samy Bengio,他在機器學習社區(qū)中非常有名氣4、在許多科學領域,像這篇論文一樣,把初級作者放在第一位,資深作者放在最后,這是一種常見的做法;成千上萬篇重要論文都這么做了,而且從未因此受到批評。5、真正重要的是論文的質量。Alfred Sturtevant在發(fā)明基因圖譜時還是一名本科生?!?strong>觀點4:更大的模型可能會做得更好。馬庫斯反駁稱:“沒錯,情況總是如此,我看到過一份報告稱o3-pro至少在某些時候可以解決其中一個問題。更大的模型有時會做得更好,因為模型本身有真正的改進,有時是因為針對特定問題進行了訓練。從外部我們永遠無法知道是哪種原因。但問題是,我們無法提前知道對于任何給定的問題,哪個模型足夠大。蘋果的結果是,一些相當大的模型可以在6個圓盤的河內塔游戲中取得成功,給人一種精通的假象,但到8張圓盤時就會崩潰,這不是好的信號。人們只需要一直測試所有的東西,而幾乎沒有任何保證。有些模型可能對規(guī)模為S的任務T來說足夠大,但在下一個規(guī)?;蚵杂胁煌娜蝿誘'上會失敗,等等。這一切都變成了擲骰子游戲?!?strong>觀點5:這些系統(tǒng)可以用代碼解決難題。馬庫斯反駁稱:“在某些情況下確實如此,這對于神經符號人工智能來說是一個巨大的勝利,因為它們無法在沒有代碼的情況下可靠地解決難題,而且代碼是符號化的。這極大地證明了我一直以來的說法:我們需要一種能夠整合神經網絡和符號算法及表示,例如邏輯、代碼、知識圖譜等的人工智能。但同時,我們需要可靠地、通用地做到這一點,而我們還沒有跨過這個門檻。重要的是,蘋果論文的目標是了解大型推理模型如何通過推理和回溯在無人協(xié)助的情況下探索解決方案,而不是了解它如何很好地利用從網絡上檢索到的現有代碼。打個比方:學生可能會抱怨數學考試需要手算積分或微分,即使數學軟件可以立即給出正確答案。然而,老師布置問題的目的并非尋找問題的答案,而是評估學生對概念的理解。大語言模型真的理解河內塔算法的概念嗎?這正是蘋果團隊想要探究的。大語言模型能下載正確的代碼嗎?當然可以。但如果遇到新問題、環(huán)境瞬息萬變等情況,在沒有概念理解的情況下下載代碼就沒什么用了?!?strong>觀點6:這篇論文只有四個例子,其中至少有一個(河內塔)并不完美。馬庫斯反駁稱:“例子可能都不是完美的,但這四個例子加在一起,提供了與數十篇其他先前論文相吻合的證據,他相信還會發(fā)現更多的例子。他自己已經在算法應用中發(fā)現了幾個類似的錯誤,將在幾天后寫出來。紐約大學的Tal Linzen剛剛發(fā)表了另一個例子,其中模型……能夠更正簡單版本的語言問題(小型語法、短字符串),但隨著問題變得更加復雜,準確率會迅速下降。馬庫斯認為,假以時日,我們將看到大量論文強化蘋果的結果。”觀點7:這篇論文并非新鮮事,我們早已知道這些模型泛化能力很差。馬庫斯反駁稱:“沒錯,但為什么我們認為這些模型是通往通用人工智能的康莊大道呢?除了這是一項巧妙的研究,明確了一個重要觀點之外,真正的新聞是,人們終于開始關注生成式AI的兩大致命弱點之一,并認識到其重要性。順便說一句,同時聽到‘這是錯的’和‘我們早就知道’真是太搞笑了。至少有一次,我看到一個人同時說出了這兩句話,間隔幾分鐘。歸根結底所有這些反駁都缺乏說服力。如果像Sam Altman這樣的人感到緊張,那是因為他們應該緊張。蘋果的論文再次明確表明,規(guī)?;⒎墙鉀Q之道;這一次,人們終于開始關注這個問題了?!?/p>

03.Salesforce新研究“撞題”蘋果:多輪推理測試下準確率僅35%

除了馬庫斯的一系列反駁,Salesforce最新發(fā)布的一篇論文擁護了蘋果的觀點。論文證明,在可能需要推理和算法精度的“多輪”條件下,即便是Gemini-2.5-Pro這樣的頂級模型在測試中性能僅為35%。馬庫斯認為這足以和蘋果的論文融合證明當前的技術不可信。讓我們來具體看看這篇論文,論文發(fā)布于2025年5月24日,題為:《CRMArena-Pro:對不同業(yè)務場景和互動中的大語言模型智能體進行全面評估(CRMArena-Pro:Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions)》論文提到,盡管智能體(AI Agent)在商業(yè)領域擁有變革潛力,但由于廣泛使用的平臺上缺乏公開且真實的業(yè)務數據,有效的性能基準測試受到阻礙。現有的基準測試通常對其環(huán)境、數據和智能體與用戶交互缺乏保真度,對各種業(yè)務場景和行業(yè)的覆蓋范圍有限。為了彌補這些不足,Salesforce推出了CRMArena-Pro,這是一個全新的基準測試,用于對各種專業(yè)環(huán)境中的大語言模型智能體進行全面、真實的評估。CRMArena-Pro在CRMArena的基礎上進行了擴展,包含19項經專家驗證的任務,涵蓋銷售、服務和“配置、定價和報價”流程,適用于B2B和B2C場景,融合了由不同角色引導的多輪交互和保密意識評估。

實驗表明,領先的大語言模型在CRMArena-Pro上的單輪成功率僅為58%左右,在多輪設置下,性能顯著下降至約35%。雖然工作流執(zhí)行對于頂尖的智能體來說更容易掌握(單輪成功率超過83%),但其他經評估的業(yè)務技能卻面臨更大的挑戰(zhàn)。此外,智能體的固有保密意識幾乎為零;雖然有針對性的提示可以改善這種情況,但這往往會損害任務績效。

這些發(fā)現凸顯了當前大語言模型能力與企業(yè)需求之間的巨大差距,展示了在多輪推理、保密性和多功能技能習得方面取得進步的必要性。這篇論文同樣質疑了當下主流測試基準的價值,并通過一個基于業(yè)務場景數據的新基準論證了主流推理模型能力的不足。此外,其中有一句話對于很多企業(yè)來說都是一個破壞因素:幾乎零保密性。這又攻擊了大語言模型在信息安全上的不足。

04.UC伯克利論文:視覺語言模型很脆弱,只會學習捷徑

另一篇論文展示了視覺語言模型(VLM)的脆弱性:“視覺語言模型的表現明顯比其視覺編碼器差,性能會下降到接近偶然水平”,X用戶Chomba Bupe認為,這意味著語言模型只是忽略了來自視覺編碼器的豐富信息然后輸出內容。

他談道:“理解視覺信息需要某種形式的抽象推理,如果沒有推理,連接到視覺編碼器(VE)的語言模型只會學習捷徑,即忽略來自VE的信息并編造看起來合理但毫無意義的細節(jié)。”讓我們具體來看下這篇論文,論文由加州大學伯利克里分校于2025年6月9日發(fā)布,題為:《隱藏在顯而易見的地方:視覺語言模型忽略了它們的視覺表現(Hidden in plain sight: VLMs overlook their visual representations)》。論文提到,語言提供了一個自然的界面來指定和評估視覺任務的性能。為了實現這一可能性,視覺語言模型必須成功地整合視覺和語言信息。UC伯克利研究人員的工作將視覺語言模型與其視覺編碼器的直接讀數進行比較,以了解它們跨模態(tài)整合的能力。在一系列以視覺為中心的基準測試(例如深度估計、對應性)中,他們發(fā)現視覺語言模型的性能明顯低于其視覺編碼器,性能下降到接近偶然水平。他們通過對整個視覺語言模型進行一系列分析來探究這些結果:1、視覺表征的退化,2、對任務提示的脆弱性,以及3、語言模型在解決任務中的作用。他們發(fā)現,執(zhí)行這些以視覺為中心的任務的瓶頸就在于這第三類。視覺語言模型無法有效地利用整個模型中易于訪問的視覺信息,并且它們繼承了大語言模型中存在的語言先驗。如下圖所示,在所有任務中,盡管視覺編碼器的性能存在較大差異,但視覺編碼器的表現均顯著優(yōu)于視覺語言模型評估和盲評估。此外,盡管DINOv2在6項任務中的5項里是性能最強的編碼器,但它在任何任務中都未使視覺語言模型方法達到最高性能。

05.結語:蘋果AI論文爭議呼喚新評估范式

這場圍繞蘋果論文引發(fā)的學術論戰(zhàn)超出技術細節(jié)爭論,觸及大模型發(fā)展前景的信仰。一方面這種違背共識的觀點受到了來自多方的圍攻,另一方面,Salesforce和UC伯克利的研究則從多輪復雜推理任務的顯著低成功率、以及視覺語言模型對視覺信息利用的脆弱性等不同角度,提供了有力的佐證。這場爭論不僅指出了“規(guī)模化”路徑的潛在局限,更倡導評估范式的革新與底層架構的突破。未來的突破點或許在于更深入地理解模型失效的根源,設計更能真實反映智能本質的測試基準,以及探索神經符號結合等新架構,使AI不僅能識別模式,更能進行可靠、可泛化的計算與推理。

(本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創(chuàng)內容,未經賬號授權,禁止隨意轉載。)

相關推薦