編者按:日前,楊立昆(Yann LeCun)應(yīng)邀在AMS(美國(guó)數(shù)學(xué)學(xué)會(huì))著名的Josiah Willard Gibbs講座上,進(jìn)行了主題為《通往人類水平人工智能的數(shù)學(xué)障礙》的演講。
楊立昆,法國(guó)計(jì)算機(jī)科學(xué)家,現(xiàn)任Meta首席AI科學(xué)家和紐約大學(xué)教授。他在機(jī)器學(xué)習(xí)、計(jì)算機(jī)視覺、移動(dòng)機(jī)器人和計(jì)算神經(jīng)科學(xué)等領(lǐng)域都有很多貢獻(xiàn)。他最著名的工作是在光學(xué)字符識(shí)別和計(jì)算機(jī)視覺上使用卷積神經(jīng)網(wǎng)絡(luò),他也被稱為卷積網(wǎng)絡(luò)之父。他同萊昂·博圖和帕特里克·哈夫納(Patrick Haffner)等人創(chuàng)建了DjVu圖像壓縮技術(shù),同萊昂·博圖開發(fā)了Lush語言。2018年他和約書亞·本希奧以及杰弗里·辛頓共同獲得計(jì)算機(jī)學(xué)界最高獎(jiǎng)項(xiàng)圖靈獎(jiǎng)。
楊立昆多次公開批評(píng)大語言模型(如GPT)的局限性,認(rèn)為其缺乏真正的理解能力。他認(rèn)為當(dāng)前實(shí)現(xiàn)AI的方法(如大語言模型)在表面智能下隱藏著本質(zhì)缺陷,無法實(shí)現(xiàn)真正的理解或推理。他呼吁轉(zhuǎn)向更接近人類認(rèn)知的架構(gòu),強(qiáng)調(diào)自主學(xué)習(xí)、世界建模和低能耗高效學(xué)習(xí)。也因此,他備受爭(zhēng)議,在輿論和工業(yè)界的影響力被邊緣化。支持者認(rèn)為他是“清醒的批判者”,反對(duì)者則認(rèn)為他“低估了大模型的潛力”。他在社交媒體上頻繁辯論,甚至被部分激進(jìn)的大模型擁護(hù)者攻擊。
Josiah Willard Gibbs講座由AMS于1923年成立,旨在強(qiáng)調(diào)數(shù)學(xué)在推進(jìn)研究和應(yīng)對(duì)實(shí)際挑戰(zhàn)方面不斷發(fā)展的作用。以數(shù)學(xué)物理學(xué)家Josiah Willard Gibbs(1839-1903)的名字命名,他的基礎(chǔ)工作影響了理論和應(yīng)用科學(xué)。該講座旨在表彰那些展示了數(shù)學(xué)深度和廣度的貢獻(xiàn)者,受邀亦被視為學(xué)術(shù)界的榮譽(yù)。
楊立昆的這次演講長(zhǎng)達(dá)一小時(shí),本文在保持原意前提下進(jìn)行了適度濃縮,重點(diǎn)突出了從數(shù)學(xué)視角分析AI瓶頸的核心論述。以下為演講內(nèi)容。
今天我要探討的是人工智能,這個(gè)全民熱議的領(lǐng)域,特別是通往人類級(jí)AI道路上的障礙。許多AI研究者認(rèn)為,未來十年我們或許能構(gòu)建出具備人類智能雛形的機(jī)器。關(guān)于實(shí)現(xiàn)時(shí)間的預(yù)測(cè)眾說紛紜:最樂觀者宣稱已觸手可及,某些融資方聲稱明年就能實(shí)現(xiàn)(我個(gè)人持懷疑態(tài)度),但我認(rèn)為確有突破可能。接下來我將闡述AI研究的應(yīng)然方向、現(xiàn)存障礙——其中不少本質(zhì)上是數(shù)學(xué)障礙。
為何需要人類級(jí)AI?因?yàn)樵诓痪玫膶?,AI助手將如影隨形。通過智能眼鏡等設(shè)備(當(dāng)前無屏版本已商用,帶顯示屏的高端型號(hào)也即將面世,Meta同事研發(fā)的Orion原型就是例證),我們終將實(shí)現(xiàn)全天候的語音交互與智能輔助。想象每個(gè)人都能像政要或CEO那樣,擁有智能虛擬團(tuán)隊(duì)隨時(shí)待命。但現(xiàn)實(shí)是:我們尚未掌握構(gòu)建這種系統(tǒng)的技術(shù)。
當(dāng)前機(jī)器學(xué)習(xí)的學(xué)習(xí)效率遠(yuǎn)遜于生物。無論是監(jiān)督學(xué)習(xí)(需要標(biāo)注數(shù)據(jù))還是強(qiáng)化學(xué)習(xí)(僅反饋好壞),其樣本效率都難以企及人類舉一反三的能力。近年興起的自監(jiān)督學(xué)習(xí)雖革新了AI(如大語言模型ChatGPT的核心技術(shù)),但仍有根本局限:它僅通過預(yù)測(cè)序列中的下一個(gè)符號(hào)(如文本中的單詞)來訓(xùn)練,而人類卻能通過極少量樣本理解世界運(yùn)作規(guī)律,具備常識(shí)推理與目標(biāo)導(dǎo)向行為。
大語言模型的工作原理本質(zhì)是自回歸預(yù)測(cè):通過海量文本訓(xùn)練神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)序列中的下一個(gè)符號(hào)(如單詞或DNA堿基)。雖然這種技術(shù)在處理離散符號(hào)時(shí)表現(xiàn)出色,但其數(shù)學(xué)本質(zhì)決定了致命缺陷——自回歸預(yù)測(cè)是指數(shù)發(fā)散的誤差累積過程。假設(shè)每次預(yù)測(cè)有微小誤差,隨著序列延長(zhǎng),正確概率會(huì)呈指數(shù)級(jí)衰減((1-ε)^n)。即便誤差率ε極低,長(zhǎng)序列生成也必然偏離合理范圍。這就是當(dāng)前大語言模型時(shí)?!昂詠y語”的根源。因此我斷言:自回歸模型終將被淘汰。
要實(shí)現(xiàn)真正的人類級(jí)AI(我更愿稱之為“高級(jí)機(jī)器智能/AMI”,法語中意為“朋友”),必須突破五大能力:1)通過感知輸入學(xué)習(xí)世界模型;2)具備持久記憶;3)規(guī)劃復(fù)雜行動(dòng)序列;4)邏輯推理能力;5)本質(zhì)安全的系統(tǒng)架構(gòu)。這要求我們徹底革新AI的推理范式——從現(xiàn)行的固定計(jì)算步長(zhǎng)前饋網(wǎng)絡(luò),轉(zhuǎn)向基于優(yōu)化的推理系統(tǒng)。
這種“目標(biāo)驅(qū)動(dòng)AI”并非新概念:最優(yōu)控制中的模型預(yù)測(cè)控制(MPC)正是典型案例。其核心是構(gòu)建可微的世界模型和代價(jià)函數(shù),通過梯度下降優(yōu)化行動(dòng)序列。但面臨三大數(shù)學(xué)挑戰(zhàn):1)不確定環(huán)境下的潛變量建模;2)分層規(guī)劃(人類天然具備將巴黎之行分解為“打車-值機(jī)-登機(jī)”子任務(wù)的能力);3)非確定性動(dòng)力學(xué)中的優(yōu)化收斂性。
為學(xué)習(xí)世界模型,我們需要摒棄生成式架構(gòu)(其預(yù)測(cè)模糊均值的問題無解),轉(zhuǎn)向聯(lián)合嵌入預(yù)測(cè)架構(gòu)(JEPA)。JEPA通過編碼器提取抽象表征,過濾不可預(yù)測(cè)的細(xì)節(jié)(如視頻中墻面紋理),僅保留可預(yù)測(cè)的因果結(jié)構(gòu)。訓(xùn)練這類系統(tǒng)需解決能量模型的兩個(gè)根本問題:防止坍塌(能量函數(shù)趨于常值)和高效正則化。
我們提出的VICReg方法(方差-協(xié)方差正則化)通過對(duì)表征矩陣列向量實(shí)施去相關(guān)約束,比對(duì)比學(xué)習(xí)更適合高維空間。有趣的是,當(dāng)用此方法訓(xùn)練PDE系數(shù)識(shí)別系統(tǒng)時(shí),其表現(xiàn)竟優(yōu)于監(jiān)督學(xué)習(xí)——這暗示自監(jiān)督可能揭示了更深層的物理規(guī)律。
在視頻預(yù)測(cè)任務(wù)中,經(jīng)過掩碼訓(xùn)練的JEPA系統(tǒng)展現(xiàn)出類“常識(shí)”:當(dāng)看到物體違反物理規(guī)律消失時(shí),其預(yù)測(cè)誤差會(huì)驟增,就像九個(gè)月大嬰兒對(duì)懸浮物體的驚訝反應(yīng)。在機(jī)器人規(guī)劃實(shí)驗(yàn)中,基于自監(jiān)督表征的世界模型能成功指導(dǎo)機(jī)械臂將散落積木排列成陣——盡管系統(tǒng)從未見過精確的“方形”定義。
這些突破指向一個(gè)未來:開放平臺(tái)的AMI將成為人類智能的放大器。要實(shí)現(xiàn)這個(gè)愿景,我們必須:
1)用聯(lián)合嵌入替代生成模型;
2)以能量函數(shù)替代概率模型;
3)發(fā)展基于正則化的學(xué)習(xí)方法;
4)用模型預(yù)測(cè)控制取代強(qiáng)化學(xué)習(xí)。
對(duì)于年輕研究者,我的建議是:切勿扎堆大語言模型研究(你無法抗衡萬卡集群),而應(yīng)投身世界模型、分層規(guī)劃等基礎(chǔ)問題——那里才有真正的智能密碼。