走過(guò)2024,AI大模型帶來(lái)哪些啟發(fā)?
過(guò)去一年,大模型技術(shù)的最大變量就是規(guī)模秘訣Scaling Law是否繼續(xù)有效。大洋彼岸,OpenAI的GPT-5遲遲未公布,不過(guò)被Sam Altman喻為“新范式開始”的o系列推理模型,也帶來(lái)了一些意外之喜——讓AI多花時(shí)間“思考(推理)”,反而能解決一些沒(méi)訓(xùn)練過(guò)的難題,這讓大模型能從每次嘗試中不斷學(xué)習(xí),展現(xiàn)出了在科學(xué)、數(shù)學(xué)、代碼等領(lǐng)域解決復(fù)雜問(wèn)題的能力。
在這個(gè)技術(shù)轉(zhuǎn)型期,國(guó)內(nèi)大模型也已經(jīng)悄然分野。
一種是打造跨行業(yè)通用的大模型,向醫(yī)療、工業(yè)、教育等領(lǐng)域加速滲透;另一種則是繼續(xù)在前沿領(lǐng)域提升,打造“AI超級(jí)學(xué)霸”,持續(xù)提升針對(duì)特定應(yīng)用場(chǎng)景的質(zhì)量水平。
“Scaling”是不變的關(guān)鍵詞,通過(guò)強(qiáng)化學(xué)習(xí)持續(xù)提效
對(duì)標(biāo)OpenAI,Kimi已經(jīng)取得了引入矚目的成果。如何看待Open AI o系列帶來(lái)的深遠(yuǎn)影響?kimi方面告訴<與非網(wǎng)>,其主要意義在于提升了AI的上限,而這其中,強(qiáng)化學(xué)習(xí)起到了關(guān)鍵作用。
現(xiàn)在AI提升生產(chǎn)力的方式,要么是提升5%、10%,要么是實(shí)現(xiàn)十倍GDP的增長(zhǎng),而強(qiáng)化學(xué)習(xí)等提效手段能夠進(jìn)一步推動(dòng)AI的scaling,從而實(shí)現(xiàn)更大幅度的提升。另外,從數(shù)據(jù)資源的角度來(lái)看,當(dāng)前業(yè)界普遍擔(dān)心互聯(lián)網(wǎng)大部分優(yōu)質(zhì)數(shù)據(jù)已被使用完,難以進(jìn)一步挖掘數(shù)據(jù)價(jià)值。而強(qiáng)化學(xué)習(xí)與大模型結(jié)合,使得AI可以在有限數(shù)據(jù)的情況下繼續(xù)發(fā)展,突破數(shù)據(jù)瓶頸。
Kimi去年11月中旬發(fā)布的k0-math 數(shù)學(xué)模型,在中考、高考、考研以及包含入門競(jìng)賽題的MATH等四個(gè)不同級(jí)別的數(shù)學(xué)基準(zhǔn)測(cè)試中,成績(jī)均超越了o1-mini和o1-preview。12月中旬發(fā)布的視覺(jué)思考模型k1,支持端到端的圖像理解和思維鏈(CoT),不僅推理能力進(jìn)一步提升,還可以識(shí)別幾何圖形、圖表等圖像信息。在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)領(lǐng)域的基準(zhǔn)能力測(cè)試中,k1的表現(xiàn)超越了Open AI o1、GPT-4o及 Claude 3.5 Sonnet。
“如果說(shuō)長(zhǎng)文本是月之暗面登月的第一步,那么提升模型深度推理能力則是第二步”,月之暗面創(chuàng)始人楊植麟表示。
大模型的規(guī)模法則Scaling laws能否繼續(xù)有效?楊植麟認(rèn)為,“Scaling”對(duì)AI而言是不變的關(guān)鍵詞,但這并不意味把模型做得更大就好,而是要找到有效的方法來(lái)Scale,比如更好的數(shù)據(jù)和方法。他強(qiáng)調(diào),Kimi會(huì)越來(lái)越關(guān)注基于強(qiáng)化學(xué)習(xí)的方法來(lái)Scale,接下來(lái)AI發(fā)展的方向還是會(huì)持續(xù)地Scale,只是過(guò)程不一樣,會(huì)更多運(yùn)用強(qiáng)化學(xué)習(xí),在強(qiáng)化學(xué)習(xí)的過(guò)程中生成更多的數(shù)據(jù)來(lái)進(jìn)行。
不論是OpenAI還是Kimi,新的方向其實(shí)意味著,AI大模型正在經(jīng)歷一場(chǎng)“效能革命”,正在從以往的“規(guī)模擴(kuò)張”模式向“效率躍升”模式轉(zhuǎn)變,而這一轉(zhuǎn)變將為AI的未來(lái)發(fā)展注入強(qiáng)勁動(dòng)力。
以往,業(yè)界往往關(guān)注大模型的參數(shù)規(guī)模和數(shù)據(jù)量,認(rèn)為“更大即更好”。但如今開始意識(shí)到,單純的規(guī)模擴(kuò)張已無(wú)法滿足實(shí)際應(yīng)用需求,必須通過(guò)“提效”來(lái)實(shí)現(xiàn)真正的價(jià)值轉(zhuǎn)化。而“提效”的手段是多種多樣的,可以是提升模型效率,可以是突破數(shù)據(jù)資源限制,也可以是打破算力瓶頸束縛……通過(guò)提效來(lái)最大化大模型的應(yīng)用價(jià)值和產(chǎn)業(yè)效益。
大模型走向LLM+LRM,提升“模算效率”對(duì)產(chǎn)業(yè)落地至關(guān)重要
為了準(zhǔn)確描述以O(shè)penAI o系列為代表的技術(shù)演進(jìn),業(yè)界提出了LRM(Large Reasoning Model)這一全新概念,也標(biāo)志著大模型技術(shù)進(jìn)入了一個(gè)嶄新的發(fā)展階段。
相較于LLM,LRM展現(xiàn)出了顯著的技術(shù)進(jìn)步。LRM不再局限于簡(jiǎn)單的文本生成和預(yù)測(cè),而是專注于復(fù)雜的多步驟推理任務(wù),采用鏈?zhǔn)剿季S(Chain-of-Thought)推理方法,將復(fù)雜問(wèn)題分解為可管理的步驟,并通過(guò)強(qiáng)化學(xué)習(xí)(RL)不斷提升決策能力。在架構(gòu)上,LRM具備動(dòng)態(tài)調(diào)整推理路徑的能力,相比LLM,能更好地適應(yīng)復(fù)雜任務(wù)場(chǎng)景。
根據(jù)浪潮信息方面的解釋,LRM并非取代LLM,而是與之形成互補(bǔ)關(guān)系。因?yàn)樵趯?shí)際應(yīng)用中,LLM擅長(zhǎng)自然語(yǔ)言理解、文本生成等基礎(chǔ)能力,與LRM的深度推理能力相結(jié)合,能夠創(chuàng)造出更強(qiáng)大的AI系統(tǒng)。這種LLM+LRM的協(xié)同模式正在成為未來(lái)AI應(yīng)用的主流發(fā)展方向,為各個(gè)領(lǐng)域帶來(lái)更多可能性。
浪潮信息告訴<與非網(wǎng)>,在有限的算力資源條件下,實(shí)現(xiàn)算力消耗更低、推理和訓(xùn)練效果更優(yōu)的大模型開發(fā),已經(jīng)成為產(chǎn)業(yè)當(dāng)前的重點(diǎn)趨勢(shì),提升“模算效率”對(duì)大模型產(chǎn)業(yè)落地至關(guān)重要。
在保證模型智能高水平的基礎(chǔ)上,有效降低模型落地的算力門檻,將能夠?yàn)楦餍懈鳂I(yè)帶來(lái)更高效、更經(jīng)濟(jì)的AI解決方案,加速智能技術(shù)在千行百業(yè)的普及和應(yīng)用。
浪潮信息正在通過(guò)算力算法協(xié)同創(chuàng)新,持續(xù)提升“模算效率”。2024年,浪潮發(fā)布的混合專家模型(MoE)“源2.0-M32”,通過(guò)算法、數(shù)據(jù)、算力的創(chuàng)新,顯著提升了算力效率,降低了訓(xùn)練、微調(diào)和推理成本。在激活37億參數(shù)下,源2.0-M32實(shí)現(xiàn)與700億參數(shù)LLaMA3相當(dāng)?shù)男阅?,算力消耗僅為后者的1/19。
未來(lái),浪潮信息將繼續(xù)優(yōu)化算法和模型架構(gòu),降低模型在預(yù)訓(xùn)練、微調(diào)和推理等關(guān)鍵應(yīng)用場(chǎng)景中落地的算力門檻。
后訓(xùn)練和推理階段,算力基礎(chǔ)設(shè)施面臨全新挑戰(zhàn)
兩年前,關(guān)于大模型Scaling Law的討論更多集中在預(yù)訓(xùn)練階段。但去年,隨著Scaling law擴(kuò)展到后訓(xùn)練和推理階段,算力基礎(chǔ)設(shè)施構(gòu)建面臨全新挑戰(zhàn)。
目前,業(yè)界發(fā)展出三種關(guān)鍵的Scaling law:Pre-training(預(yù)訓(xùn)練)scaling law,關(guān)注模型預(yù)訓(xùn)練階段的參數(shù)量、數(shù)據(jù)量與算力的關(guān)系;Post-training(后訓(xùn)練)scaling law,揭示了微調(diào)階段中數(shù)據(jù)質(zhì)量與模型迭代的互動(dòng)機(jī)制;Inference(推理)scaling law,展現(xiàn)了推理階段投入更多計(jì)算資源能帶來(lái)性能提升的規(guī)律。
OpenAI的實(shí)踐顯示,從基礎(chǔ)模型到reasoning model的轉(zhuǎn)換過(guò)程中,后訓(xùn)練階段所需的計(jì)算量甚至可能超過(guò)預(yù)訓(xùn)練階段。
為什么后訓(xùn)練階段的計(jì)算資源需求會(huì)如此密集?浪潮信息方面告訴<與非網(wǎng)>,主要源于兩個(gè)方面:首先是數(shù)據(jù)生成的規(guī)模。為了訓(xùn)練1000萬(wàn)個(gè)推理問(wèn)題,系統(tǒng)需要生成數(shù)百萬(wàn)億個(gè)標(biāo)記,覆蓋數(shù)千億條軌跡。隨著問(wèn)題集的擴(kuò)大和領(lǐng)域的拓展,生成的數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng),遠(yuǎn)超預(yù)訓(xùn)練階段的數(shù)據(jù)規(guī)模。
其次,是后訓(xùn)練過(guò)程的特殊性——其關(guān)鍵階段強(qiáng)化學(xué)習(xí)大部分情況下需要模型實(shí)時(shí)生成響應(yīng)并接受評(píng)估反饋。這種動(dòng)態(tài)訓(xùn)練模式帶來(lái)了獨(dú)特的計(jì)算架構(gòu)挑戰(zhàn):由于推理效率相對(duì)較低,且在整個(gè)過(guò)程中占據(jù)高達(dá)80%的計(jì)算量,系統(tǒng)需要精心設(shè)計(jì),以在同一計(jì)算任務(wù)中平衡推理和訓(xùn)練的資源分配,確保整體訓(xùn)練效率。
對(duì)于推理階段來(lái)說(shuō),由于更注重低時(shí)延,因此算力系統(tǒng)設(shè)計(jì)將會(huì)更加復(fù)雜。
訓(xùn)練任務(wù)可以通過(guò)流水線并行和數(shù)據(jù)并行來(lái)擴(kuò)展規(guī)模(scale out),以提升吞吐量。然而,推理任務(wù)更注重延遲性能,只能通過(guò)在單個(gè)節(jié)點(diǎn)內(nèi)增加AI芯片(scale up)的方式,采用張量并行等策略來(lái)縮短單個(gè)請(qǐng)求的處理時(shí)間。這種根本性的差異,將會(huì)使得推理系統(tǒng)的設(shè)計(jì)和優(yōu)化變得格外復(fù)雜。
算力優(yōu)化趨勢(shì)——應(yīng)用為導(dǎo)向、系統(tǒng)為核心
市場(chǎng)對(duì)算力的衡量標(biāo)準(zhǔn),將會(huì)從最初的關(guān)注硬件性能,越來(lái)越注重整體方案的效率和應(yīng)用效果。在這一趨勢(shì)下,如何繼續(xù)進(jìn)行算力優(yōu)化?
浪潮信息方面分享,一是以應(yīng)用為導(dǎo)向評(píng)估算力水平會(huì)成為重點(diǎn)趨勢(shì),二是需要以系統(tǒng)為核心,提升算效水平。
浪潮信息和中國(guó)信通院聯(lián)合編寫的《人工智能算力高質(zhì)量發(fā)展評(píng)估體系報(bào)告》指出,“高算效”應(yīng)該成為評(píng)估高質(zhì)量算力的重要特征指標(biāo)。所謂“高算效”,是指在提高算力理論算效的同時(shí),考慮更高的實(shí)測(cè)性能和資源利用率。
其中,實(shí)測(cè)性能體現(xiàn)的是應(yīng)用場(chǎng)景下,單位時(shí)間內(nèi)處理的Token數(shù)量、運(yùn)行時(shí)延、模型訓(xùn)練時(shí)間、數(shù)據(jù)處理質(zhì)量等指標(biāo)。目前,業(yè)界存在算力集群實(shí)測(cè)性能和理論性能差距過(guò)大的問(wèn)題,部分算力實(shí)際性能甚至不足理論性能的10%。
資源利用率則關(guān)注的是算力資源利用水平。公開數(shù)據(jù)顯示,傳統(tǒng)模式下智算中心GPU利用率平均數(shù)值低于30%。這是兼顧設(shè)計(jì)維度和短期、長(zhǎng)期運(yùn)行維度的綜合指標(biāo),有助于破解算效水平不高、算力資源利用率低等難題。
如何提高面向應(yīng)用的算力效率?浪潮信息認(rèn)為應(yīng)該以系統(tǒng)設(shè)計(jì)為核心,圍繞四大算力環(huán)節(jié)提升算效水平:在生產(chǎn)算力方面,整合高性能部件,打造多元異構(gòu)的強(qiáng)大算力機(jī)組;在聚合算力方面,運(yùn)用系統(tǒng)工程方法,構(gòu)建高效的算力中心集群;在調(diào)度算力方面,通過(guò)硬件重構(gòu)和軟件定義對(duì)AI芯片進(jìn)行聚合池化;在釋放算力方面,聚焦于模型算法、框架、工具的優(yōu)化完善。
寫在最后
如果要總結(jié)過(guò)去一年,我們從大模型激烈競(jìng)爭(zhēng)中學(xué)到的事情,“效能”是絕對(duì)的重點(diǎn),不論是從運(yùn)行效率、成本效益還是資源優(yōu)化等任何一個(gè)角度來(lái)看。
隨著AI大模型從訓(xùn)練階段的“暴力美學(xué)”,走向?qū)嶋H商用階段的“精打細(xì)算”,一場(chǎng)關(guān)乎AI未來(lái)的“效能革命”悄然興起,而核心就在于從“規(guī)模擴(kuò)張”向“效率躍升”轉(zhuǎn)變,這將為AI的持續(xù)發(fā)展注入強(qiáng)勁動(dòng)力。