DeepSeek 引發(fā)的洶涌浪潮,正推動人工智能以前所未有的速度落地。而在此關(guān)鍵時刻,埃隆·馬斯克旗下的 xAI 公司又重磅推出了新一代Grok 3,并宣稱為目前“地球上最聰明的AI”。這一消息猶如在本就沸騰的水面上投下巨石,掀起了巨大波瀾。
從當前的市場情況來看,通用大模型正呈現(xiàn)降價趨勢。經(jīng)歷了過去一整年的狂飆式突進,在算力和能耗資源有限的條件下,實現(xiàn)算力消耗更低、推理和訓練效果更優(yōu)的大模型開發(fā),已經(jīng)成為產(chǎn)業(yè)當前的重點方向,提升“模算效率”對大模型產(chǎn)業(yè)落地至關(guān)重要,這也是為什么DeepSeek“出道即巔峰”的重要原因。
而隨著Grok 3的推出,AI大模型似乎迎來巔峰對決的時刻。Grok 3和DeepSeek不僅在技術(shù)上各具特色,更在應用場景和算力需求等方面展現(xiàn)出了各自的特色和潛力。一個是偏向于大算力的通用巨模型,一個是算法優(yōu)化主導的高效模型范式,它們的發(fā)展和應用亦將深刻影響著未來的算力趨勢和AI芯片的走向。
技術(shù)路線對決:千億參數(shù)怪獸 vs. 算法優(yōu)化大師
馬斯克高調(diào)宣稱Grok 3的測試表現(xiàn)“優(yōu)于任何已發(fā)布的模型”,其具有高達千億參數(shù)規(guī)模、高效的推理能力和多模態(tài)交互潛力。在標準AI基準測試中,它在數(shù)學(AIME)、科學(GPOA)和編程(LCB)測試中穩(wěn)居榜首,盲測表現(xiàn)也非常出色。此前代號為“Chocolate”的測試版曾在LLM Arena平臺上獲得最高ELO評分。
對標OpenAI和DeepSeek,Grok 3的差異化能力可以主要從兩方面來看:首先是推理能力,Grok 3引入的“思維鏈”技術(shù)使其能夠模擬人類逐步拆解復雜問題的邏輯過程,例如在數(shù)學、編程和科學知識測試中,表現(xiàn)顯著優(yōu)于DeepSeek和OpenAI的模型(如AIME24測試中Grok 3得52分,DeepSeek-V3為39分)。其次是多模態(tài)功能的應用擴展,Grok 3支持文本、圖像、代碼等多模態(tài)輸入,例如從衛(wèi)星圖像推斷氣候變化影響或生成融合游戲設(shè)計的代碼,進一步拓寬了AI的應用場景。
強大的性能背后,Grok-3的訓練成本也引起了關(guān)注。據(jù)披露,Grok-3訓練過程中累計消耗了20萬塊英偉達GPU,這個系統(tǒng)分兩個階段訓練:先在10萬塊GPU上訓練了122天,然后又花了92天擴展到20萬塊。xAI團隊直言,搭建這個集群比開發(fā)模型本身還難。為了支持如此龐大的訓練規(guī)模,xAI 公司新建了名為 “Colossus” 的超級計算數(shù)據(jù)中心,堪稱全球最強的AI訓練設(shè)施之一。
相比之下,DeepSeek采取的是不同的技術(shù)路線,是以算法優(yōu)化主導的高效模型。其技術(shù)路線主要包括:側(cè)重算法級優(yōu)化,例如通過稀疏注意力減少冗余計算,提升長文本處理效率;采用動態(tài)模型壓縮,在訓練過程中自適應調(diào)整模型結(jié)構(gòu)(如權(quán)重剪枝、知識蒸餾)。在訓練策略方面,DeepSeek的創(chuàng)新主要體現(xiàn)在采用課程學習(Curriculum Learning)、漸進式訓練(Progressive Training)等方法提升收斂速度。總之,DeepSeek的實現(xiàn),追求的是“單位算力下的性能最大化”,通過算法改進降低對硬件資源的依賴,使其適合中小規(guī)模算力環(huán)境。
生態(tài)布局暗戰(zhàn):馬斯克AI帝國 vs 中國開源生態(tài)
AI大模型近期的一系列動作表明,行業(yè)競爭已從單純的技術(shù)比拼轉(zhuǎn)向生態(tài)構(gòu)建與資源整合,這也恰恰是一個行業(yè)走向成熟的標志。Grok 3 和 DeepSeek 的競爭體現(xiàn)了大模型在尖端性能與經(jīng)濟學方面的路線之爭,兩種路線在性能、成本和應用領(lǐng)域的競爭值得繼續(xù)觀望下去。
目前看來,Grok-3的發(fā)布并非只是單純的技術(shù)迭代,更是馬斯克對AI生態(tài)的系統(tǒng)性布局。其核心點在于:通過稀疏化架構(gòu)與動態(tài)計算優(yōu)化實現(xiàn)成本革命,同等性能下訓練成本降低30%-40%;與X平臺(原Twitter)深度綁定,實時抓取社交數(shù)據(jù)優(yōu)化模型,瞄準個性化內(nèi)容生成與輿情分析賽道;通過開源策略與特斯拉的軟硬件生態(tài)深度融合,例如接入車載系統(tǒng)和人形機器人Optimus,構(gòu)建從芯片到應用的全鏈條壁壘。
DeepSeek的生態(tài)策略則主要是通過開源和算法優(yōu)化推動普惠化,在應用場景方面,DeepSeek 覆蓋了客戶服務、教育、醫(yī)療等數(shù)十億用戶入口,吸引了全球超過 20 萬開發(fā)者參與。盡管在一些基準測試中,DeepSeek 的表現(xiàn)略遜于 Grok 3,但其低成本和開源生態(tài)使其在市場中具有強大的競爭力。根據(jù)測算,Grok-3的算力消耗是DeepSeek-v3的263倍。
摩根士丹利的一份AI產(chǎn)業(yè)報告指出,Grok-3是“富人的玩具”,而DeepSeek可能成為“平民AI”的基礎(chǔ)設(shè)施。長期來看,后者更具備滲透全球市場的潛力。
不管怎樣,Grok 3的發(fā)布或?qū)⒊蔀锳I發(fā)展史上的一個重要分水嶺。它標志著行業(yè)從“大參數(shù)模型”向“強推理能力”的轉(zhuǎn)型,也揭示了未來競爭的核心——如何在技術(shù)突破與應用普惠之間找到平衡。
迄今為止,業(yè)界對于大模型的關(guān)注,已經(jīng)呈現(xiàn)兩種截然的分層,一種是追求更大更好的Grok 3,另一種則是注重提效的DeepSeek,這兩種路線未來必然會有新的經(jīng)典之作陸續(xù)問世,但“效能”可能會是它們隔空握手的一個契機,因為大模型必須通過“提效”來實現(xiàn)真正的價值轉(zhuǎn)化。在技術(shù)路徑上,二者未來也有望實現(xiàn)融合,通過MoE架構(gòu)或模型協(xié)作(如LLM Cascading)等實現(xiàn)互補。
芯片分化革命:訓練巨獸專用芯片 vs 邊緣效能加速器
不同的大模型路線,對算力和芯片的需求也不相同。Grok 3和DeepSeek所代表的兩類大模型,將會把芯片需求分化為“高算力通用芯片”與“高效能專用芯片”兩條路線,推動訓練與推理技術(shù)進一步解耦,兩者的競合也將共同塑造AI芯片未來的方向。
也就是說,Grok 3所代表的大模型將始終對大算力產(chǎn)生強需求:訓練方面,Grok 3在推動“超參數(shù)化模型”訓練方法,如通過重計算(Gradient Checkpointing)降低顯存占用,或使用ZeRO-3優(yōu)化數(shù)據(jù)并行;推理技術(shù)方面,Grok 3依賴模型切分(Model Sharding)和流水線并行,需要專用的推理服務器。
但不論是訓練還是推理階段,Grok 3都需要更強大的GPU集群,或是更強大的AI加速芯片和更高效的分布式計算,這將持續(xù)推動訓練基礎(chǔ)設(shè)施的擴展,比如超大規(guī)模集群和更高效的訓練框架,加速高帶寬內(nèi)存、高速互聯(lián)和液冷技術(shù)的發(fā)展,促進訓練框架優(yōu)化技術(shù)的進一步升級。
DeepSeek的典型特征則是通過算法優(yōu)化最大可能減少算力需求。訓練技術(shù)方面,它在促進高效訓練范式,如“一次訓練多版本模型”(One-Shot NAS)或元學習(Meta-Learning),減少重復訓練成本;推理技術(shù)方面,它在力推輕量化推理技術(shù)、以及端云協(xié)同推理的方式。預測下一步,DeepSeek所代表的能效派,將會持續(xù)優(yōu)化推理效率,推動“算法和硬件協(xié)同”的設(shè)計路線,使得在邊緣和本地設(shè)備的部署更可行。
這也將會給芯片設(shè)計帶來影響:一方面,它會更注重推理優(yōu)化,這將給更為高效靈活的邊緣AI芯片帶來更多機會,通過定制化芯片來支持更靈活的運算,比如支持稀疏計算、低精度運算的專用芯片。在這一導向下,芯片不再是一個由離散模塊或組件的簡單集合,而是需要從整體解決方案的角度進行設(shè)計,也需要更深度的集成,實現(xiàn)更多功能的協(xié)作共存,以實現(xiàn)更低的延遲、更高的帶寬和能效。
另一方面,更為高效的芯片架構(gòu)、新型的專用的AI加速器將會在邊緣和本地部署時迎來更多機會,因為它們有助于進一步降低功耗和成本,并支持特定的算法優(yōu)化。例如通過CPU與GPU、NPU或多樣化的AI加速器等異構(gòu)單元協(xié)同工作,來平衡推理性能、成本和功耗。
寫在最后
Grok 3 和 DeepSeek 的競爭與發(fā)展,不僅代表了 AI 大模型領(lǐng)域的兩種不同技術(shù)路線,也反映了整個 AI 行業(yè)在追求性能突破與成本效益平衡之間的探索與努力。它們的對決也將對AI芯片的設(shè)計應用產(chǎn)生深刻影響。
短期來看,是“暴力算力”與“極致能效”陣營的對壘,這不只是單純劃分為通用GPU和ASIC加速芯片的競爭,其中更是包括多種復雜芯片技術(shù)的演進,比如通過3D堆疊、硅光互聯(lián)等突破算力極限,或是通過算法和硬件協(xié)同設(shè)計實現(xiàn)在已有成熟工藝制程下的性能逆襲等等。
再進一步來看,未來是算力和能耗的物理極限在倒逼顛覆性技術(shù)進行破局,不論是大模型還是AI芯片,最終需要在物理極限面前找到適合的技術(shù)路徑。不論是Grok路線倒逼芯片物理創(chuàng)新,還是DeepSeek路徑驅(qū)動架構(gòu)革命,二者最終可能會在能效成本方面殊途同歸。這場競爭,不僅是技術(shù)路線的變革,更是AI找到產(chǎn)業(yè)轉(zhuǎn)化價值的終極博弈。