作者:曉旭
人工智能的極限就是拼卡的極限。頂級AI公司為這場“暴力美學”競賽設定了單點集群萬卡的門檻。
OpenAI的單點集群5萬張卡,谷歌2.6萬張卡,Meta2.45萬張卡。摩爾線程創(chuàng)始人兼CEO張建中曾在發(fā)布會上表示,“AI主戰(zhàn)場,萬卡是最低標配?!?/strong>而隨著DeepSeek的橫空出世,一場關于AI規(guī)則重寫的大戲正在上演。
?01、萬卡集群還是AI入場券嗎?
2020年,微軟率先構建了萬卡智算中心用來其AI布局,隨后各大科技巨頭競相投入萬卡集群的智算中心建設,例如亞馬遜、谷歌、Meta、特斯拉、xAI,國內科技公司字節(jié)跳動、百度、螞蟻、華為、科大訊飛、小米都建設了萬卡集群,騰訊、阿里已經卷向十萬卡集群。
搭建萬卡集群的智算中心需要耗費巨大的財力,單是GPU的采購成本就高達幾十億元。盡管造價高昂,但“萬卡集群”智算中心使得訓練復雜的大模型成為可能,因此被業(yè)界視作AI競賽的“入場券”。長江證券在其研報中指出,“模型大小和訓練數據量大小成為決定模型能力的關鍵因素。
在同等模型參數和數據集下,集群訓練時間有望顯著縮短。更大、更先進的集群能及時對市場趨勢作出反應,快速進行迭代訓練。整體上超萬卡的集群將有助于壓縮大模型訓練時間,實現(xiàn)模型能力的快速迭代,并及時對市場趨勢作出應對,實現(xiàn)大模型技術上的追趕和領先?!倍鳧eepSeek-V3在訓練時僅僅使用了2048個H800 GPU,但是在多個標準測試中卻獲得了很不錯的消息,在數學基準測試GSM8K和MATH、算法類代碼LiveCodeBench等測試中超越此前的大模型拔得頭籌。這不由引發(fā)了一個思考,DeepSeek支持千卡級集群訓練,那么萬卡智算中心還是AI入場券嗎?首先,我們必須要承認萬卡集群在大模型訓練端仍有必要性,其次,大模型私有化部署已成業(yè)內共識,企業(yè)私有部署小型數據中心市場將會爆發(fā)。DeepSeek出現(xiàn)之后,眾多公司都在爭相接入,做自己的本地部署。
企業(yè)建設“自己的小型智算中心”,部署1~10臺服務器(百卡之內),或10來20臺服務器(百卡規(guī)模),也可以實現(xiàn)高效的AI業(yè)務。這無疑讓AI入場券發(fā)生了變化,“暴力堆卡”不再是唯一進場方式,更多的企業(yè)可以通過算法優(yōu)化參與到這場AI熱潮中。以華為和瑞金醫(yī)院合作發(fā)布的臨床級多模態(tài)互動式病理大模型RuiPath為例,僅僅使用了16張算力卡,就學習了300余本病理診斷書籍,在病理醫(yī)生整理的常用問題測試中問答準確率可到90%。高通技術認為,當前先進的AI小模型已具有卓越性能。模型蒸餾和新穎的AI網絡架構等新技術能夠在不影響質量的情況下簡化開發(fā)流程,讓新模型的表現(xiàn)超越一年前推出的僅能在云端運行的更大模型。
除此之外,企業(yè)部署小型智算中心也為四大運營商和鐵塔公司帶來了新的機遇。小型數據中心的部署需要穩(wěn)定的場地、電力、網絡等基礎設施,而運營商和鐵塔公司的物理機房資源是現(xiàn)成的,以中國鐵塔為例,目前擁有210萬站址資源、能源設施和近百萬處機房,并有22萬“通信塔”已升級為“數字塔”。另外,小型數據中心靠近數據產生源頭,可實現(xiàn)數據的快速處理和分析,對于邊緣算力的需求增加,目前中國鐵塔算力正從集中式向“云邊端”分布式范式轉變,每個數據中心每日新增數據量數十T,預計2025年每數據中心接入約二十萬站,未來數據規(guī)模將達數十PB級別。根據Gartner預測,2025年75%的企業(yè)數據將在邊緣側處理,邊緣數據中心數量將超過傳統(tǒng)數據中心的3倍。
?02、數據中心芯片變革:訓練降速,推理崛起
DeepSeek 采用純強化學習訓練路徑,擺脫了對監(jiān)督學習微調階段的依賴,同時采用全新的 GRPO 算法讓模型群體相互學習,將內存消耗降低至傳統(tǒng) PPO 算法的三分之一,可在更少硬件資源下完成訓練;FP8 混合精度訓練,內存占用減少 50%,計算吞吐量提升 30%;其數據蒸餾技術,將無效數據比例從行業(yè)平均 15% 降至 3% 以下;NVLink+InfiniBand 雙通道傳輸技術使得集群內部的GPU通信效率提升了 65%。
DeepSeek這些創(chuàng)新性的方法降低了訓練成本,使得數據中心芯片發(fā)生變革,未來訓練端的高端GPU需求增速可能放緩,而推理端的算力需求將長期呈增長趨勢。
對此,各大研究機構的判斷不謀而合。其中,Gartner 預測2025年推理的集群算力規(guī)模將超過訓練,IDC預測到 2025 年用于推理的工作負載的芯片將達到60.8%。TrendForce集邦咨詢分析師龔明德指出:“DeepSeek的驅動將促使云服務商更積極投入低成本的自有ASIC方案,并從AI訓練重心轉向AI推理。預計到2028年,推理芯片占比將提升至五成?!?/p>
顧名思義,訓練芯片是應用在AI模型的訓練階段,需要通過大量標記過的數據來訓練系統(tǒng)以適應特定功能,因此更強調計算性能和存儲能力,而推理芯片在模型訓練完成后,負責使用新數據進行預測和推斷,更注重單位能耗算力、時延和成本的綜合指標。
與英偉達市占率98%的訓練芯片市場不同,推理芯片市場還未成熟,更加百花齊放。此前在網上掀起一陣熱潮的美國人工智能芯片公司Groq,其成立于2016年,到目前為止已經獲得了5輪融資,2024年8月Groq完成6.4億美元的最新一輪融資后,估值達到28億美元。Groq專為大語言量身定制的新型AI加速芯片LPU,性能表現(xiàn)比常規(guī)的GPU和TPU提升10到100倍,推理速度達到了英偉達GPU的10倍。在國外市場,博通和Marvell是主要的推理芯片供應商。其中,博通與谷歌合作設計了六代 TPU,預計將在 2026、2027年推出的第七代 TPU,同時其與Meta在AI基礎設施方面的合作可能會達到數十億美元;Marvell則是與亞馬遜、谷歌和微軟合作,目前正在生產亞馬遜5nm Tranium 芯片和谷歌5nm Axion Arm CPU 芯片,同時預計在2025年啟動亞馬遜 Inferentia芯片項目,2026年啟動微軟Maia芯片項目。
在國內市場,各大科技公司也在積極布局AI推理芯片市場。
- 達摩院推出的含光800 AI芯片,單芯片性能是谷歌TPU v3的8.5 倍、英偉達T4的12倍。百度昆侖系列AI芯片,率先支持8bit推理,百舸DeepSeek一體機搭載昆侖芯 P800,推理延遲低,平均50毫秒以內,其中昆侖3A超越英偉達A800。寒武紀的思元590智能芯片,幾乎支持所有主流模型,單卡算力超過英偉達A100,集群算力接近A100水平,千卡互聯(lián)的集群會再損失一些性能。
目前,大模型推理階段面臨很多優(yōu)化挑戰(zhàn),首先就是KV Cache管理,推理過程會產生大量中間結果用于降低計算量。如何管理這些數據很關鍵,例如采用頁面式管理,但頁面大小是固定還是根據負載特征動態(tài)調整,都需要仔細設計。
其次是多卡協(xié)同:當模型較大時需要多 GPU 配合,例如在8個GPU上進行大模型推理,如何優(yōu)化卡間并行也是一大挑戰(zhàn)。最重要的就是算法優(yōu)化:如何從量化等角度進行優(yōu)化,充分發(fā)揮底層算力性能。
?03、算法補性能:芯片競爭開始卷“軟硬協(xié)同”
DeepSeek之所以能夠以2048個H800芯片驚艷世界,其中的重要原因之一是其對硬件進行了極致工程化改造,通過自定義 CUDA 內核和算子融合技術,將 H800 GPU 的 MFU(模型 FLOP 利用率)提升至 23%,遠超行業(yè)平均 15% 的水平,在相同硬件條件下可完成更多計算任務,提升訓練效率,并且在GPU集群上實現(xiàn)了98.7%的持續(xù)利用率。
這種創(chuàng)新性的用算法補性能方式,被復旦大學復雜體系多尺度研究院院長、上海人工智能實驗室領軍科學家、國際著名計算生物學家馬劍鵬教授稱為“中國AI的換道超車”。同時,這種方式也將倒逼芯片廠商從“拼制程”轉向“算法適配性”設計,預留更多接口支持動態(tài)算法迭代,如可編程NPU架構。
眾所周知,AI用例正在不斷演進,要在功能完全固定的硬件上部署這些用例顯然是不切實際的。而可編程 NPU 架構提供豐富編程接口和開發(fā)工具,支持多種編程語言和框架,開發(fā)者可方便地根據新算法需求進行編程和配置。同時,支持根據不同算法需求動態(tài)重構計算資源,如計算單元、存儲單元等等。
最重要的是,芯片研發(fā)成本高,預留接口支持動態(tài)算法迭代可使芯片在較長時間內保持競爭力,面對新算法無需重新設計硬件,而是通過軟件升級等方式來適配新算法,再也不懼算法更新迭代。
DeepSeek V3中使用了相比CUDA更底層的PTX來優(yōu)化硬件算法,繞過了CUDA的高層 API,直接操作PTX指令集進行更細粒度的硬件優(yōu)化,能在一定程度上擺脫對 CUDA 高層框架的依賴,為開發(fā)者提供了不依賴 CUDA 進行 GPU 資源優(yōu)化的途徑。同時,DeepSeek GPU代碼使用了OpenAI 提出的Triton編程語言來編寫,而Triton 的底層可調用 CUDA,也可調用其他 GPU 語言,為適配更多類型的算力芯片奠定了基礎。
因而,我們會看到很多報道中都寫道,“DeepSeek突破英偉達CUDA技術壁壘”。事實上,DeepSeek的這一舉動證明芯片競爭從一開始的粗暴卷硬件進入到更新的“軟硬協(xié)同”內卷之中。而開源框架與國產芯片結合會是突破口,DeepSeek既能在英偉達芯片上運行,也能在華為昇騰、AMD等非主流芯片上高效運行。更為深遠的影響是AI芯片領域不再是英偉達“一家獨大”,更多的芯片公司可以參與進來。而處在英偉達上游的存儲芯片公司,例如三星電子、SK海力士等可能也要被迫進行轉型。
此前,三星電子、SK海力士等半導體巨頭的發(fā)展戰(zhàn)略一直是采用以通用存儲器為重點的量產模式,其業(yè)務也很大程度上依賴于對英特爾、英偉達和AMD 等主要客戶的批量供應,此前美銀分析預測SK海力士可能獲得2025年英偉達Blackwell GPU的60%以上訂單。DeepSeek發(fā)布使得科技公司對英偉達高端芯片需求會減少,但是市場對于AI芯片的總需求卻不一定會減少。
正如經濟學家杰文斯所言:技術進步雖然提高了資源的使用效率,但需求的增加常常會導致總消耗量反而增加。亞馬遜首席執(zhí)行官安迪?賈西曾表示,DeepSeek技術突破反而會推動人工智能整體需求的增長。人工智能推理等技術成本的下降,并不意味著企業(yè)會減少在技術上的投入。
相反,成本降低讓企業(yè)能夠開發(fā)此前因預算受限而擱置的創(chuàng)新項目,最終反而加大了整體技術支出。這無疑是三星電子、SK海力士轉型的巨大機會,擺脫對英偉達的依賴,擁抱更廣闊的市場。HBM需求從高端GPU轉向定制化存儲方案,為 AI 服務提供多樣化的產品陣容。