• 正文
    • ?01、萬(wàn)卡集群還是AI入場(chǎng)券嗎?
    • ?02、數(shù)據(jù)中心芯片變革:訓(xùn)練降速,推理崛起
    • ?03、算法補(bǔ)性能:芯片競(jìng)爭(zhēng)開始卷“軟硬協(xié)同”
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

DeepSeek來(lái)了,萬(wàn)卡還是AI入場(chǎng)券嗎?

02/27 09:53
1341
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:曉旭

人工智能的極限就是拼卡的極限。頂級(jí)AI公司為這場(chǎng)“暴力美學(xué)”競(jìng)賽設(shè)定了單點(diǎn)集群萬(wàn)卡的門檻。

OpenAI的單點(diǎn)集群5萬(wàn)張卡,谷歌2.6萬(wàn)張卡,Meta2.45萬(wàn)張卡。摩爾線程創(chuàng)始人兼CEO張建中曾在發(fā)布會(huì)上表示,“AI主戰(zhàn)場(chǎng),萬(wàn)卡是最低標(biāo)配。”而隨著DeepSeek的橫空出世,一場(chǎng)關(guān)于AI規(guī)則重寫的大戲正在上演。

?01、萬(wàn)卡集群還是AI入場(chǎng)券嗎?

2020年,微軟率先構(gòu)建了萬(wàn)卡智算中心用來(lái)其AI布局,隨后各大科技巨頭競(jìng)相投入萬(wàn)卡集群的智算中心建設(shè),例如亞馬遜、谷歌、Meta、特斯拉、xAI,國(guó)內(nèi)科技公司字節(jié)跳動(dòng)、百度、螞蟻、華為、科大訊飛、小米都建設(shè)了萬(wàn)卡集群,騰訊、阿里已經(jīng)卷向十萬(wàn)卡集群。

搭建萬(wàn)卡集群的智算中心需要耗費(fèi)巨大的財(cái)力,單是GPU的采購(gòu)成本就高達(dá)幾十億元。盡管造價(jià)高昂,但“萬(wàn)卡集群”智算中心使得訓(xùn)練復(fù)雜的大模型成為可能,因此被業(yè)界視作AI競(jìng)賽的“入場(chǎng)券”。長(zhǎng)江證券在其研報(bào)中指出,“模型大小和訓(xùn)練數(shù)據(jù)量大小成為決定模型能力的關(guān)鍵因素。

在同等模型參數(shù)和數(shù)據(jù)集下,集群訓(xùn)練時(shí)間有望顯著縮短。更大、更先進(jìn)的集群能及時(shí)對(duì)市場(chǎng)趨勢(shì)作出反應(yīng),快速進(jìn)行迭代訓(xùn)練。整體上超萬(wàn)卡的集群將有助于壓縮大模型訓(xùn)練時(shí)間,實(shí)現(xiàn)模型能力的快速迭代,并及時(shí)對(duì)市場(chǎng)趨勢(shì)作出應(yīng)對(duì),實(shí)現(xiàn)大模型技術(shù)上的追趕和領(lǐng)先?!倍鳧eepSeek-V3在訓(xùn)練時(shí)僅僅使用了2048個(gè)H800 GPU,但是在多個(gè)標(biāo)準(zhǔn)測(cè)試中卻獲得了很不錯(cuò)的消息,在數(shù)學(xué)基準(zhǔn)測(cè)試GSM8K和MATH、算法類代碼LiveCodeBench等測(cè)試中超越此前的大模型拔得頭籌。這不由引發(fā)了一個(gè)思考,DeepSeek支持千卡級(jí)集群訓(xùn)練,那么萬(wàn)卡智算中心還是AI入場(chǎng)券嗎?首先,我們必須要承認(rèn)萬(wàn)卡集群在大模型訓(xùn)練端仍有必要性,其次,大模型私有化部署已成業(yè)內(nèi)共識(shí),企業(yè)私有部署小型數(shù)據(jù)中心市場(chǎng)將會(huì)爆發(fā)。DeepSeek出現(xiàn)之后,眾多公司都在爭(zhēng)相接入,做自己的本地部署。

企業(yè)建設(shè)“自己的小型智算中心”,部署1~10臺(tái)服務(wù)器(百卡之內(nèi)),或10來(lái)20臺(tái)服務(wù)器(百卡規(guī)模),也可以實(shí)現(xiàn)高效的AI業(yè)務(wù)。這無(wú)疑讓AI入場(chǎng)券發(fā)生了變化,“暴力堆卡”不再是唯一進(jìn)場(chǎng)方式,更多的企業(yè)可以通過(guò)算法優(yōu)化參與到這場(chǎng)AI熱潮中。以華為和瑞金醫(yī)院合作發(fā)布的臨床級(jí)多模態(tài)互動(dòng)式病理大模型RuiPath為例,僅僅使用了16張算力卡,就學(xué)習(xí)了300余本病理診斷書籍,在病理醫(yī)生整理的常用問(wèn)題測(cè)試中問(wèn)答準(zhǔn)確率可到90%。高通技術(shù)認(rèn)為,當(dāng)前先進(jìn)的AI小模型已具有卓越性能。模型蒸餾和新穎的AI網(wǎng)絡(luò)架構(gòu)等新技術(shù)能夠在不影響質(zhì)量的情況下簡(jiǎn)化開發(fā)流程,讓新模型的表現(xiàn)超越一年前推出的僅能在云端運(yùn)行的更大模型。

除此之外,企業(yè)部署小型智算中心也為四大運(yùn)營(yíng)商和鐵塔公司帶來(lái)了新的機(jī)遇。小型數(shù)據(jù)中心的部署需要穩(wěn)定的場(chǎng)地、電力、網(wǎng)絡(luò)等基礎(chǔ)設(shè)施,而運(yùn)營(yíng)商和鐵塔公司的物理機(jī)房資源是現(xiàn)成的,以中國(guó)鐵塔為例,目前擁有210萬(wàn)站址資源、能源設(shè)施和近百萬(wàn)處機(jī)房,并有22萬(wàn)“通信塔”已升級(jí)為“數(shù)字塔”。另外,小型數(shù)據(jù)中心靠近數(shù)據(jù)產(chǎn)生源頭,可實(shí)現(xiàn)數(shù)據(jù)的快速處理和分析,對(duì)于邊緣算力的需求增加,目前中國(guó)鐵塔算力正從集中式向“云邊端”分布式范式轉(zhuǎn)變,每個(gè)數(shù)據(jù)中心每日新增數(shù)據(jù)量數(shù)十T,預(yù)計(jì)2025年每數(shù)據(jù)中心接入約二十萬(wàn)站,未來(lái)數(shù)據(jù)規(guī)模將達(dá)數(shù)十PB級(jí)別。根據(jù)Gartner預(yù)測(cè),2025年75%的企業(yè)數(shù)據(jù)將在邊緣側(cè)處理,邊緣數(shù)據(jù)中心數(shù)量將超過(guò)傳統(tǒng)數(shù)據(jù)中心的3倍。

?02、數(shù)據(jù)中心芯片變革:訓(xùn)練降速,推理崛起

DeepSeek 采用純強(qiáng)化學(xué)習(xí)訓(xùn)練路徑,擺脫了對(duì)監(jiān)督學(xué)習(xí)微調(diào)階段的依賴,同時(shí)采用全新的 GRPO 算法讓模型群體相互學(xué)習(xí),將內(nèi)存消耗降低至傳統(tǒng) PPO 算法的三分之一,可在更少硬件資源下完成訓(xùn)練;FP8 混合精度訓(xùn)練,內(nèi)存占用減少 50%,計(jì)算吞吐量提升 30%;其數(shù)據(jù)蒸餾技術(shù),將無(wú)效數(shù)據(jù)比例從行業(yè)平均 15% 降至 3% 以下;NVLink+InfiniBand 雙通道傳輸技術(shù)使得集群內(nèi)部的GPU通信效率提升了 65%。

DeepSeek這些創(chuàng)新性的方法降低了訓(xùn)練成本,使得數(shù)據(jù)中心芯片發(fā)生變革,未來(lái)訓(xùn)練端的高端GPU需求增速可能放緩,而推理端的算力需求將長(zhǎng)期呈增長(zhǎng)趨勢(shì)。

對(duì)此,各大研究機(jī)構(gòu)的判斷不謀而合。其中,Gartner 預(yù)測(cè)2025年推理的集群算力規(guī)模將超過(guò)訓(xùn)練,IDC預(yù)測(cè)到 2025 年用于推理的工作負(fù)載的芯片將達(dá)到60.8%。TrendForce集邦咨詢分析師龔明德指出:“DeepSeek的驅(qū)動(dòng)將促使云服務(wù)商更積極投入低成本的自有ASIC方案,并從AI訓(xùn)練重心轉(zhuǎn)向AI推理。預(yù)計(jì)到2028年,推理芯片占比將提升至五成?!?/p>

顧名思義,訓(xùn)練芯片是應(yīng)用在AI模型的訓(xùn)練階段,需要通過(guò)大量標(biāo)記過(guò)的數(shù)據(jù)來(lái)訓(xùn)練系統(tǒng)以適應(yīng)特定功能,因此更強(qiáng)調(diào)計(jì)算性能和存儲(chǔ)能力,而推理芯片在模型訓(xùn)練完成后,負(fù)責(zé)使用新數(shù)據(jù)進(jìn)行預(yù)測(cè)和推斷,更注重單位能耗算力、時(shí)延和成本的綜合指標(biāo)。

英偉達(dá)市占率98%的訓(xùn)練芯片市場(chǎng)不同,推理芯片市場(chǎng)還未成熟,更加百花齊放。此前在網(wǎng)上掀起一陣熱潮的美國(guó)人工智能芯片公司Groq,其成立于2016年,到目前為止已經(jīng)獲得了5輪融資,2024年8月Groq完成6.4億美元的最新一輪融資后,估值達(dá)到28億美元。Groq專為大語(yǔ)言量身定制的新型AI加速芯片LPU,性能表現(xiàn)比常規(guī)的GPU和TPU提升10到100倍,推理速度達(dá)到了英偉達(dá)GPU的10倍。在國(guó)外市場(chǎng),博通和Marvell是主要的推理芯片供應(yīng)商。其中,博通與谷歌合作設(shè)計(jì)了六代 TPU,預(yù)計(jì)將在 2026、2027年推出的第七代 TPU,同時(shí)其與Meta在AI基礎(chǔ)設(shè)施方面的合作可能會(huì)達(dá)到數(shù)十億美元;Marvell則是與亞馬遜、谷歌和微軟合作,目前正在生產(chǎn)亞馬遜5nm Tranium 芯片和谷歌5nm Axion Arm CPU 芯片,同時(shí)預(yù)計(jì)在2025年啟動(dòng)亞馬遜 Inferentia芯片項(xiàng)目,2026年啟動(dòng)微軟Maia芯片項(xiàng)目。

在國(guó)內(nèi)市場(chǎng),各大科技公司也在積極布局AI推理芯片市場(chǎng)。

    達(dá)摩院推出的含光800 AI芯片,單芯片性能是谷歌TPU v3的8.5 倍、英偉達(dá)T4的12倍。百度昆侖系列AI芯片,率先支持8bit推理,百舸DeepSeek一體機(jī)搭載昆侖芯 P800,推理延遲低,平均50毫秒以內(nèi),其中昆侖3A超越英偉達(dá)A800。寒武紀(jì)的思元590智能芯片,幾乎支持所有主流模型,單卡算力超過(guò)英偉達(dá)A100,集群算力接近A100水平,千卡互聯(lián)的集群會(huì)再損失一些性能。

目前,大模型推理階段面臨很多優(yōu)化挑戰(zhàn),首先就是KV Cache管理,推理過(guò)程會(huì)產(chǎn)生大量中間結(jié)果用于降低計(jì)算量。如何管理這些數(shù)據(jù)很關(guān)鍵,例如采用頁(yè)面式管理,但頁(yè)面大小是固定還是根據(jù)負(fù)載特征動(dòng)態(tài)調(diào)整,都需要仔細(xì)設(shè)計(jì)。

其次是多卡協(xié)同:當(dāng)模型較大時(shí)需要多 GPU 配合,例如在8個(gè)GPU上進(jìn)行大模型推理,如何優(yōu)化卡間并行也是一大挑戰(zhàn)。最重要的就是算法優(yōu)化:如何從量化等角度進(jìn)行優(yōu)化,充分發(fā)揮底層算力性能。

?03、算法補(bǔ)性能:芯片競(jìng)爭(zhēng)開始卷“軟硬協(xié)同”

DeepSeek之所以能夠以2048個(gè)H800芯片驚艷世界,其中的重要原因之一是其對(duì)硬件進(jìn)行了極致工程化改造,通過(guò)自定義 CUDA 內(nèi)核和算子融合技術(shù),將 H800 GPU 的 MFU(模型 FLOP 利用率)提升至 23%,遠(yuǎn)超行業(yè)平均 15% 的水平,在相同硬件條件下可完成更多計(jì)算任務(wù),提升訓(xùn)練效率,并且在GPU集群上實(shí)現(xiàn)了98.7%的持續(xù)利用率。

這種創(chuàng)新性的用算法補(bǔ)性能方式,被復(fù)旦大學(xué)復(fù)雜體系多尺度研究院院長(zhǎng)、上海人工智能實(shí)驗(yàn)室領(lǐng)軍科學(xué)家、國(guó)際著名計(jì)算生物學(xué)家馬劍鵬教授稱為“中國(guó)AI的換道超車”。同時(shí),這種方式也將倒逼芯片廠商從“拼制程”轉(zhuǎn)向“算法適配性”設(shè)計(jì),預(yù)留更多接口支持動(dòng)態(tài)算法迭代,如可編程NPU架構(gòu)。

眾所周知,AI用例正在不斷演進(jìn),要在功能完全固定的硬件上部署這些用例顯然是不切實(shí)際的。而可編程 NPU 架構(gòu)提供豐富編程接口和開發(fā)工具,支持多種編程語(yǔ)言和框架,開發(fā)者可方便地根據(jù)新算法需求進(jìn)行編程和配置。同時(shí),支持根據(jù)不同算法需求動(dòng)態(tài)重構(gòu)計(jì)算資源,如計(jì)算單元、存儲(chǔ)單元等等。

最重要的是,芯片研發(fā)成本高,預(yù)留接口支持動(dòng)態(tài)算法迭代可使芯片在較長(zhǎng)時(shí)間內(nèi)保持競(jìng)爭(zhēng)力,面對(duì)新算法無(wú)需重新設(shè)計(jì)硬件,而是通過(guò)軟件升級(jí)等方式來(lái)適配新算法,再也不懼算法更新迭代。

DeepSeek V3中使用了相比CUDA更底層的PTX來(lái)優(yōu)化硬件算法,繞過(guò)了CUDA的高層 API,直接操作PTX指令集進(jìn)行更細(xì)粒度的硬件優(yōu)化,能在一定程度上擺脫對(duì) CUDA 高層框架的依賴,為開發(fā)者提供了不依賴 CUDA 進(jìn)行 GPU 資源優(yōu)化的途徑。同時(shí),DeepSeek GPU代碼使用了OpenAI 提出的Triton編程語(yǔ)言來(lái)編寫,而Triton 的底層可調(diào)用 CUDA,也可調(diào)用其他 GPU 語(yǔ)言,為適配更多類型的算力芯片奠定了基礎(chǔ)。

因而,我們會(huì)看到很多報(bào)道中都寫道,“DeepSeek突破英偉達(dá)CUDA技術(shù)壁壘”。事實(shí)上,DeepSeek的這一舉動(dòng)證明芯片競(jìng)爭(zhēng)從一開始的粗暴卷硬件進(jìn)入到更新的“軟硬協(xié)同”內(nèi)卷之中。而開源框架與國(guó)產(chǎn)芯片結(jié)合會(huì)是突破口,DeepSeek既能在英偉達(dá)芯片上運(yùn)行,也能在華為昇騰、AMD等非主流芯片上高效運(yùn)行。更為深遠(yuǎn)的影響是AI芯片領(lǐng)域不再是英偉達(dá)“一家獨(dú)大”,更多的芯片公司可以參與進(jìn)來(lái)。而處在英偉達(dá)上游的存儲(chǔ)芯片公司,例如三星電子、SK海力士等可能也要被迫進(jìn)行轉(zhuǎn)型。

此前,三星電子、SK海力士等半導(dǎo)體巨頭的發(fā)展戰(zhàn)略一直是采用以通用存儲(chǔ)器為重點(diǎn)的量產(chǎn)模式,其業(yè)務(wù)也很大程度上依賴于對(duì)英特爾、英偉達(dá)和AMD 等主要客戶的批量供應(yīng),此前美銀分析預(yù)測(cè)SK海力士可能獲得2025年英偉達(dá)Blackwell GPU的60%以上訂單。DeepSeek發(fā)布使得科技公司對(duì)英偉達(dá)高端芯片需求會(huì)減少,但是市場(chǎng)對(duì)于AI芯片的總需求卻不一定會(huì)減少。

正如經(jīng)濟(jì)學(xué)家杰文斯所言:技術(shù)進(jìn)步雖然提高了資源的使用效率,但需求的增加常常會(huì)導(dǎo)致總消耗量反而增加。亞馬遜首席執(zhí)行官安迪?賈西曾表示,DeepSeek技術(shù)突破反而會(huì)推動(dòng)人工智能整體需求的增長(zhǎng)。人工智能推理等技術(shù)成本的下降,并不意味著企業(yè)會(huì)減少在技術(shù)上的投入。

相反,成本降低讓企業(yè)能夠開發(fā)此前因預(yù)算受限而擱置的創(chuàng)新項(xiàng)目,最終反而加大了整體技術(shù)支出。這無(wú)疑是三星電子、SK海力士轉(zhuǎn)型的巨大機(jī)會(huì),擺脫對(duì)英偉達(dá)的依賴,擁抱更廣闊的市場(chǎng)。HBM需求從高端GPU轉(zhuǎn)向定制化存儲(chǔ)方案,為 AI 服務(wù)提供多樣化的產(chǎn)品陣容。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時(shí)、專業(yè)、深度的前沿洞見、技術(shù)速遞、趨勢(shì)解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國(guó)半導(dǎo)體產(chǎn)業(yè),我們一直在路上。