Deepseek一系列大模型的發(fā)布,大家回過(guò)頭來(lái)看發(fā)現(xiàn)昂貴的GPU突然沒(méi)有那么香了。大模型的訓(xùn)練算力的提升不一定要瘋狂的堆積英偉達(dá)的GPU,可以通過(guò)優(yōu)化模型算法,提高GPU運(yùn)算效率?;蛘唛_(kāi)發(fā)專用領(lǐng)域的ASIC芯片,似乎也成了不少公司新的策略。從英偉達(dá)近段時(shí)間的股價(jià)也能看出,想靠買高價(jià)鏟子,收割互聯(lián)網(wǎng)大廠的神話似乎不可持續(xù)了。
比較下ASIC?芯片和GPU在技術(shù)特性、市場(chǎng)趨勢(shì)、典型應(yīng)用及未來(lái)展望四個(gè)維度的差異
一、技術(shù)特性:專用化與通用性的分水嶺
ASIC?的核心優(yōu)勢(shì)
ASIC(Application Specific Integrated Circuit,專用集成電路)的設(shè)計(jì)理念是為特定任務(wù)量身定制,例如比特幣挖礦的?SHA-256?算法、AI?推理的矩陣運(yùn)算等。這種?“量體裁衣”?的特性使其在能效比(單位功耗算力)和成本效率上遠(yuǎn)超?GPU。
能效比:谷歌TPU v5e TPU(Tensor Processing Unit,張量處理單元)的能效比是英偉達(dá)H100 的 3 倍,適合數(shù)據(jù)中心大規(guī)模部署。
成本效率:AWS的Trainium 2 在推理任務(wù)中性價(jià)比比 H100 高 30%-40%,谷歌的TPUv5、亞馬遜的 Trainium2 單位算力成本僅為英偉達(dá) H100 的 70% 和 60%。
GPU?的核心優(yōu)勢(shì)
GPU通用性使其成為復(fù)雜計(jì)算任務(wù)的?“瑞士軍刀”,尤其在需要靈活性的場(chǎng)景中。
訓(xùn)練任務(wù):英偉達(dá)?H100?的?FP64?浮點(diǎn)性能是?ASIC?的?10?倍以上,支持萬(wàn)億參數(shù)大模型訓(xùn)練。
軟件生態(tài):CUDA?平臺(tái)擁有超過(guò)?400?萬(wàn)開(kāi)發(fā)者,支持?PyTorch、TensorFlow?等主流框架,而?ASIC?需定制工具鏈(如谷歌的?XLA),開(kāi)發(fā)門檻高。ASIC?靈活性差,功能固定,算法改變就需重新設(shè)計(jì),開(kāi)發(fā)難度大,軟件生態(tài)單一(硬件和軟件工具套件都需重新開(kāi)發(fā)和適應(yīng),各家還不通用)。
通俗解釋CPU和GPU的區(qū)別:
CPU和GPU都是通用芯片,可以完成多種任務(wù)。CPU是全能型選手,單核主頻高,啥都能干,所以經(jīng)常被拿來(lái)做主處理器。
GPU,本來(lái)是用來(lái)做圖形處理(顯卡)的。它的內(nèi)核數(shù)量特別多(大幾千個(gè)),適合做并行計(jì)算,也就是擅長(zhǎng)同時(shí)做大量的簡(jiǎn)單計(jì)算任務(wù)(圖形處理,就是同時(shí)處理大量的像素計(jì)算。)AI計(jì)算和圖形計(jì)算一樣,也是典型的并行計(jì)算型任務(wù)。AI計(jì)算中包括大量并行的矩陣相乘、卷積、循環(huán)層、梯度運(yùn)算等任務(wù),所以,特別適合GPU去完成。
備注:CPU和GPU可以重新編寫(xiě)軟件代碼,但是ASIC是開(kāi)發(fā)類似的verilog綜合和燒寫(xiě)比特流才能確定芯片的功能的為硬件實(shí)現(xiàn)方案,相對(duì)GPU和CPU更加定制化,所以ASIC的驗(yàn)證非常重要。
二、市場(chǎng)趨勢(shì):ASIC?在特定領(lǐng)域崛起,GPU?主導(dǎo)核心市場(chǎng)
ASIC?的增長(zhǎng)動(dòng)能
AI?推理:隨著算法框架收斂(如?Transformer),ASIC?在端側(cè)?AI(如自動(dòng)駕駛、智能家居)滲透率快速提升。預(yù)計(jì)?2028?年數(shù)據(jù)中心?ASIC?市場(chǎng)規(guī)模將達(dá)?429?億美元,復(fù)合增長(zhǎng)率?45.4%。
云廠商自研:谷歌、亞馬遜、微軟等通過(guò)自研?ASIC(如?TPU、Trainium、Maia)優(yōu)化內(nèi)部工作負(fù)載,降低對(duì)英偉達(dá)的依賴。
GPU?的市場(chǎng)壁壘
訓(xùn)練市場(chǎng):英偉達(dá)占據(jù)?AI?訓(xùn)練市場(chǎng)?90%?以上份額,其?Blackwell?架構(gòu)支持?1.8?萬(wàn)億參數(shù)模型訓(xùn)練,且?NVLink 6?技術(shù)實(shí)現(xiàn)?72?卡集群無(wú)縫互聯(lián)。
生態(tài)護(hù)城河:CUDA?生態(tài)系統(tǒng)的成熟度(如?TensorRT?推理優(yōu)化、Megatron?分布式訓(xùn)練)難以被替代,企業(yè)遷移成本極高。
三、典型應(yīng)用:ASIC 與 GPU 的主戰(zhàn)場(chǎng)
領(lǐng)域 | ASIC?代表案例 | GPU?代表案例 |
AI?推理 | ? ? 谷歌?TPU v5e? ? ? ? ? ? ? ?(5?萬(wàn)卡集群) | 英偉達(dá)?H100
(支持多模態(tài)模型推理) |
自動(dòng)駕駛 | ? ?特斯拉?FSD?芯片?? ? ? ? ? ? ? (能效比優(yōu)于Orin) | 英偉達(dá)?Thor
(支持端到端大模型) |
加密貨幣 | 比特大陸?Antminer?(SHA-256?效率提升100?倍) | AMD Radeon
(靈活支持算法切換) |
科學(xué)計(jì)算 | 博通定制加速器
用于量子模擬 |
英偉達(dá)?Grace Blackwell
(超算領(lǐng)域) |
中國(guó)大陸本土GPU 制造能力增強(qiáng)。近年來(lái),中國(guó)國(guó)內(nèi)的許多GPU企業(yè)開(kāi)始嶄露頭角。通過(guò)持續(xù)的投入和努力,國(guó)產(chǎn)GPU在性能、功能和應(yīng)用領(lǐng)域等方面都有了提升,逐漸贏得了市場(chǎng)的認(rèn)可和用戶的信任。國(guó)產(chǎn)GPU不僅在傳統(tǒng)圖形處理領(lǐng)域取得了進(jìn)展,也能夠在人工智能、高性能計(jì)算等新興領(lǐng)域展現(xiàn)出一定的競(jìng)爭(zhēng)力。
主要廠商包括景嘉微、寒武紀(jì)、海光信息、天數(shù)智芯等。
國(guó)內(nèi)GPU產(chǎn)品統(tǒng)計(jì)
企業(yè)名稱 | 主要GPU產(chǎn)品類型 | 上市進(jìn)度 |
景嘉微 | JM5系列、JM7系列、JM9系列GPU、景宏系列 | 已上市(A股) |
寒武紀(jì) | 思元270、思元290、思元370AI芯片 | 已上市(A股) |
海光信息 | 海光DCU(GPGPU) | 已上市(A股) |
龍芯中科 | 9A1000 GPU(入門級(jí)顯卡,用于圖形處理和AI推理) | 已上市(科創(chuàng)板) |
壁仞科技 | BR100、BR104 | IPO輔導(dǎo)備案登記中 |
原科技 | S60、云燧T20等AI加速卡 | IPO輔導(dǎo)備案登記中 |
摩爾線程 | MTT S系列顯卡、MTT系列GPU芯片 | A股上市輔導(dǎo)中 |
天數(shù)智芯 | 天垓100、智鎧100等 | 未上市 |
中微電 | 南風(fēng)一號(hào)、南風(fēng)二號(hào) | 未上市 |
瀚博半導(dǎo)體 | SV102 AI推理芯片、SG100 GPU等 | 未上市 |
芯動(dòng)科技 | 風(fēng)華1號(hào)、風(fēng)華2號(hào)GPU等 | 未上市 |
沐曦集成 | MXN系列GPU(曦思,用于AI推理) MXC系列GPU(曦云,用于AI訓(xùn)練及通用計(jì)算) MXG系列GPU(曦彩,用于圖形渲染) |
未上市 |
登臨科技 | Goldwasser(GPGPU) | 未上市 |
四、未來(lái)展望:共生與融合
短期(1-3?年)
ASIC:在推理、邊緣計(jì)算、特定行業(yè)(如金融風(fēng)控、醫(yī)療影像)快速滲透,云廠商自研?ASIC?占比提升至?30%。
GPU:繼續(xù)主導(dǎo)訓(xùn)練市場(chǎng),Blackwell?架構(gòu)推動(dòng)超算和?AI?融合(如氣候模擬、新藥研發(fā))。
長(zhǎng)期(5?年以上)
技術(shù)融合:英偉達(dá)推出?Grace CPU+Blackwell GPU?的超級(jí)芯片,而博通開(kāi)發(fā)支持動(dòng)態(tài)重構(gòu)的?ASIC,兩者邊界趨于模糊。
ASIC?和?GPU?的競(jìng)爭(zhēng)本質(zhì)是?“效率”?與?“靈活性”?的權(quán)衡?。ASIC?在特定場(chǎng)景的優(yōu)勢(shì)無(wú)法撼動(dòng)?GPU?的生態(tài)壁壘,而?GPU?的通用性使其在復(fù)雜任務(wù)中難以被替代。未來(lái),兩者將通過(guò)混合架構(gòu)(如?GPU+ASIC?加速卡)和異構(gòu)計(jì)算(如?CUDA?與定制指令集協(xié)同)實(shí)現(xiàn)最優(yōu)資源配置。對(duì)于企業(yè)而言,選擇?ASIC?需滿足三個(gè)條件:任務(wù)明確、規(guī)模足夠大、算法穩(wěn)定,否則?GPU?仍是更優(yōu)解。
結(jié)論:
ASIC?芯片與?GPU?的關(guān)系并非簡(jiǎn)單的替代,而是長(zhǎng)期共存、互補(bǔ)發(fā)展的格局。