• 正文
    • DeepSeek為何掀起國(guó)產(chǎn)GPU適配潮?
    • 國(guó)產(chǎn)AI芯片適配DeepSeek,三大流派分野
    • 國(guó)產(chǎn)AI芯片生態(tài)是否迎來(lái)結(jié)構(gòu)性突破?
    • 寫(xiě)在最后
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

從DeepSeek適配潮看中國(guó)芯突圍:大模型時(shí)代的生態(tài)反擊!

原創(chuàng)
02/07 11:49
5773
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

開(kāi)年以來(lái),國(guó)產(chǎn)AI大模型DeepSeek以出色的性價(jià)比和高效的模型技術(shù),迅速成為全球AI關(guān)注的焦點(diǎn)。這一熱潮不僅引發(fā)了國(guó)際科技巨頭的關(guān)注,更帶動(dòng)了國(guó)產(chǎn)芯片廠商的集體行動(dòng)。近期,華為昇騰、海光、沐曦、天數(shù)智芯、摩爾線程、壁仞、燧原、昆侖芯、云天勵(lì)飛、靈汐科技、鯤云等多家國(guó)產(chǎn)芯片廠商紛紛宣布完成對(duì)DeepSeek系列模型的適配,涵蓋從1.5B到70B的多參數(shù)版本,實(shí)現(xiàn)了推理服務(wù)的高效部署。

與此同時(shí),國(guó)產(chǎn)芯片廠商通過(guò)與DeepSeek合作,加速了深度學(xué)習(xí)框架優(yōu)化和分布式訓(xùn)練適配,推動(dòng)“國(guó)產(chǎn)算力+國(guó)產(chǎn)大模型”閉環(huán)生態(tài)的構(gòu)建。這一系列動(dòng)作不僅標(biāo)志著國(guó)產(chǎn)AI芯片生態(tài)的快速成熟,也為中國(guó)AI產(chǎn)業(yè)的發(fā)展注入了強(qiáng)勁動(dòng)力。從技術(shù)分野到產(chǎn)業(yè)突圍,國(guó)產(chǎn)大模型開(kāi)啟新敘事。

DeepSeek為何掀起國(guó)產(chǎn)GPU適配潮?

國(guó)產(chǎn)AI芯片當(dāng)前面臨的核心挑戰(zhàn)之一在于英偉達(dá)GPU的強(qiáng)勢(shì)地位。英偉達(dá)憑借高端GPU和CUDA生態(tài)積累,幾乎壟斷了全球AI訓(xùn)練市場(chǎng),尤其是在大模型訓(xùn)練領(lǐng)域,其A100、H100等高端GPU一度成為行業(yè)標(biāo)配。然而,隨著美國(guó)對(duì)高端GPU出口的限制,國(guó)產(chǎn)AI芯片在訓(xùn)練端的短板愈發(fā)凸顯,亟需找到一條“非對(duì)稱超越”的路徑。

DeepSeek為國(guó)產(chǎn)AI芯片提供了新的突破口。它通過(guò)模型蒸餾技術(shù)和高效的算法優(yōu)化,顯著降低了對(duì)硬件算力的需求。DeepSeek-R1系列模型在推理任務(wù)中表現(xiàn)出色,AME2024測(cè)試成績(jī)甚至略高于OpenAI的同類產(chǎn)品,但API服務(wù)定價(jià)卻更具優(yōu)勢(shì)。這種“高效能、低成本”的特性,使得國(guó)產(chǎn)AI芯片能夠在推理端快速實(shí)現(xiàn)商業(yè)化落地,而無(wú)需在訓(xùn)練端與英偉達(dá)正面競(jìng)爭(zhēng)。例如,華為云發(fā)布的DeepSeek R1/V3推理服務(wù),通過(guò)昇騰云的異構(gòu)算力優(yōu)勢(shì),在推理性能上“與全球高端GPU部署模型效果持平”,能夠滿足大規(guī)模生產(chǎn)環(huán)境的商用部署需求。

同時(shí),DeepSeek的開(kāi)源策略和輕量化設(shè)計(jì),大幅降低了開(kāi)發(fā)者和企業(yè)的使用門檻。國(guó)產(chǎn)芯片廠商通過(guò)與DeepSeek的適配,能夠快速構(gòu)建從硬件到軟件的完整技術(shù)棧,滿足不同規(guī)模企業(yè)的需求。例如,優(yōu)刻得基于壁仞芯片,僅用數(shù)小時(shí)即完成了對(duì)DeepSeek全系列模型的適配,覆蓋從1.5B到70B的參數(shù)版本,展現(xiàn)了國(guó)產(chǎn)算力的高效兼容性。

此外,DeepSeek技術(shù)路線對(duì)顯存占用和計(jì)算資源的優(yōu)化,使得國(guó)產(chǎn)GPU能夠在有限的硬件條件下實(shí)現(xiàn)高性能推理。DeepSeek MoE架構(gòu)通過(guò)融合專家混合系統(tǒng)(MoE)、多頭潛在注意力機(jī)制(MLA)和RMSNorm三個(gè)核心組件,并采用專家共享機(jī)制、動(dòng)態(tài)路由算法和潛在變量緩存技術(shù),能夠在保持性能水平的同時(shí)顯著降低計(jì)算開(kāi)銷,從而能夠在資源受限的環(huán)境中高效運(yùn)行。這種技術(shù)適配不僅提升了國(guó)產(chǎn)芯片的市場(chǎng)競(jìng)爭(zhēng)力,也為開(kāi)發(fā)者提供了更多選擇,進(jìn)一步推動(dòng)了國(guó)產(chǎn)AI生態(tài)的繁榮。

國(guó)產(chǎn)AI芯片適配DeepSeek,三大流派分野

國(guó)產(chǎn)AI芯片密集宣布適配DeepSeek,包括:華為昇騰、海光、沐曦、天數(shù)智芯、摩爾線程、壁仞、云天勵(lì)飛、燧原、昆侖芯、靈汐科技、鯤云等。從技術(shù)路線來(lái)看,可大致劃分為三大派系:算力派、能效派以及場(chǎng)景派。

1、算力派

算力派追求通用算力對(duì)標(biāo)國(guó)際,其核心邏輯在于通過(guò)提升FP32/FP16通用算力密度,縮小與國(guó)際主流GPU的性能差距,從而適配大規(guī)模模型訓(xùn)練與推理需求。代表廠商如下:

海光信息

技術(shù)細(xì)節(jié):海光DCU(深度計(jì)算單元)基于高性能GPGPU架構(gòu),支持FP32/FP16高精度計(jì)算,已在金融、醫(yī)療、政務(wù)等領(lǐng)域?qū)崿F(xiàn)規(guī)模化應(yīng)用。

案例:海光信息成功完成DeepSeek V3和R1模型與海光DCU的適配,并正式上線,推動(dòng)AI技術(shù)在更多行業(yè)的落地。

壁仞科技

技術(shù)細(xì)節(jié):壁仞AI算力平臺(tái)上線 DeepSeek R1 蒸餾模型推理服務(wù),涵蓋從1.5B到70B的參數(shù)版本??擅馊ビ布少?gòu)與環(huán)境搭建,實(shí)現(xiàn)“開(kāi)箱即用”的云端推理體驗(yàn);針對(duì)LLM等不同任務(wù)預(yù)置優(yōu)化配置方案,實(shí)現(xiàn)多場(chǎng)景覆蓋。

案例:壁仞聯(lián)合上海智能算力科技有限公司、中興通訊、科華數(shù)據(jù)、無(wú)問(wèn)芯穹、開(kāi)源中國(guó)(Gitee AI)、優(yōu)刻得、一驀科技等戰(zhàn)略伙伴,基于壁礪系列訓(xùn)推產(chǎn)品106M、106B、106E、110E,開(kāi)展包括R1在內(nèi)的DeepSeek全系列模型的適配與上線,以滿足不同規(guī)模參數(shù)量模型的部署需求。

沐曦

技術(shù)細(xì)節(jié):沐曦曦云C系列通用GPU(GPGPU)芯片針對(duì)智算及通用計(jì)算,可廣泛應(yīng)用于智算以及通用計(jì)算、教育和科研等場(chǎng)景。曦思N系列是面向云端應(yīng)用的智算推理產(chǎn)品,采用高帶寬內(nèi)存,提供強(qiáng)大算力和視頻編解碼能力,可廣泛應(yīng)用于智慧城市、公有云計(jì)算、智能視頻處理、云游戲等場(chǎng)景。

案例:沐曦與聯(lián)想合作推出基于DeepSeek的一體機(jī)解決方案,搭載曦思N260 GPU,在Qwen2.5-14B模型推理中性能達(dá)到英偉達(dá)L20 GPU的110%-130%。此外,Gitee AI平臺(tái)聯(lián)合沐曦首發(fā)全套DeepSeek R1千問(wèn)蒸餾模型,部署在曦云GPU上,實(shí)現(xiàn)從芯片到平臺(tái)的全國(guó)產(chǎn)化。

昆侖芯

技術(shù)細(xì)節(jié):昆侖芯P800推理芯片采用自主研發(fā)的AI芯片架構(gòu),支持多種數(shù)據(jù)精度(FP32、FP16、INT8等)混合計(jì)算,具備高吞吐量和低延遲特性,支持高帶寬內(nèi)存(HBM)和DDR4內(nèi)存,提供強(qiáng)大的數(shù)據(jù)處理能力。此外,兼容PyTorch生態(tài),支持大模型訓(xùn)練場(chǎng)景。百度智能云近期點(diǎn)亮的昆侖芯三代萬(wàn)卡集群,采用的核心硬件就是昆侖芯P800。

案例:DeepSeek-V3/R1上線后不久,昆侖芯完成了全版本模型的適配,包括DeepSeek MoE模型及其蒸餾的Llama、Qwen等小規(guī)模dense模型。昆侖芯P800在支撐Deepseek系列MoE模型大規(guī)模訓(xùn)練任務(wù)方面表現(xiàn)較為出色,它全面支持MLA、多專家并行等特性,僅需32臺(tái)即可支持模型全參訓(xùn)練,高效完成模型的持續(xù)訓(xùn)練和微調(diào)。P800的顯存規(guī)格優(yōu)于同類主流GPU 20-50%,對(duì)MoE架構(gòu)友好。它率先支持8bit推理,單機(jī)8卡即可運(yùn)行671B模型。

2. 能效派

能效派通過(guò)芯片架構(gòu)創(chuàng)新,以及與框架的優(yōu)化適配,能夠在同等制程下實(shí)現(xiàn)高效算力。代表廠商如下:

華為昇騰

技術(shù)細(xì)節(jié):昇騰芯片與MindSpore框架的深度綁定,為DeepSeek提供了優(yōu)化空間。通過(guò)動(dòng)態(tài)形狀編譯技術(shù),模型可自動(dòng)適應(yīng)不同輸入尺寸,減少30%以上的內(nèi)存碎片;混合精度流水線設(shè)計(jì)則使FP16/INT8的轉(zhuǎn)換損耗從行業(yè)平均的2.1%降至0.7%。

案例:華為云發(fā)布的DeepSeek R1/V3推理服務(wù),在昇騰云的異構(gòu)算力支持下,推理性能與英偉達(dá)A100持平,但功耗降低40%。華為云與硅基流動(dòng)聯(lián)合發(fā)布基于昇騰云服務(wù)的DeepSeek R1/V3推理服務(wù),性能與高端GPU部署效果持平,支持大規(guī)模生產(chǎn)環(huán)境商用部署。潞晨科技基于昇騰910B推出DeepSeek R1推理API,性能媲美英偉達(dá)H800,支持私有化部署。

天數(shù)智芯

技術(shù)細(xì)節(jié):天數(shù)智芯算力支持三個(gè)不同參數(shù)的 DeepSeek R1千問(wèn)蒸餾模型:1.5B、7B和14B,這三種版本在保證推理效率的同時(shí),提供靈活算力選擇,能夠滿足不同規(guī)模和需求的應(yīng)用場(chǎng)景。

案例:算力互聯(lián)和天數(shù)智芯合作,上線了基于天數(shù)智芯GPU芯片的DeepSeek-R1模型服務(wù),是國(guó)產(chǎn)GPU技術(shù)創(chuàng)新與生態(tài)建設(shè)的重要突破。

燧原科技

技術(shù)細(xì)節(jié):搭載于燧原加速卡中的新一代AI芯片,通過(guò)升級(jí)其自研架構(gòu)GCU-CARA(通用計(jì)算單元和全域計(jì)算架構(gòu)),提高了單位面積的晶體管效率,采用12nm工藝實(shí)現(xiàn)與7nm GPU匹敵的計(jì)算能力。

案例:燧原科技完成了對(duì)DeepSeek全量模型的高效適配,包括DeepSeek-R1/V3 671B原生模型、DeepSeek-R1-Distill-Qwen-1.5B/7B/14B/32B、DeepSeek R1-Distill-Llama-8B/70B等蒸餾模型。

DeepSeek全量模型已在慶陽(yáng)、無(wú)錫、成都等智算中心完成了數(shù)萬(wàn)卡的快速部署,提供高性能計(jì)算資源,提升模型推理效率,同時(shí)降低使用門檻,節(jié)省硬件成本。

摩爾線程

技術(shù)細(xì)節(jié):摩爾線程MTT S4000 GPU通過(guò)動(dòng)態(tài)張量核心設(shè)計(jì),將DeepSeek蒸餾模型的稀疏化率(70%)轉(zhuǎn)化為實(shí)際能效增益。測(cè)試數(shù)據(jù)顯示,在自然語(yǔ)言推理任務(wù)中,其Tokens/Watt指標(biāo)達(dá)到A100的83%,超同類國(guó)產(chǎn)GPU的37%水平。采用FP16-INT8混合量化引擎,結(jié)合模型蒸餾后的權(quán)重分布特性,使ResNet-50推理延遲降至3.2ms,較未優(yōu)化前提升4.3倍。

基于Ollama開(kāi)源框架,摩爾線程完成了DeepSeek-R1-Distill-Qwen-7B蒸餾模型的部署,并在多種中文任務(wù)中展現(xiàn)了良好性能。

案例:摩爾線程計(jì)劃開(kāi)放夸娥(KUAE)GPU智算集群,全面支持DeepSeek V3、R1模型及新一代蒸餾模型的分布式部署,進(jìn)一步驗(yàn)證自研全功能GPU的通用性與CUDA兼容性。

3. 場(chǎng)景派

場(chǎng)景派聚焦細(xì)分領(lǐng)域垂直需求,針對(duì)特定場(chǎng)景(如類腦計(jì)算、生物計(jì)算、視頻應(yīng)用等)優(yōu)化硬件設(shè)計(jì),形成差異化競(jìng)爭(zhēng)優(yōu)勢(shì)。代表廠商如下:

靈汐科技

技術(shù)細(xì)節(jié):靈汐科技類腦芯片領(lǐng)啟KA200(-S) 基于存算一體、眾核并行、異構(gòu)融合架構(gòu),能高效支持深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)、生物神經(jīng)網(wǎng)絡(luò)和大規(guī)模腦仿真。單芯片集成 25 萬(wàn)神經(jīng)元和 2500 萬(wàn)突觸(稠密模式),可擴(kuò)展支持 200 萬(wàn)神經(jīng)元和 20 億突觸的集成計(jì)算(稀疏模式),支持混合精度計(jì)算(48TOPS@INT8 和 24TFLOPS@FP16)。有強(qiáng)大的視頻圖像處理和算法支持能力,也具有對(duì)各類LLM語(yǔ)言大模型及多模態(tài)模型的支撐能力。

案例:靈汐科技團(tuán)隊(duì)聯(lián)合類腦技術(shù)社區(qū)(“腦啟社區(qū)“)的開(kāi)發(fā)者,用半天時(shí)間完成了DeepSeek-R1系列模型在靈汐KA200芯片及相關(guān)智算卡的適配。 “腦啟社區(qū)“開(kāi)發(fā)者反饋,在DeepSeek-R1-Distill-Qwen的1.5B、7B等系列模型測(cè)試中,模型在4K上下文情形下體驗(yàn)順暢,具備交付客戶使用的能力。

云天勵(lì)飛

技術(shù)細(xì)節(jié):云天勵(lì)飛DeepEdge10 “算力積木”芯片平臺(tái)已經(jīng)與DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Llama-8B大模型完成適配,可以交付使用。DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B大模型、DeepSeek V3/R1 671B MoE大模型也在有序適配中。

案例:邊緣推理芯片DeepEdge10專注視頻結(jié)構(gòu)化分析,支持DeepSeek視覺(jué)模型的低延時(shí)部署。適配完成后,DeepEdge10芯片平臺(tái)將在端、邊、云全面支持DeepSeek全系列模型。

鯤云科技

技術(shù)細(xì)節(jié):鯤云科技CAISA 430采用自研定制數(shù)據(jù)流架構(gòu)(CAISA 3.0),通過(guò)數(shù)據(jù)流動(dòng)控制計(jì)算順序,提升了芯片的實(shí)測(cè)性能和利用率。數(shù)據(jù)流架構(gòu)通過(guò)消除計(jì)算單元的空閑時(shí)間,實(shí)現(xiàn)了95.4%的芯片利用率,較傳統(tǒng)GPU架構(gòu)提升了3倍以上的實(shí)測(cè)算力。鑒于CAISA 430的通用性,原生支持 DeepSeek R1 蒸餾模型的開(kāi)源基礎(chǔ)模型,DeepSeek R1 的QWen和 Llama 模型可直接在 CAISA 430 上運(yùn)行,不需要復(fù)雜的適配工作。

案例:基于可重構(gòu)數(shù)據(jù)流架構(gòu)底層優(yōu)勢(shì),適配后的CAISA 430芯片優(yōu)勢(shì)主要體現(xiàn)在,支持邊緣盒子、一體機(jī)、AI 服務(wù)器、算力中心服務(wù)器集群等邊緣至中心不同產(chǎn)品形態(tài),適配不同場(chǎng)景的AI推理需求。

國(guó)產(chǎn)AI芯片生態(tài)是否迎來(lái)結(jié)構(gòu)性突破?

DeepSeek的普及和國(guó)產(chǎn)芯片的快速適配,為國(guó)產(chǎn)AI生態(tài)注入了新的活力。隨著技術(shù)的不斷迭代和生態(tài)的逐步完善,國(guó)產(chǎn)AI芯片有望率先在推理端實(shí)現(xiàn)規(guī)?;涞?,生態(tài)迎來(lái)結(jié)構(gòu)性突破的可能性。

從技術(shù)層面來(lái)看,DeepSeek的蒸餾模型和高效算法優(yōu)化,使得國(guó)產(chǎn)芯片能夠在推理任務(wù)中實(shí)現(xiàn)與高端GPU相當(dāng)?shù)男阅鼙憩F(xiàn)。例如,海光信息、沐曦等國(guó)產(chǎn)GPU已成功完成DeepSeek-V3和R1模型的適配,并在實(shí)際應(yīng)用中展現(xiàn)了優(yōu)異的推理效率。這種技術(shù)突破不僅降低了算力成本,也為國(guó)產(chǎn)芯片在邊緣計(jì)算、智能終端等場(chǎng)景的普及奠定了基礎(chǔ)。

從生態(tài)層面來(lái)看,DeepSeek的開(kāi)源屬性和低成本特性,吸引了大量開(kāi)發(fā)者和企業(yè)加入國(guó)產(chǎn)AI生態(tài)。優(yōu)刻得、華為云、騰訊云等云計(jì)算廠商紛紛支持DeepSeek模型的部署,形成了從底層硬件到上層應(yīng)用的完整技術(shù)棧。這種“國(guó)產(chǎn)算力+國(guó)產(chǎn)模型”的閉環(huán)生態(tài),不僅增強(qiáng)了國(guó)產(chǎn)AI產(chǎn)業(yè)鏈的自主可控能力,也提供了更具性價(jià)比的解決方案。

不過(guò)要看到的是,國(guó)產(chǎn)AI芯片生態(tài)的結(jié)構(gòu)性突破仍面臨挑戰(zhàn)。例如,在訓(xùn)練端,國(guó)產(chǎn)芯片與英偉達(dá)GPU的性能差距依然顯著,尤其是在大規(guī)模模型訓(xùn)練場(chǎng)景中,國(guó)產(chǎn)芯片的算力密度和軟件棧成熟度仍需提升。此外,生態(tài)碎片化問(wèn)題也亟待解決,各家芯片廠商自研編譯器和框架可能導(dǎo)致開(kāi)發(fā)者適配成本增加,影響生態(tài)的整體效率。只有這些問(wèn)題逐步得到解決,國(guó)產(chǎn)AI芯片才能迎來(lái)真正的結(jié)構(gòu)性突破。

寫(xiě)在最后

DeepSeek憑借其高效能、低成本的技術(shù)優(yōu)勢(shì),當(dāng)前已經(jīng)成為國(guó)產(chǎn)AI芯片適配的焦點(diǎn),為國(guó)產(chǎn)AI生態(tài)帶來(lái)了新的發(fā)展機(jī)遇。盡管在訓(xùn)練端仍面臨挑戰(zhàn),但國(guó)產(chǎn)芯片在推理端的快速突破和生態(tài)閉環(huán)的初步形成,標(biāo)志著國(guó)產(chǎn)AI芯片生態(tài)正迎來(lái)關(guān)鍵突破節(jié)點(diǎn)。未來(lái),隨著技術(shù)的進(jìn)一步優(yōu)化和生態(tài)的持續(xù)完善,國(guó)產(chǎn)AI芯片將進(jìn)一步推動(dòng)我國(guó)AI產(chǎn)業(yè)的升級(jí)和發(fā)展。

相關(guān)推薦