作者 |??程茜,編輯?|??漠影
MWC的端側(cè)AI風(fēng)暴中心,AI芯片廠商狂飆。
AI PC正在GPGPU芯片之上迸發(fā)出新的生命力!
智東西3月14日?qǐng)?bào)道,在一年一度的行業(yè)大會(huì)世界移動(dòng)通信大會(huì)上,PC、手機(jī)、機(jī)器人等各路終端設(shè)備無(wú)不與AI深度綁定。
作為全球AI PC龍頭的聯(lián)想亮出了自家系列AI PC解決方案,其產(chǎn)品背后的AzureBlade M.2加速卡正是支持其AI PC體驗(yàn)的關(guān)鍵動(dòng)力。AzureBlade M.2加速卡就來(lái)自國(guó)內(nèi)清華系GPGPU創(chuàng)企珠海芯動(dòng)力科技。芯動(dòng)力成為聯(lián)想在筆記本電腦dNPU方案領(lǐng)域的首位合作伙伴。
在大模型時(shí)代,邊緣設(shè)備迎來(lái)了新的機(jī)遇期,春節(jié)爆火的DeepSeek更是加速了這一進(jìn)程,以AI PC、AI手機(jī)為代表的諸多硬件連番炸場(chǎng)。
其背后的原因是,大模型對(duì)數(shù)據(jù)處理的實(shí)時(shí)性、隱私性要求不斷提高,邊緣設(shè)備能夠在靠近數(shù)據(jù)源的地方進(jìn)行數(shù)據(jù)處理;邊緣設(shè)備可承擔(dān)部分?jǐn)?shù)據(jù)預(yù)處理和簡(jiǎn)單推理任務(wù),拓寬應(yīng)用場(chǎng)景邊界;DeepSeek憑借算法優(yōu)化進(jìn)一步加速了大模型在邊緣設(shè)備上的部署與應(yīng)用進(jìn)程,讓大模型以更低資源消耗在邊緣設(shè)備高效運(yùn)行。
這股邊緣AI爆發(fā)的熱潮宛如一把雙刃劍,在為行業(yè)帶來(lái)新契機(jī)的同時(shí),也向AI芯片企業(yè)拋出了一連串棘手難題,高性能、低延時(shí)、低功耗、兼容多種操作系統(tǒng)……聯(lián)想與芯動(dòng)力的合作正是這道難題的最新解法。
邊緣AI時(shí)代爆發(fā)前夜,M.2加速卡的獨(dú)特優(yōu)勢(shì)是什么?其為何能入局AI PC龍頭企業(yè)聯(lián)想的產(chǎn)品布局中?我們?cè)噲D通過(guò)拆解芯動(dòng)力的產(chǎn)品,找到這些問(wèn)題的答案。
01.DeepSeek引爆邊緣AI芯片廠商機(jī)遇挑戰(zhàn)并存
在當(dāng)下,端側(cè)設(shè)備部署大模型的風(fēng)潮洶涌。然而,這股熱潮背后橫亙著一個(gè)核心命題:端側(cè)設(shè)備以及AI芯片是否足以承載大模型所需的性能。
因此,端側(cè)AI爆發(fā)呈現(xiàn)出兩大顯著趨勢(shì)。
一方面,端側(cè)設(shè)備部署大模型這把火燒的更旺了。
此前,受限于硬件性能和模型技術(shù),端側(cè)部署的模型諸多無(wú)法處理復(fù)雜任務(wù),這也導(dǎo)致端側(cè)AI應(yīng)用場(chǎng)景有限,但更靠近用戶的端側(cè)設(shè)備在保護(hù)用戶數(shù)據(jù)隱私方面、實(shí)時(shí)反饋方面更有優(yōu)勢(shì)。
DeepSeek以開(kāi)源和低成本的特性極大拉低了大模型部署的門(mén)檻,使得端側(cè)設(shè)備部署更高性能大模型的可能性增強(qiáng)。同時(shí),基于DeepSeek的算法優(yōu)化策略,使得支持長(zhǎng)文本處理等復(fù)雜任務(wù)的高性能大模型與端側(cè)設(shè)備適配,開(kāi)發(fā)者還可以通過(guò)蒸餾優(yōu)化等生成特定場(chǎng)景性能更強(qiáng)的小模型。對(duì)于中小企業(yè)或者個(gè)人開(kāi)發(fā)者而言,能更快速相關(guān)端側(cè)AI應(yīng)用。
隨之而來(lái)的是,AI手機(jī)、AI PC到AI眼鏡等加速涌現(xiàn),端側(cè)AI爆發(fā)已成共識(shí)。
然而另一方面,端側(cè)AI的爆發(fā),于AI芯片廠商既是蓬勃發(fā)展的難得機(jī)遇,也帶來(lái)了諸多嚴(yán)峻挑戰(zhàn) 。
AI在手機(jī)、PC、智能穿戴等諸多端側(cè)設(shè)備中應(yīng)用不斷拓展,使得AI芯片需求大幅增加,并且由于其設(shè)備形態(tài)、應(yīng)用場(chǎng)景多元化,不同場(chǎng)景對(duì)芯片需求各異,為芯片廠商提供了更多差異化競(jìng)爭(zhēng)的機(jī)會(huì)。
但更為關(guān)鍵的是,AI芯片的性能要符合當(dāng)下端側(cè)設(shè)備的發(fā)展趨勢(shì),主要集中在性能、功耗、成本、可擴(kuò)展性上。
包括端側(cè)設(shè)備對(duì)功耗要求極高,需要芯片兼顧低功耗、高性能,且當(dāng)下算法和模型仍在不斷更新迭代,芯片廠商需要確保芯片高效適配新的模型和算法。此外,端側(cè)設(shè)備的廠商對(duì)成本更為敏感,芯片廠商需要降低芯片的制造成本、研發(fā)成本等,以提高產(chǎn)品的市場(chǎng)競(jìng)爭(zhēng)力。
以AI PC為例,用戶基于其需要處理的生成任務(wù)各不相同,文字、圖片、視頻生成等應(yīng)用盡有,因此對(duì)于計(jì)算資源和處理能力的要求也有區(qū)別。
這種情況下,以通用計(jì)算為核心的計(jì)算架構(gòu)在處理生成任務(wù)時(shí)可能面臨性能有限、效率低下、能耗高、靈活性不足等瓶頸,因此從以通用計(jì)算為核心的計(jì)算架構(gòu)向更加高性能的異構(gòu)AI計(jì)算架構(gòu)升級(jí),成為當(dāng)下增強(qiáng)端側(cè)設(shè)備生成式AI體驗(yàn)的重要路徑。
通過(guò)讓CPU、GPU、NPU等不同計(jì)算單元“各司其職”、協(xié)同運(yùn)作,構(gòu)建高性能異構(gòu)AI計(jì)算架構(gòu),便能依據(jù)各類生成任務(wù)的特性,實(shí)現(xiàn)任務(wù)的合理分配 。
此外,對(duì)于AI芯片而言,在滿足性能與功耗等嚴(yán)苛要求的同時(shí),還需提供更高的性價(jià)比,才能吸引PC廠商在設(shè)備中選用,同時(shí)也讓終端用戶更樂(lè)于接受搭載此類芯片的產(chǎn)品。
在這個(gè)關(guān)鍵節(jié)點(diǎn),以AI PC為代表的端側(cè)設(shè)備正在呼喚相匹配的AI芯片,加速大模型在端側(cè)的繁榮。
02.小體積、高性能、低功耗、高性價(jià)比M.2加速卡成AI PC致勝利器
就在2025世界移動(dòng)通信大會(huì)(MWC 2025)上,我們看到了AI PC龍頭聯(lián)想和國(guó)產(chǎn)AI芯片廠商芯動(dòng)力聯(lián)手的成果。
聯(lián)想全新升級(jí)的AI PC系列產(chǎn)品亮相,而支持其AI體驗(yàn)的關(guān)鍵之一,正是芯動(dòng)力基于可重構(gòu)并行處理器RPP打造的AzureBlade M.2加速卡。
聯(lián)想相關(guān)負(fù)責(zé)人在MWC上介紹,聯(lián)想AI PC實(shí)現(xiàn)了將大模型放到本地端推理的突破,盡管傳統(tǒng)本地推理大都采用集成(CPU+iNPU)或獨(dú)立顯卡GPU,但經(jīng)過(guò)多重對(duì)比發(fā)現(xiàn),在運(yùn)行大語(yǔ)言模型時(shí),通常依賴GPU進(jìn)行加速,iNPU只有在特定的場(chǎng)景中才能被調(diào)用。聯(lián)想AI PC最終采用了芯動(dòng)力AzureBlade M.2加速卡,并命名為dNPU。M.2加速卡在進(jìn)行大模型推理時(shí)具有高效率、低功耗性能,同時(shí)可進(jìn)一步釋放顯卡能力,在提高效率的同時(shí)更節(jié)約能耗。
從具體的效果來(lái)看,聯(lián)想PC上的個(gè)人智能體AI NOW執(zhí)行推理任務(wù)主要在dNPU內(nèi)完成,無(wú)需占用 CPU、顯存或GPU資源,整個(gè)推理過(guò)程中,CPU的資源占用極低,僅在數(shù)據(jù)預(yù)處理以及數(shù)據(jù)傳輸環(huán)節(jié)占用少量資源,可以顯著提高推理速度和整體性能。在低功耗方面,通過(guò)聯(lián)想小新14P實(shí)測(cè),芯動(dòng)力研發(fā)人員發(fā)現(xiàn),于本地化大模型部署場(chǎng)景下,運(yùn)用芯動(dòng)力dNPU執(zhí)行大模型推理任務(wù)時(shí),整機(jī)能耗相較于未使用dNPU的情形,實(shí)現(xiàn)節(jié)省了60%能耗。這得益于dNPU的深度優(yōu)化架構(gòu),其推理任務(wù)可以僅通過(guò)CPU適度調(diào)用即可完成,避免額外高功耗設(shè)備介入。這種設(shè)計(jì)整體優(yōu)化了系統(tǒng)運(yùn)行的高性能和低功耗。
具體來(lái)看,AI PC等端側(cè)設(shè)備通常受限于緊湊空間,內(nèi)部留給各類組件的體積十分有限,因此M.2加速卡的體積也要足夠小。
芯動(dòng)力基于RPP架構(gòu)自主研發(fā)的AI芯片AE7100尺寸僅為17mm×17mm,集成了該芯片的M.2加速卡尺寸為22mmx88mm,大小與半張名片相當(dāng)。
與之相匹配的是強(qiáng)大的性能,M.2加速卡擁有高達(dá)32TOPs的算力以及60GB/s的內(nèi)存帶寬,功耗也被嚴(yán)格控制在8w以下,同時(shí)可支撐大模型在AI PC等設(shè)備上運(yùn)行,適配了Deepseek、Llama3-8B、Stable Diffusion、通義千問(wèn)等開(kāi)源模型。
為了讓M.2加速卡與PC自然融合,芯動(dòng)力采用扇出型封裝,用玻璃載板替代ABF材料,既減小了芯片面積,還實(shí)現(xiàn)了低成本先進(jìn)封裝。
值得一提的是,端側(cè)AI應(yīng)用開(kāi)發(fā)的需求多樣化,因此AI芯片需要降低開(kāi)發(fā)者的軟件適配和調(diào)試難度、成本,讓其更容易實(shí)現(xiàn)AI應(yīng)用的兼容,幫助其更快開(kāi)發(fā)出相應(yīng)應(yīng)用。
在此基礎(chǔ)上,AE7100實(shí)現(xiàn)從底層指令集到上層驅(qū)動(dòng)的全面兼容,沿用英偉達(dá)軟件棧,并進(jìn)行了指令集、驅(qū)動(dòng)層和開(kāi)發(fā)庫(kù)的優(yōu)化,提升開(kāi)發(fā)效率與邏輯實(shí)現(xiàn)的直觀性。
同時(shí),由于M.2加速卡兼容CUDA和ONNX,能夠滿足各類AI應(yīng)用的多樣化需求,其高算力和內(nèi)存帶寬能確保數(shù)據(jù)的高效穩(wěn)定處理與傳輸。無(wú)論是圖像識(shí)別、自然語(yǔ)言處理等需要大量數(shù)據(jù)運(yùn)算的AI任務(wù),還是對(duì)數(shù)據(jù)實(shí)時(shí)性要求高的場(chǎng)景,該加速卡都能保障數(shù)據(jù)處理和傳輸?shù)捻槙?,避免因算力不足或?shù)據(jù)傳輸瓶頸導(dǎo)致的應(yīng)用性能下降。
在AI和非AI設(shè)備上,M.2加速卡都實(shí)現(xiàn)了兼容。如AI智能調(diào)整、隱私保護(hù)等,聯(lián)想AI Monitor內(nèi)置M.2加速卡,可以實(shí)現(xiàn)監(jiān)控用戶的動(dòng)作和姿勢(shì),實(shí)時(shí)調(diào)整屏幕的傾斜角度和高度,以及用戶離開(kāi)電腦前自動(dòng)模糊屏幕等;對(duì)于非AI設(shè)備,聯(lián)想AI Monitor可以與其配合使用,利用M.2加速卡的算力處理來(lái)自用戶的請(qǐng)求。
可以看出,M.2加速卡針對(duì)端側(cè)設(shè)備部署大模型的優(yōu)化是全方位的。也正因如此,在當(dāng)前端側(cè)AI發(fā)展浪潮下,全球AI PC巨頭聯(lián)想選擇了與芯動(dòng)力聯(lián)手。
將視角拉長(zhǎng),我們發(fā)現(xiàn),這正是芯動(dòng)力在AI時(shí)代精準(zhǔn)洞察行業(yè)趨勢(shì),積累勢(shì)能的最好體現(xiàn)。
03.“六邊形戰(zhàn)士”劍指邊緣AI契合端側(cè)大模型部署痛點(diǎn)
想要剖析芯動(dòng)力在當(dāng)下的優(yōu)勢(shì),可以從其針對(duì)并行計(jì)算設(shè)計(jì)的芯片架構(gòu)說(shuō)起。
芯動(dòng)力將其自研的RPP架構(gòu)稱作“六邊形戰(zhàn)士”,主要解決的就是高性能、通用性可以兼得的難題。
這一架構(gòu)既結(jié)合了NPU的高效率與GPU的高通用性優(yōu)勢(shì),更具備DSP的低延時(shí),可滿足高效并行計(jì)算及AI計(jì)算應(yīng)用,如圖像計(jì)算、視覺(jué)計(jì)算、信號(hào)處理計(jì)算等,大大提高了系統(tǒng)的實(shí)時(shí)性和響應(yīng)速度。
芯動(dòng)力的優(yōu)勢(shì)在于,其是首家采用CUDA作為芯片架構(gòu)的設(shè)計(jì)方向,利用數(shù)據(jù)流結(jié)構(gòu)避免數(shù)據(jù)與計(jì)算單元間反復(fù)調(diào)用帶來(lái)的效率損失。并且其具有編譯器、運(yùn)行時(shí)環(huán)境、高度優(yōu)化的RPP庫(kù),可全面兼容CUDA的端到端完整軟件棧,實(shí)現(xiàn)邊緣AI應(yīng)用的快速高效部署。
這契合了當(dāng)下大模型部署在端側(cè)設(shè)備的諸多痛點(diǎn)。
正如聯(lián)想相關(guān)負(fù)責(zé)人所說(shuō):“dNPU代表了未來(lái)大模型在PC等本地端推理的技術(shù)方向和趨勢(shì)。”
展望未來(lái),該芯片可以提升大模型在端側(cè)部署時(shí)的推理速度,并降低功耗、提升能效,推動(dòng)多元化AI應(yīng)用涌現(xiàn)的同時(shí),為AI PC帶來(lái)更多增長(zhǎng)空間?;蛟S在未來(lái),dNPU對(duì)PC的加持會(huì)使其成為與GPU類似的電腦標(biāo)配。
此外,dNPU可以以獨(dú)立的標(biāo)準(zhǔn)化插件存在,給用戶提供了更高的性價(jià)比和靈活性,如果其對(duì)生成式AI能力沒(méi)有更高需求,用戶可以不采用dNPU。反之,若將dNPU集成至CPU中,會(huì)導(dǎo)致產(chǎn)品價(jià)格過(guò)高,降低用戶的購(gòu)買(mǎi)欲望。
或許在不遠(yuǎn)的將來(lái),dNPU就會(huì)作為標(biāo)準(zhǔn)化插件,廣泛出現(xiàn)在市面上所有可選擇配置的電腦機(jī)型中。邊緣AI時(shí)代的爆發(fā)已經(jīng)有跡可循。
邊緣計(jì)算作為云端算力有效補(bǔ)充,同樣是大模型落地的必然趨勢(shì)。
大模型由于參數(shù)規(guī)模龐大、計(jì)算復(fù)雜度高,對(duì)算力的需求極為嚴(yán)苛,將大模型部署在云端,雖然能利用強(qiáng)大的云端算力,但數(shù)據(jù)往返云端的過(guò)程會(huì)產(chǎn)生不可忽視的延遲,這對(duì)于如自動(dòng)駕駛、智能安防等對(duì)實(shí)時(shí)性要求極高的應(yīng)用場(chǎng)景而言是致命的。
DeepSeek的出現(xiàn),意味著邊緣AI競(jìng)賽來(lái)到新的節(jié)點(diǎn)。在邊緣設(shè)備上運(yùn)行更復(fù)雜、更強(qiáng)大的AI模型成為現(xiàn)實(shí),吸引了眾多企業(yè)和開(kāi)發(fā)者投身于邊緣AI領(lǐng)域的創(chuàng)新與競(jìng)爭(zhēng)。
在這之前,芯動(dòng)力基于RPP架構(gòu)打造的AI芯片,已經(jīng)憑借高性能、低功耗、低成本等優(yōu)勢(shì),在泛安防/邊緣服務(wù)器、工業(yè)影像/機(jī)器視覺(jué)、信號(hào)處理/醫(yī)療影像、機(jī)器人等邊緣AI應(yīng)用市場(chǎng)有眾多應(yīng)用落地,并與浪潮信息等眾多重磅玩家達(dá)成戰(zhàn)略合作。
可以確定的是,芯動(dòng)力RPP芯片架構(gòu)的應(yīng)用潛力正被無(wú)限釋放出來(lái),看到這一發(fā)展趨勢(shì)的芯動(dòng)力,也加快了產(chǎn)品的發(fā)布節(jié)奏。據(jù)了解,今年,芯動(dòng)力將推出基于RPP集成Chiplet的8nm R36芯片,2027年將推出更高性能的3nm R72芯片。
04.結(jié)語(yǔ):RPP架構(gòu)為邊緣AI時(shí)代爆發(fā)積勢(shì)
AI時(shí)代的產(chǎn)業(yè)發(fā)展速度之快、變化之多可謂有目共睹,從日常生活中的智能語(yǔ)音助手,到工業(yè)領(lǐng)域的智能生產(chǎn)系統(tǒng),AI的應(yīng)用正以前所未有的廣度與深度滲透進(jìn)各個(gè)行業(yè)。這一浪潮下,AI芯片需要具備更強(qiáng)大的計(jì)算能力以滿足復(fù)雜運(yùn)算需求,才能承接住這一波市場(chǎng)紅利。
因此,精準(zhǔn)洞察產(chǎn)業(yè)發(fā)展趨勢(shì)、堅(jiān)持自研創(chuàng)新、將自身業(yè)務(wù)體系做到極致才能有效應(yīng)對(duì)市場(chǎng)變化。芯動(dòng)力RPP架構(gòu)的出現(xiàn)就是很好的例證,未來(lái),其將基于這一“六邊形戰(zhàn)士”帶給邊緣AI時(shí)代什么樣的驚喜,我們拭目以待。