近年來,全球消費電子市場經(jīng)歷了起起落落,如今正展現(xiàn)出復(fù)蘇的積極態(tài)勢。從手機和 PC 市場的數(shù)據(jù)報告中,我們能清晰地捕捉到這一趨勢。
圖 | 2014-2024年全球智能手機出貨量情況;來源:Canalys
根據(jù)Canalys發(fā)布的數(shù)據(jù)顯示,2024年全球智能手機市場出貨量達(dá)到12.2億部,同比增長7%;同時,全球PC市場也呈現(xiàn)出穩(wěn)步回暖的態(tài)勢,全年出貨量同比增長3.8%,達(dá)到2.55億臺。這一復(fù)蘇趨勢不僅體現(xiàn)在出貨量的增長,還反映在消費電子產(chǎn)業(yè)鏈的盈利改善上。
AI正在成為消費電子換新潮的核心驅(qū)動力
縱觀這場全球性的消費電子復(fù)蘇,除了經(jīng)濟(jì)環(huán)境的改善和消費者信心的恢復(fù),人工智能(AI)無疑成為了引領(lǐng)換新潮的核心驅(qū)動力。
事實上,AI正在重新定義手機和PC的功能邊界,為用戶帶來全新的體驗。如今,AI已經(jīng)成為各大手機廠商競相發(fā)力的核心領(lǐng)域。例如,蘋果在2024年推出了Apple Intelligence,試圖通過自研芯片與生成式模型對用戶體驗進(jìn)行全面提升;三星通過與AMD合作,在Exynos芯片中引入了高性能GPU,以支持AI負(fù)載和游戲性能;華為、OPPO等廠商也紛紛接入DeepSeek等AI大模型,加速AI端側(cè)部署。
結(jié)合當(dāng)下形勢,Counterpoint預(yù)測,2024年全球AI手機滲透率約4%,出貨量有望超1億部;而到2027年,全球AI手機滲透率將達(dá)到40%左右,出貨量有望達(dá)5.22億部。
值得一提的是,當(dāng)AI 手機、AI PC等AI負(fù)載為消費電子行業(yè)帶來新增長動力的同時,相關(guān)產(chǎn)業(yè)鏈也同步進(jìn)入高速發(fā)展期,產(chǎn)業(yè)升級過程中,處理器芯片、內(nèi)存、傳感器和散熱解決方案提供商成為最大受益群體。
AI負(fù)載離不開GPU,為什么?
為什么處理器芯片、內(nèi)存、傳感器和散熱解決方案提供商將成為最大受益群體呢?首先,我們要弄清楚AI負(fù)載的特色。
AI負(fù)載的核心特點是高并行計算和大量數(shù)據(jù)處理。無論是圖像識別、自然語言處理還是深度學(xué)習(xí)模型推理,都需要強大的計算能力來支持,而存取、加載大模型需要搭載更高容量 和性能的存儲,以AI手機為例,16GB RAM或?qū)⒊蔀樾乱淮鶤I手機的基礎(chǔ)配置。此外,AI任務(wù)的高頻高密特性對手機散熱、攝像頭、電池、PCB等零部件同樣提出了更高的標(biāo)準(zhǔn)。
聯(lián)發(fā)科無線事業(yè)部AI技術(shù)高級經(jīng)理莊世榮曾表示:“端側(cè)130億參數(shù)大模型需要配備70TOPS算力的處理器芯片以及13GB容量的內(nèi)存?!?/p>
而對于端側(cè)AI設(shè)備來講,AI用例需求存在多種類型,具有復(fù)雜性、并發(fā)性和多樣性,對應(yīng)對芯片的性能及資源調(diào)用提出不同要求。其中,在深度學(xué)習(xí)領(lǐng)域,GPU 已經(jīng)成為了主流的算力硬件。例如,AI手機中的圖像識別、語音翻譯和個性化推薦等功能,都需要GPU的強大算力支持。這是為什么呢?
因為GPU 具有強大的并行計算能力,能夠同時處理大量的數(shù)據(jù)和復(fù)雜的計算任務(wù)。在 AI 訓(xùn)練和推理過程中,需要進(jìn)行大量的矩陣運算,GPU 的并行架構(gòu)能夠顯著加速這些運算過程,大大縮短訓(xùn)練時間和提高推理效率。與 CPU 相比,GPU 在處理大規(guī)模數(shù)據(jù)時具有更高的性能和更低的能耗,因此成為了 AI 負(fù)載的首選硬件平臺。
圖 | 2024年GPU出貨量超2.51億塊,同比增長6%;來源:Jon Peddie Research
受到下游需求的驅(qū)動,近年來GPU產(chǎn)業(yè)發(fā)展迅速。根據(jù)Jon Peddie Research 發(fā)布的數(shù)據(jù)顯示,2024 年全球 GPU 市場規(guī)模將超過 985 億美元,出貨量超2.51億塊,同比增長6%。
另外,Yole Group?預(yù)測,2023-2029年,高性能計算GPU市場復(fù)合年增長率(CAGR)將達(dá)到25%,遠(yuǎn)超CPU的5%和APU的8%;到2029年,GPU 細(xì)分市場收入預(yù)計將比 CPU 細(xì)分市場大兩倍;到2034年,GPU市場規(guī)模有望突破1.4萬億美元,成為處理器市場增長的核心驅(qū)動力。
AI負(fù)載對GPU提出了哪些新的要求?
如上所述,隨著 AI 技術(shù)的不斷發(fā)展和應(yīng)用場景的日益豐富,GPU 市場迎來更為廣闊的發(fā)展空間。
與此同時 ,AI 負(fù)載的不斷升級也對 GPU 提出了新的挑戰(zhàn)和要求。一方面,為了支持更復(fù)雜的 AI 模型和算法,GPU 需要具備更高的計算能力、更大的顯存容量和更強的兼容性。另一方面,隨著 AI 應(yīng)用對實時性要求的提高,GPU 需要具備更快的數(shù)據(jù)傳輸速度和更低的延遲。此外,為了降低成本和提高能效,GPU 的設(shè)計還需要更加注重集成化和優(yōu)化架構(gòu)。
眾所周知,在GPU領(lǐng)域,Imagination Technologies(以下簡稱“Imagination”)一直是行業(yè)的風(fēng)向標(biāo)。近年來,Imagination逐步調(diào)整資源配置,將資源集中在AI、汽車電子、桌面和數(shù)據(jù)中心等高增長領(lǐng)域,推出了多款高性能GPU IP產(chǎn)品。接下來我們以Imagination在GPU領(lǐng)域的產(chǎn)品創(chuàng)新為例,來了解GPU產(chǎn)業(yè)對AI負(fù)載的需求跟進(jìn)。
去年9月,面向車載智能和交互設(shè)計需求,Imagination 推出了一款可擴展、靈活GPU IP ——IMG DXS,峰值性能比 其上一代汽車 GPU 提高了 50%,計算工作負(fù)載的性能提升多達(dá)10倍,能夠支持駕駛艙、信息娛樂和高級駕駛輔助系統(tǒng)。此外,Imagination還通過與全球領(lǐng)先的安全關(guān)鍵型軟件提供商合作,進(jìn)一步鞏固了其在AI和汽車領(lǐng)域的領(lǐng)先地位。
而在移動設(shè)備領(lǐng)域,繼2023年1月推出移動光追IMG DXT GPU IP,帶領(lǐng)行業(yè)實現(xiàn)從PC和主機游戲向移動平臺的跨越后,就在今天,Imagination再次推出重磅GPU IP——Imagination DXTP,為智能手機和其他電力受限設(shè)備上圖形和計算工作負(fù)載的高效加速設(shè)定了新的標(biāo)準(zhǔn)。
圖 | IMG DXTP示意圖;來源:Imagination
DXTP,讓AI負(fù)載“高幀率、高能效”全都有
根據(jù)Imagination提供的消息,DXTP提供高達(dá)64 GPixel/s的圖形處理能力,2 TFLOPS的FP32性能和8 TOPS的INT8 AI性能,采用超并行計算引擎,工作頻率為1GHz。
關(guān)于工作頻率,據(jù)悉DXTP 的時鐘頻率可以超過 1GHz,以實現(xiàn)更高的性能,具體取決于所使用的工藝節(jié)點和可用的功耗預(yù)算。
據(jù)悉,Imagination此次提供了兩種現(xiàn)成可售的 DXTP 配置。最小的配置是 DXTP-48-1536,提供 48 GPixel/s、1.5 TFLOPS FP32、3 TFLOPS FP16 和 6 TOPS INT8(均為 1GHz 時的性能),另一種是 DXTP-64-2048,它的性能在各方面提升了 33%。
在能效方面,得益于一系列微架構(gòu)改進(jìn),DXTP在常見圖形工作負(fù)載上,相比其前代產(chǎn)品DXT,功耗效率(FPS/W)提高了最多20%。
那么,此次Imagination到底在微架構(gòu)上做了哪些調(diào)整呢?這些調(diào)整對GPU的性能、能效有產(chǎn)生了哪些影響?
-
DXTP,性能全面升級
Imagination方面表示:“Imagination DXTP 的基本布局與其在移動市場的前款產(chǎn)品 DXT 略有不同。我們做了一些工作,包括通過將計算和紋理處理單元以不同的方式組合在一起,并增加緩存和系統(tǒng)級帶寬的大小,我們將每個 GPU 可處理的幾何圖形量額外增加了 50%,并提高了 GPU 的性能維持能力。”
此外,為了提升AI性能,Imagination不僅在 DXTP 中將本地計算內(nèi)存增加到 32KB,同時還采用了高能效的處理和數(shù)據(jù)管理技術(shù)。其內(nèi)存結(jié)構(gòu)能夠處理針對移動平臺需求特別進(jìn)行優(yōu)化的模型,而不是需要大量計算資源在云端運行的重型模型。
據(jù)悉,DXTP 支持 FP32、FP16、INT8 和 DOT8 操作。與前系D系列GPU類似,DXTP具有雙倍提升 FP16工作負(fù)載性能的能力。INT8 DOT操作的速度是 FP32 操作的四倍。通過使用GPU內(nèi)部的不同處理流水線,我們還可以高效地打包和解包神經(jīng)網(wǎng)絡(luò)中使用的各種數(shù)據(jù)類型,包括 INT4。許多層可能會受到帶寬限制,因此INT4可以幫助改善這一問題,同時解壓縮 INT4 為 INT8 的額外成本較低,能夠有效緩解帶寬瓶頸,提升整體吞吐量。支持靈活的數(shù)據(jù)類型使得GPU相比于具有特定數(shù)據(jù)類型要求的NPU設(shè)計更加具有未來適應(yīng)性和靈活性。
圖 | IMG DXTP采用可擴展處理單元(SPU),并配備兩個計算集群;來源:Imagination
此外,DXTP 考慮到了復(fù)雜網(wǎng)絡(luò)帶寬需求的增加,通過采用可擴展處理單元(SPU),并配備兩個計算集群(ALU 和紋理單元),顯著提升了每個計算單元的帶寬。與 DXT 設(shè)計中三個計算集群不同,DXTP 只需要為兩個計算集群提供帶寬,這意味著每個計算集群的帶寬最多提升 50%。
-
DXTP,能效提升20%
在能效提升方面,此次Imagination還通過調(diào)整 GPU 內(nèi)的子單元,將已經(jīng)非常高效的圖形和計算處理器的能效提高了 20%。
也許有人對能效提升20%這一數(shù)據(jù)來源有一些疑問,這是如何的出來的呢?
圖 | 相比前代產(chǎn)品DXT,DXTP的功耗效率(FPS/W)提高了最多20%;來源:Imagination
對此,Imagination方面表示:“關(guān)于DXTP能效提升的研究,我們比較了 DXT-48-1536 和 DXTP-48-1536 在各種基準(zhǔn)測試和游戲中的能效。如上圖所示,結(jié)果因工作負(fù)載而異,在所分析的工作負(fù)載中,功效提升了 11% 到 22%。功耗效率是基于 ISO 工藝之上的功耗模擬,使用了我們的 RTL 硬件仿真器去捕捉GPU設(shè)計的柵極切換率,并將其輸入到模擬每個晶體管功耗特性的工具,從而進(jìn)行流片前功耗效率分析工作。我們對等效的 DXT 和 DXTP 設(shè)計采用了相同的方法,因此可以通過遵循這一流程,在各種工作負(fù)載中實現(xiàn)可靠的能效改進(jìn)?!?/p>
生態(tài)就緒,DXTP等你來戰(zhàn)
如今,不管是AI手機還是其他AI終端,CPU+GPU+NPU的異構(gòu)計算架構(gòu)已成為市場主流,如前面提到的,GPU是其中重要的加速器之一。
與CPU相比,GPU的并行性為圖形和人工智能工作負(fù)載提供了更好的性能;與許多NPU相比,它提供了更好的可編程性和標(biāo)準(zhǔn)化編程模型,如 OpenCL和Vulkan Compute,而不是復(fù)雜的定制工具流和API。
在多核協(xié)同方面,當(dāng)前通過集成的 RISC-V 固件處理器(可調(diào)度和管理 GPU 內(nèi)的所有工作負(fù)載和事件),我們可以使用 GPIO 接口直接與第三方處理模塊(如NPU)進(jìn)行最小延遲的交互。這樣,當(dāng)各層從NPU轉(zhuǎn)移到GPU時,就能以最少的空閑時間實現(xiàn)峰值性能。
對此,Imagination方面表示:“我們在 UXL 基金會等組織中發(fā)揮了領(lǐng)導(dǎo)作用,該項目現(xiàn)已成為 Linux 基金會的一部分,它正在幫助開發(fā)人員使用oneAPI標(biāo)準(zhǔn),以加速他們在多供應(yīng)商、多處理器環(huán)境中的工作負(fù)載?!?/p>
圖 | IMG DXTP生態(tài)已就緒;來源:Imagination
據(jù)悉,在操作系統(tǒng)適配層面,DXTP 支持標(biāo)準(zhǔn)的 Linux 和 Android操作系統(tǒng),并與領(lǐng)先的游戲引擎提供商和開發(fā)商密切合作,確保消費者在基于Imagination的設(shè)備上運行游戲和其他應(yīng)用程序時獲得最佳體驗。
除了對標(biāo)準(zhǔn)的Linux 和 Android支持外,Imagination 還向直接客戶提供對DDK源代碼的完全訪問權(quán)限,以便與各種定制操作系統(tǒng)(如 RTOS)進(jìn)行移植和集成。
在操作系統(tǒng)層以上,DXTP在SDK及工具支持方面同樣具備優(yōu)勢。其中,PowerVR SDK 幫助開發(fā)者通過一步步的示例代碼入門,了解如何為Imagination GPU編寫代碼,并提供了關(guān)于Imagination GPU工作原理的詳細(xì)文檔以及創(chuàng)建最佳圖形應(yīng)用程序的技巧。該 SDK 配備了一系列行業(yè)領(lǐng)先、功能豐富的工具,能夠為軟件開發(fā)者提供有關(guān)其應(yīng)用程序性能的詳細(xì)見解(PVRTune),并幫助他們識別需要優(yōu)化的領(lǐng)域(PVRCarbon 和 PVRStudio)。
綜上,隨著生態(tài)建設(shè)的不斷完善,IMG DXTP GPU的舞臺已經(jīng)搭建完畢。從AI加速到圖形渲染,從游戲到專業(yè)創(chuàng)作,強大的GPU性能正等待每一位開發(fā)者和創(chuàng)作者的探索。