2024年,大模型技術(shù)的迅猛發(fā)展成為人工智能領(lǐng)域的核心驅(qū)動力,其對硬件算力和存儲效率的極致需求,促使存算一體技術(shù)在全球范圍內(nèi)迎來前所未有的關(guān)注與突破。隨著模型參數(shù)規(guī)模的持續(xù)膨脹和應(yīng)用場景的不斷拓展,存算一體技術(shù)作為解決數(shù)據(jù)傳輸瓶頸、提升計算效率的關(guān)鍵方案,展現(xiàn)出巨大的發(fā)展?jié)摿Α?/p>
在大模型的推動下,存算一體技術(shù)在學(xué)術(shù)界和產(chǎn)業(yè)界均取得了顯著進展。學(xué)術(shù)研究聚焦于如何通過存內(nèi)計算優(yōu)化大模型的訓(xùn)練與推理效率,從底層存儲介質(zhì)的創(chuàng)新到系統(tǒng)架構(gòu)的優(yōu)化,為存算一體技術(shù)的未來發(fā)展提供了豐富的理論支持。與此同時,產(chǎn)業(yè)界則通過技術(shù)創(chuàng)新和商業(yè)化落地,加速了存算一體技術(shù)在端側(cè)、邊緣計算和數(shù)據(jù)中心等領(lǐng)域的廣泛應(yīng)用。從三星與SK海力士推動LPDDR6-PIM技術(shù)的標準化,到后摩智能推出端邊大模型AI芯片,再到d-Matrix首款基于數(shù)字存算的AI芯片出貨,這些事件不僅標志著存算一體技術(shù)的商業(yè)化進程加速,也反映了行業(yè)對大模型時代算力需求的積極回應(yīng)。
隨著技術(shù)的不斷成熟和市場需求的持續(xù)增長,存算一體技術(shù)正逐漸成為推動人工智能、邊緣計算和高性能計算領(lǐng)域發(fā)展的關(guān)鍵力量。2024年,存算一體技術(shù)在大模型背景下的創(chuàng)新與應(yīng)用,不僅為智能設(shè)備和數(shù)據(jù)中心的性能提升提供了新的解決方案,也為未來技術(shù)發(fā)展提供了新方向。
Part1:2024年存算一體行業(yè)要事回顧
一、學(xué)術(shù)界重點研究一覽
1、由ISSCC洞察存內(nèi)計算的學(xué)術(shù)前沿
ISSCC是集成電路行業(yè)年度的頂級會議,作為每年年初的學(xué)術(shù)盛會,可以一瞥現(xiàn)階段學(xué)術(shù)界關(guān)注的技術(shù)熱點和目前實驗室/研究機構(gòu)的技術(shù)水平。這里將列舉幾個存內(nèi)計算相關(guān)的重點工作,希望能從盡可能多的視角觀察存內(nèi)計算技術(shù)的應(yīng)用。
- 11.3 歐洲人工智能的初創(chuàng)公司Axelera AI推出一款基于數(shù)字SRAM存內(nèi)計算(DIMC)的端側(cè)視覺模型推理的SoC。該芯片利用RISC-V CPU、L1 Cache和DIMC單元構(gòu)建基本的AI core,AI core之間利用NOC互聯(lián),并與系統(tǒng)總控、外設(shè)控制互聯(lián)。芯片在12 nm,144 mm2的面積下實現(xiàn)了32 Mb的SRAM-IMC容量,達到了209.6 TOPS的計算吞吐以及5~15 W的典型功耗,在ResNet-50和YoloV5的模型上展現(xiàn)出極高的幀率和極低的功耗。
- 20.1 聯(lián)發(fā)科(MediaTeK)提出了一款Mobile SoC中用于圖像超分辨率的處理器,采用數(shù)字存內(nèi)計算單元作為執(zhí)行卷積的計算單元,芯片采用了一種多個卷積核之間流水處理的架構(gòu),在實現(xiàn)任務(wù)的靈活分割的同時盡可能最大化復(fù)用激活值,提升系統(tǒng)吞吐和能量效率。最終芯片在3 nm下實現(xiàn)了12 TOPS/mm2的算力密度和23.2 TOPS/W的系統(tǒng)能效。
- 30 DSA Section:該Section聚焦在領(lǐng)域?qū)S玫奶幚砥骷軜?gòu),其中不乏使用存內(nèi)計算技術(shù)的工作:
* 30.3 & 30.5 分別利用SRAM和eDRAM兩種片上的存儲器的存內(nèi)計算做算法問題求解,分別針對SAT問題和Ising問題,利用陣列式存儲器本身的陣列特性去模擬NP hard問題的求解;
* 30.6 使用SRAM-CIM作為RSIC-V CPU的向量協(xié)處理器,極大提高了計算的通用性。該工作使用數(shù)字域的SRAM-CIM替代了原本向量協(xié)處理器中的向量寄存器(VRF),直接減少了CPU到VRF之間的數(shù)據(jù)移動,提高系統(tǒng)能效的同時也提升了芯片的算力密度;
- 34 CIM Section:該部分的工作聚焦在具體的存內(nèi)計算電路設(shè)計,存儲器的類型以片上的SRAM和eDRAM為主:
* 34.1 & 34.2 清華大學(xué)和臺灣清華大學(xué)分別從數(shù)據(jù)編碼格式和極致的電路優(yōu)化兩方面入手,致力于更高精度的存內(nèi)計算技術(shù)。清華大學(xué)的研究團隊提出一種POSIT的編碼格式,在傳統(tǒng)的浮點數(shù)據(jù)格式基礎(chǔ)上增加額外一級管理位來適應(yīng)不同的數(shù)據(jù)分布形式,基于該格式實現(xiàn)的存內(nèi)計算宏單元以更低的計算能耗達到了更高的計算精度。臺灣清華大學(xué)的研究人員在16 nm下使用4T的Gain Cell提高存儲密度,其核心創(chuàng)新在于極細粒度的整型和浮點型計算的重構(gòu),在執(zhí)行整型計算時,浮點的指數(shù)加法電路被重構(gòu)為整型加法樹,而浮點對指電路被重構(gòu)為整型計算中的稀疏檢測電路,極大地提高了重構(gòu)效率;
* 34.3 & 34.6 東南大學(xué)和后摩智能團隊以及中科院微電子研究所的團隊均采用了數(shù)字模擬混合的方式試圖在計算精度和計算能效之間做出權(quán)衡。東南大學(xué)和后摩智能的團隊采用了一種“閃電型”比特擴展的存內(nèi)計算方式,相較于之前的數(shù)?;旌系姆指罘桨父玫貦?quán)衡了計算精度和計算能效,使用的模擬多周期累加的方案也更適合累加長度更大的網(wǎng)絡(luò)部署。微電子所團隊的工作使用模擬存內(nèi)計算+數(shù)字存外計算保障計算精度的同時提升計算能效,其采用外積計算數(shù)據(jù)很好地重構(gòu)了整型/浮點的數(shù)據(jù)類型;
2、存內(nèi)計算相關(guān)研究在計算機體系結(jié)構(gòu)領(lǐng)域頂會上持續(xù)火熱
- 四月,ASPLOS在美國圣地亞哥召開,來自中科院計算所的工作:CIM-MLC: A Multi-level Compilation Stack for Computing-In-Memory Accelerators提出了面向存算多種類存算一體芯片的多層次開源編譯框架,作為連接多種類的存算硬件與多種類的算法算子之間的中間層。存內(nèi)計算作為一種新的硬件架構(gòu)范式,對其軟件編譯的討論十分重要。
- 同樣是ASPLOS上,來自北京大學(xué)和KAIST的研究人員都基于目前已有商用的DRAM-PIM和傳統(tǒng)NPU/GPU的協(xié)同工作系統(tǒng),分別對大語言模型加速的兩種技術(shù):Speculative Inference和Batched Inference做架構(gòu)設(shè)計探索,形成兩套軟硬件協(xié)同設(shè)計:SpecPIM和NPU-PIM。其中,SpecPIM敏銳地捕捉到了Speculative Inference中大模型和小模型同時推理時算法需求的異質(zhì)性與GPU+DRAM-PIM的硬件能力異質(zhì)性相吻合,亟需一套架構(gòu)-數(shù)據(jù)流的協(xié)同探索以發(fā)現(xiàn)推理時最優(yōu)的軟件-硬件配置。而在NPU-PIM中,研究人員發(fā)現(xiàn)在服務(wù)器端Batch size很大的推理場景時,ffn算子為計算密集型算子,而Attention算子由于每個Batch對應(yīng)的KV Cache不同,為存儲密集型算子。與SpecPIM一樣,這種算法需求上的異質(zhì)性在NPU+DRAM-PIM的系統(tǒng)中同樣存在強的協(xié)同設(shè)計需求,啟發(fā)了研究人員的軟硬件協(xié)同設(shè)計方法,包含軟件上的數(shù)據(jù)流調(diào)度和PIM計算單元的電路優(yōu)化。
- 六月底,ISCA在阿根廷布宜諾斯艾利斯召開,清華大學(xué)和上海交通大學(xué)都捕捉到了目前已有的DRAM-PIM芯片中計算Bank間調(diào)度受限的問題,利用軟硬件協(xié)同設(shè)計和內(nèi)存空間管理形成兩套解決辦法:NDPBridge和UM-PIM。其中,NDPBridge在硬件上設(shè)計了一套Bank和Bank之間以及Rank和Rank之間數(shù)據(jù)包收集和派發(fā)的橋接路由單元,軟件上提出一套數(shù)據(jù)傳輸感知的調(diào)度策略,最小化交互的延遲開銷。UM-PIM提出了一種具有統(tǒng)一和共享內(nèi)存空間的DRAM-PIM系統(tǒng),允許CPU和PIM所需要的兩種不同數(shù)據(jù)排布的頁面共存于同一個內(nèi)存空間中,最小化因PIM本身特性導(dǎo)致的冗余的數(shù)據(jù)重排拷貝。UM-PIM在硬件層面通過在PIM的DIMM一側(cè)設(shè)計硬件接口,實現(xiàn)物理到硬件地址的動態(tài)映射,加速數(shù)據(jù)重新布局過程的同時降低了CPU與PIM之間的通信開銷,有效提升系統(tǒng)性能。
- 十一月初,MICRO在美國德克薩斯召開,中科院計算所發(fā)表一篇基于芯?;ヂ?lián)的Flash內(nèi)計算的邊緣端大模型推理芯片,該設(shè)計在3D-Nand Flash原本的數(shù)據(jù)讀出Cache die上集成計算單元和Ecc糾錯,用于大模型推理中的ffn算子的矩陣乘,再通過2.5D封裝工藝集成Flash和處理attention算子的NPU,在系統(tǒng)外部外掛DRAM存儲推理過程產(chǎn)生的動態(tài)KV Cache。該設(shè)計利用先進的封裝工藝和近Flash的存內(nèi)計算將大容量NvM提升到更高的層級,顛覆了傳統(tǒng)的體系結(jié)構(gòu)中的存儲層級,為邊緣端大模型的推理提供更大的存儲容量和更高效的數(shù)據(jù)調(diào)度方案。
3、存內(nèi)計算相關(guān)算法研究亮相深度學(xué)習(xí)頂會ICLR
- RPTQ(Reorder-based Post-training Quantization)是后摩智能團隊與華中科技大學(xué)等合作單位提出的一種全新的量化方法,旨在解決量化Transformer時激活通道之間的數(shù)值范圍差異問題。相較于以往的研究,RPTQ首次將3位激活引入了LLMs,實現(xiàn)了顯著的內(nèi)存節(jié)省,例如在量化OPT-175B模型方面,內(nèi)存消耗降低了高達80%。RPTQ的關(guān)鍵思想是通過重新排列激活通道并按簇量化,從而減少通道范圍差異的影響。同時,通過操作融合,避免了顯式重新排序的操作,使得RPTQ的開銷幾乎為零。通過這種方法,RPTQ有效地解決了激活通道數(shù)值范圍差異導(dǎo)致的量化誤差問題。
- 五月,ICLR在奧地利維也納召開,后摩智能團隊與伊利諾伊理工和伯克利大學(xué)等單位合作提出的另一種創(chuàng)新性量化方法PB-LLM,相較于傳統(tǒng)的二值化方法,PB-LLM采用了部分二值化的策略,即將一部分顯著權(quán)重分配到高位存儲,從而在實現(xiàn)極端低位量化的同時,保持了Transformer的語言推理能力。通過對顯著權(quán)重的充分利用,PB-LLM取得了顯著的性能提升,為Transformer的內(nèi)存消耗和計算復(fù)雜度提供了有效的解決方案。這是學(xué)術(shù)界首次探索對Transformer權(quán)重數(shù)值二值化的工作,助力大語言模型在存內(nèi)計算中的應(yīng)用。
二、產(chǎn)業(yè)界重點事件盤點
1、三星與SK海力士推動LPDDR6-PIM技術(shù)的標準化與應(yīng)用
2024年,三星電子與SK海力士攜手合作,致力于標準化“低功耗雙倍數(shù)據(jù)速率6(LPDDR6)-內(nèi)存處理(PIM)”產(chǎn)品。這一合作標志著存算一體技術(shù)在移動端應(yīng)用的又一重要里程碑。三星積極響應(yīng)蘋果的需求,著力研究新的低功耗雙倍數(shù)據(jù)速率LPDDR DRAM封裝方式,并計劃在iPhone DRAM中應(yīng)用LPDDR6-PIM技術(shù)。
這一舉措不僅旨在提升端側(cè)AI性能,還在數(shù)據(jù)處理速度和能效方面帶來顯著突破,有望改變消費電子設(shè)備存儲芯片的應(yīng)用格局。通過標準化進程,LPDDR6-PIM技術(shù)能夠更高效地應(yīng)用于各類數(shù)據(jù)密集型任務(wù)場景,例如在金融領(lǐng)域的信貸風(fēng)險評估中,可大幅縮短評估時間;在電商的商品推薦系統(tǒng)中,能顯著提升推薦準確率。這一合作有力地促進了存算一體技術(shù)在行業(yè)應(yīng)用中的規(guī)范化和規(guī)?;l(fā)展,為未來智能設(shè)備的性能提升奠定了堅實基礎(chǔ)。
2、后摩智能推出端邊大模型AI芯片后摩漫界M30
2024年,國內(nèi)AI芯片企業(yè)后摩智能成功推出基于存算一體架構(gòu)的邊端大模型AI芯片——后摩漫界M30,以及配套的計算模組、計算盒子、AI加速卡等系列硬件產(chǎn)品,實現(xiàn)了存算一體技術(shù)在端邊大模型領(lǐng)域的應(yīng)用突破。后摩漫界將存儲與計算集成在同一芯片上,有效解決了傳統(tǒng)架構(gòu)中數(shù)據(jù)傳輸延遲的問題,極大地提高了計算效率和吞吐量。后摩漫界M30提供100至256TOPS算力,功耗為12至35W,支持ChatGLM、Llama2、通義千問等多種大模型。在AI PC、智能座艙、NAS等設(shè)備中, M30展現(xiàn)出卓越的大模型運行能力,為端邊大模型的商業(yè)化落地提供了堅實可靠的算力支撐。這一成果不僅推動了存算一體技術(shù)在邊緣計算領(lǐng)域的廣泛應(yīng)用,也為智能設(shè)備的高效運行提供了新的解決方案,進一步拓展了存算一體技術(shù)在消費電子和工業(yè)自動化等領(lǐng)域的應(yīng)用前景。后摩智能已與聯(lián)想集團達成戰(zhàn)略合作,結(jié)合后摩智能在存算一體AI芯片領(lǐng)域的創(chuàng)新優(yōu)勢和聯(lián)想在PC領(lǐng)域的深厚積累,共同推動AI算力向邊緣側(cè)和端側(cè)下沉。
3、d-Matrix首款A(yù)I芯片出貨,數(shù)字存算一體技術(shù)助力性能飛躍
2024年11月,微軟支持的硅谷初創(chuàng)公司d-Matrix宣布其首款A(yù)I芯片Corsair正式出貨,標志著存算一體技術(shù)在高性能計算領(lǐng)域的商業(yè)化取得重大突破。Corsair芯片在單臺服務(wù)器中為Llama3 8B模型提供每秒處理60,000個tokens的性能,每個token延遲僅為1毫秒,交互速度提升10倍,能效提高3倍。其關(guān)鍵亮點包括150TB/s的超高內(nèi)存帶寬、2400 TFLOP的8位峰值計算能力和2GB集成性能內(nèi)存,以及高達256GB的片外容量內(nèi)存。
d-Matrix通過DIMC技術(shù),將計算單元直接集成到存儲器中,減少了數(shù)據(jù)移動,顯著降低了延遲和能耗。這種架構(gòu)特別適合AI推理任務(wù),能夠有效消除數(shù)據(jù)移動帶來的能耗和延遲。Corsair的推出不僅展示了存算一體技術(shù)在高性能計算領(lǐng)域的巨大潛力,還為AI芯片市場注入了新的活力,為存算一體技術(shù)的廣泛應(yīng)用提供了有力證明。
4、Graphcore被日本軟銀集團收購
2024年7月15日,英國的Graphcore公司被日本軟銀集團收購。盡管交易細節(jié)尚未公開,但此次收購使Graphcore得以繼續(xù)運營并保留其管理團隊。此前,Graphcore推出的智能處理單元(IPU)芯片曾被視為英偉達的有力競爭者。此次收購事件不僅為Graphcore帶來了新的發(fā)展機遇,也給存算一體芯片市場的競爭態(tài)勢和產(chǎn)業(yè)布局帶來了新的變數(shù)。軟銀集團的介入可能會引發(fā)行業(yè)內(nèi)的資源整合與技術(shù)融合,進一步推動存算一體技術(shù)在全球范圍內(nèi)的發(fā)展和應(yīng)用。
Part2:2025年存算一體技術(shù)與應(yīng)用趨勢展望
1、多樣化的存內(nèi)計算技術(shù)涌現(xiàn)
隨著大模型技術(shù)的快速發(fā)展,存內(nèi)計算技術(shù)將呈現(xiàn)多樣化和多層次化的發(fā)展趨勢?;诓煌鎯橘|(zhì)的存內(nèi)計算方案,如Flash、SRAM、DRAM和RRAM(憶阻器)等,將并行發(fā)展以滿足多樣化的應(yīng)用場景需求。Flash 存內(nèi)計算以其低功耗和小算力的特點,適用于智能穿戴設(shè)備等端側(cè)場景;SRAM作為當前最成熟的存儲介質(zhì),SRAM的制作工藝、研發(fā)工具和CMOS集成的電路模型都更加成熟穩(wěn)定,同時SRAM具有更快的操作速度和耐久性,可以實時在存算單元中刷新計算數(shù)據(jù),為大算力提供重要的保障;DRAM能夠在相同芯片面積上實現(xiàn)比 SRAM 更高的存儲密度,這使得能夠提供大容量的內(nèi)存,更適合數(shù)據(jù)中心和AI訓(xùn)練等高性能需求場景。新型存儲工藝包括RRAM、MRAM等,相比于傳統(tǒng)的非易失存儲(如Flash), 新型存儲的讀寫性能更好、具備更好的工藝可擴展性。從端側(cè)到邊緣側(cè)(如自動駕駛)再到云端(如大模型訓(xùn)練),存內(nèi)計算技術(shù)將根據(jù)不同場景提供從低功耗到高性能的多樣化解決方案。同時,存內(nèi)計算還將與感存算一體、近存計算等技術(shù)深度融合,形成多層次的技術(shù)生態(tài),滿足從數(shù)據(jù)采集到處理的全鏈條需求。
2、DRAM存內(nèi)計算硬件商業(yè)化加速
2025年,基于DRAM的存內(nèi)計算硬件將迎來商業(yè)化加速。三星、SK海力士等半導(dǎo)體巨頭已推出HBM-PIM(高帶寬內(nèi)存存內(nèi)計算)產(chǎn)品,通過在DRAM芯片中嵌入計算單元,顯著提升了AI訓(xùn)練和推理的效率。例如,三星的HBM-PIM在AI氣候模擬項目中實現(xiàn)了性能提升2.5倍、能耗降低60%的優(yōu)異表現(xiàn)。DRAM存內(nèi)計算通過減少數(shù)據(jù)搬運,大幅降低了硬件成本和功耗。以數(shù)據(jù)中心為例,采用該技術(shù)后,硬件成本可降低50%,運營成本減少20%-30%。隨著JEDEC等標準組織的推動,DRAM存內(nèi)計算的接口和架構(gòu)將逐步統(tǒng)一,這將有力促進產(chǎn)業(yè)鏈上下游的協(xié)同發(fā)展,加速存內(nèi)計算技術(shù)在數(shù)據(jù)中心等領(lǐng)域的廣泛應(yīng)用。
3、先進封裝技術(shù)助力存內(nèi)計算架構(gòu)升級
2025年,2.5D、3D和3.5D等先進封裝技術(shù)將繼續(xù)推動存內(nèi)計算架構(gòu)的升級。通過將計算芯片和存儲芯片緊密堆疊,這些技術(shù)能夠有效縮短數(shù)據(jù)傳輸路徑,大幅提升訪存帶寬。AMD和Intel采用2.5D封裝的HBM技術(shù)已在高性能計算領(lǐng)域取得顯著成效,驗證了先進集成技術(shù)在存內(nèi)計算中的巨大潛力。3D封裝技術(shù)通過將計算單元和存儲單元垂直堆疊,實現(xiàn)了更極致的存算融合,不僅提升了芯片的集成度,還顯著降低了功耗和延遲,特別適用于AI推理和邊緣計算場景。作為3D封裝的升級版,3.5D技術(shù)引入了更復(fù)雜的互連結(jié)構(gòu)和散熱方案,進一步提升了芯片的性能和可靠性。例如,臺積電的3.5D封裝技術(shù)已在AI芯片中實現(xiàn)商用,為存內(nèi)計算新架構(gòu)的發(fā)展提供了有力支持。