• 正文
    • ?01芯片發(fā)展面前的三堵墻
    • ?02存算一體,帶來(lái)了哪些驚喜?
    • ?03存算一體技術(shù)的分類(lèi)
    • ?04存儲(chǔ)介質(zhì)的三種主要選擇
    • ?05存算一體芯片的適用場(chǎng)景有哪些?
    • ?06國(guó)內(nèi)存算一體技術(shù)進(jìn)程
  • 推薦器件
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

存算一體芯片,帶來(lái)了哪些驚喜?

2024/08/22
2897
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

作者:豐寧

近年來(lái),隨著AI應(yīng)用場(chǎng)景的爆發(fā)式增長(zhǎng),AI算法對(duì)算力的需求急劇上升,這一增速已顯著超越了摩爾定律所預(yù)測(cè)的硬件性能提升速度。傳統(tǒng)的計(jì)算芯片,在計(jì)算資源、處理時(shí)延以及功耗控制方面,逐漸顯現(xiàn)出難以滿(mǎn)足AI高并行計(jì)算需求的局限性。

在智能芯片領(lǐng)域,傳統(tǒng)的馮·諾依曼架構(gòu)以計(jì)算為核心,處理器存儲(chǔ)器之間的物理分離導(dǎo)致了大規(guī)模數(shù)據(jù)頻繁遷移,這進(jìn)一步限制了AI芯片的整體性能。因此,傳統(tǒng)芯片架構(gòu)面臨著“存儲(chǔ)墻”、“功耗墻”及“算力墻”等嚴(yán)峻挑戰(zhàn),難以滿(mǎn)足AI應(yīng)用對(duì)于低時(shí)延、高能效以及高可擴(kuò)展性的迫切需求。

針對(duì)上述一系列問(wèn)題,業(yè)內(nèi)給出了一種名為“存算一體”的解決方案。那么到底什么是“存儲(chǔ)墻”、“功耗墻”和“編譯墻”?存算一體芯片是什么?它又是如何解決這些問(wèn)題的?存算一體技術(shù)的出現(xiàn)給產(chǎn)業(yè)界帶來(lái)了哪些驚喜?

?01芯片發(fā)展面前的三堵墻

首先一起了解一下什么是“存儲(chǔ)墻”。

存儲(chǔ)墻

指的是內(nèi)存性能?chē)?yán)重限制CPU性能發(fā)揮的現(xiàn)象。在過(guò)去的20多年中,處理器的性能以每年大約55%速度快速提升,而內(nèi)存性能的提升速度則只有每年10%左右。長(zhǎng)期累積下來(lái),不均衡的發(fā)展速度造成了當(dāng)前內(nèi)存的存取速度嚴(yán)重滯后于處理器的計(jì)算速度,內(nèi)存瓶頸導(dǎo)致高性能處理器難以發(fā)揮出應(yīng)有的功效,這對(duì)日益增長(zhǎng)的高性能計(jì)算形成了極大的制約。這種嚴(yán)重阻礙處理器性能發(fā)揮的內(nèi)存瓶頸命名為"內(nèi)存墻",也叫“存儲(chǔ)墻”。

伴隨著“存儲(chǔ)墻”問(wèn)題同時(shí)出現(xiàn)的,是大量能耗消耗在了數(shù)據(jù)傳輸過(guò)程中,導(dǎo)致芯片的能效比顯著降低,即“功耗墻”問(wèn)題。

“功耗墻”的問(wèn)題主要是因?yàn)殡S著計(jì)算系統(tǒng)對(duì)內(nèi)存帶寬需求的不斷增加,以及對(duì)更高容量和更快訪(fǎng)問(wèn)速度的追求,傳統(tǒng)DRAM和其他類(lèi)型內(nèi)存的功耗急劇上升,最終會(huì)達(dá)到一個(gè)無(wú)法通過(guò)簡(jiǎn)單增加功率預(yù)算來(lái)解決的臨界點(diǎn)。

這一方面是因?yàn)閿?shù)據(jù)從DRAM搬運(yùn)到CPU需要跨過(guò)多個(gè)層級(jí)的存儲(chǔ)層次,包括L1、L2、L3緩存。有研究表明:在特定情況下,將1比特?cái)?shù)據(jù)從DRAM搬運(yùn)到CPU所消耗的能量比在CPU上處理這個(gè)比特所需的能量還要高幾倍到幾十倍。根據(jù)英特爾的研究表明,當(dāng)半導(dǎo)體工藝達(dá)到 7nm 時(shí),數(shù)據(jù)搬運(yùn)功耗高達(dá) 35pJ/bit,占總功耗的63.7%。數(shù)據(jù)傳輸造成的功耗損失越來(lái)越嚴(yán)重,限制了芯片發(fā)展的速度和效率。

“編譯墻問(wèn)題隱于二者之中,極短時(shí)間下的大量數(shù)據(jù)搬運(yùn)使得編譯器無(wú)法在靜態(tài)可預(yù)測(cè)的情況下對(duì)算子、函數(shù)、程序或者網(wǎng)絡(luò)做整體的優(yōu)化,手動(dòng)優(yōu)化又消耗了大量時(shí)間。過(guò)去,憑借先進(jìn)制程不斷突破,這三座“大山”的弊病還能通過(guò)快速提升的算力來(lái)彌補(bǔ)。但一個(gè)殘酷的現(xiàn)實(shí)是,過(guò)去數(shù)十年間,通過(guò)工藝制程的提升改善芯片算力問(wèn)題的“老辦法”正在逐步失效——摩爾定律正在走向物理極限,HBM、3D DRAM、更好的互聯(lián)等傳統(tǒng)“解法”也“治標(biāo)不治本”,晶體管微縮越來(lái)越難,提升算力性能兼具降低功耗這條路越走越艱辛。隨著大模型時(shí)代來(lái)臨,激增的數(shù)據(jù)計(jì)算,無(wú)疑進(jìn)一步放大了“三道墻”的影響。而存算一體技術(shù)的出現(xiàn),是對(duì)上述難題的有力回應(yīng)。

?02存算一體,帶來(lái)了哪些驚喜?

從存算一體技術(shù)的原理來(lái)看,存算一體的核心是將存儲(chǔ)功能與計(jì)算功能融合在同一個(gè)芯片上,直接利用存儲(chǔ)單元進(jìn)行數(shù)據(jù)處理——通過(guò)修改“讀”電路的存內(nèi)計(jì)算架構(gòu),可以在“讀”電路中獲取運(yùn)算結(jié)果,并將結(jié)果直接“寫(xiě)”回存儲(chǔ)器的目的地址,不再需要在計(jì)算單元和存儲(chǔ)單元之間進(jìn)行頻繁的數(shù)據(jù)轉(zhuǎn)移,消除了數(shù)據(jù)搬移帶來(lái)的消耗,極大降低了功耗,大幅提升計(jì)算效率。

正因此,存算一體技術(shù)可以有效地克服馮·諾依曼架構(gòu)瓶頸。那么存算一體技術(shù)憑借其技術(shù)優(yōu)勢(shì),在實(shí)際應(yīng)用中都可以帶來(lái)哪些效能提升?存算一體芯片在特定領(lǐng)域可以提供更大算力(1000TOPS以上)和更高能效(超過(guò)10-100TOPS/W),明顯超越現(xiàn)有ASIC算力芯片

存算一體技術(shù)還可以通過(guò)使用存儲(chǔ)單元參與邏輯計(jì)算提升算力,這等效于在面積不變的情況下規(guī)?;黾佑?jì)算核心數(shù)。在能耗控制方面,存算一體技術(shù)可以通過(guò)減少不必要的數(shù)據(jù)搬運(yùn)將能耗降低至之前的1/10~1/100。提升了計(jì)算效率、降低了功耗,存算一體自然也能帶來(lái)更好的成本回報(bào)。

?03存算一體技術(shù)的分類(lèi)

根據(jù)存儲(chǔ)與計(jì)算的距離遠(yuǎn)近,將廣義存算一體的技術(shù)方案分為三大類(lèi),分別是近存計(jì)算(Processing Near Memory, PNM)、存內(nèi)處理 (Processing In Memory, PIM)和存內(nèi)計(jì)算(Computing in Memory, CIM)。

近存計(jì)算是一種較為成熟的技術(shù)路徑。它利用先進(jìn)的封裝技術(shù),將計(jì)算邏輯芯片和存儲(chǔ)器封裝到一起,通過(guò)減少內(nèi)存和處理單元之間的路徑,實(shí)現(xiàn)高I/O密度,進(jìn)而實(shí)現(xiàn)高內(nèi)存帶寬以及較低的訪(fǎng)問(wèn)開(kāi)銷(xiāo)。近存計(jì)算主要通過(guò)2.5D、3D堆疊等技術(shù)來(lái)實(shí)現(xiàn),廣泛應(yīng)用于各類(lèi)CPU和GPU上。

存內(nèi)處理則主要側(cè)重于將計(jì)算過(guò)程盡可能地嵌入到存儲(chǔ)器內(nèi)部。這種實(shí)現(xiàn)方式旨在減少處理器訪(fǎng)問(wèn)存儲(chǔ)器的頻率,因?yàn)榇蟛糠钟?jì)算已經(jīng)在存儲(chǔ)器內(nèi)部完成。這種設(shè)計(jì)有助于消除馮·諾依曼瓶頸帶來(lái)的問(wèn)題,提高數(shù)據(jù)處理速度和效率。存內(nèi)計(jì)算同樣是將計(jì)算和存儲(chǔ)合二為一的技術(shù)。

它有兩種主要思路。第一種思路是通過(guò)電路革新,讓存儲(chǔ)器本身就具有計(jì)算能力。這通常需要對(duì)SRAM或者M(jìn)RAM等存儲(chǔ)器進(jìn)行改動(dòng),以在數(shù)據(jù)讀出的解碼器等地方實(shí)現(xiàn)計(jì)算功能。這種方法的能效比通常較高,但計(jì)算精度可能受限。其中,近存計(jì)算和存內(nèi)計(jì)算是目前存算一體技術(shù)實(shí)現(xiàn)的主流路徑。

大廠(chǎng)們對(duì)存算一體架構(gòu)的需求是實(shí)用且落地快,而作為最接近工程落地的技術(shù),近存計(jì)算成為大廠(chǎng)們的首選。近存計(jì)算的典型代表是AMD的Zen系列CPU。國(guó)內(nèi)初創(chuàng)企業(yè)則聚焦于無(wú)需考慮先進(jìn)制程技術(shù)的存內(nèi)計(jì)算,典型代表有Mythic、千芯科技、閃億、知存、九天睿芯等。

?04存儲(chǔ)介質(zhì)的三種主要選擇

存算一體芯片的存儲(chǔ)介質(zhì)主要可分為兩大類(lèi):一種是易失性存儲(chǔ)器,即在正常關(guān)閉系統(tǒng)或者突然性、意外性關(guān)閉系統(tǒng)的時(shí)候,數(shù)據(jù)會(huì)丟失,如SRAM和DRAM等。另一種是非易失性存儲(chǔ)器,在上述情況下數(shù)據(jù)不會(huì)丟失,如傳統(tǒng)的閃存NOR Flash 和 NAND Flash,以及新型存儲(chǔ)器:阻變存儲(chǔ)器RRAM(ReRAM)、磁性存儲(chǔ)器MRAM、鐵變存儲(chǔ)器FRAM(FeRAM)、相變存儲(chǔ)器PCRAM(PCM)等。

那么,該如何選擇合適的技術(shù)路徑,這些技術(shù)路徑又有何特點(diǎn)、壁壘和優(yōu)勢(shì)呢?

從器件工藝成熟度來(lái)看,SRAM、DRAM和Flash都是成熟的存儲(chǔ)技術(shù)。Flash屬于非易失性存儲(chǔ)器件,具有低成本優(yōu)勢(shì),一般適合小算力場(chǎng)景;DRAM成本低,容量大,但是可用的eDRAM IP核工藝節(jié)點(diǎn)不先進(jìn),讀取延遲也大,且需要定期刷新數(shù)據(jù);SRAM在速度方面具有極大優(yōu)勢(shì),有幾乎最高的能效比,容量密度略小,在精度增強(qiáng)后可以保證較高精度,一般適用于云計(jì)算等大算力場(chǎng)景。

在制程工藝方面,SRAM可以在先進(jìn)工藝上如5nm上制造,DRAM和Flash可在10-20nm工藝上制造。

電路設(shè)計(jì)難度上,存內(nèi)計(jì)算DRAM > 存內(nèi)計(jì)算SRAM > 存內(nèi)計(jì)算Flash。在存內(nèi)計(jì)算方面,SRAM和DRAM更難設(shè)計(jì),它們是易失性存儲(chǔ)器,工藝偏差會(huì)大幅度增加模擬計(jì)算的設(shè)計(jì)難度,F(xiàn)lash是非易失存儲(chǔ)器,他的狀態(tài)是連續(xù)可編程的,可以通過(guò)編程等方式來(lái)校準(zhǔn)工藝偏差,從而提高精度。而近存計(jì)算的設(shè)計(jì)相對(duì)簡(jiǎn)單,可采用成熟的存儲(chǔ)器技術(shù)和邏輯電路設(shè)計(jì)技術(shù)。

除成熟的存儲(chǔ)技術(shù)外,學(xué)術(shù)界也比較關(guān)注各種RRAM在神經(jīng)網(wǎng)絡(luò)計(jì)算中的引入。RRAM使用電阻調(diào)制來(lái)實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),讀出電流信號(hào)而非傳統(tǒng)的電荷信號(hào),可以獲得較好的線(xiàn)性電阻特性。但目前RRAM工藝良率爬坡還在進(jìn)行中,而且依然需要面對(duì)非易失存儲(chǔ)器固有的可靠性問(wèn)題,因此目前還主要用于端側(cè)小算力和邊緣AI計(jì)算。

?05存算一體芯片的適用場(chǎng)景有哪些?

小算力場(chǎng)景:邊緣側(cè)對(duì)成本、功耗、時(shí)延、開(kāi)發(fā)難度非常敏感

中早期的存算一體芯片算力較小,從小算力1TOPS開(kāi)始往上走,解決的是音頻類(lèi)、健康類(lèi)及低功耗視覺(jué)終端側(cè)應(yīng)用場(chǎng)景,AI落地的芯片性能及功耗問(wèn)題。比如:AIoT的應(yīng)用。眾所周知,碎片化的AIoT市場(chǎng)對(duì)先進(jìn)工藝芯片的需求并不強(qiáng)烈,反而更青睞低成本、低功耗、易開(kāi)發(fā)的芯片。存算一體正是符合這一系列要求的芯片。

首先,存算一體技術(shù)能夠減少數(shù)據(jù)在存儲(chǔ)單元和計(jì)算單元之間的移動(dòng),從而顯著降低能耗。例如,傳統(tǒng)架構(gòu)中,大量的數(shù)據(jù)傳輸會(huì)消耗大量能量,而存算一體架構(gòu)可以避免這種不必要的能耗,使得像電池供電的物聯(lián)網(wǎng)設(shè)備能夠更長(zhǎng)時(shí)間地運(yùn)行。

其次,通過(guò)減少數(shù)據(jù)傳輸和提高集成度,存算一體技術(shù)可以降低芯片的制造成本。對(duì)于大規(guī)模部署的 AIoT 設(shè)備來(lái)說(shuō),成本的降低有助于更廣泛的應(yīng)用推廣。

最后,存算一體芯片還可以大幅提高運(yùn)算速度并節(jié)省空間,而這兩項(xiàng)也是給AIoT應(yīng)用帶來(lái)助力的兩大因素。

大算力場(chǎng)景:GPU在算力和能效上都無(wú)法同時(shí)與專(zhuān)用加速芯片競(jìng)爭(zhēng)

目前云計(jì)算算力市場(chǎng),GPU的單一架構(gòu)已經(jīng)不能適應(yīng)不同AI計(jì)算場(chǎng)景的算法離散化特點(diǎn),如在圖像、推薦、NLP領(lǐng)域有各自的主流算法架構(gòu)。隨著存算一體芯片算力不斷提升,使用范圍逐漸擴(kuò)展到大算力應(yīng)用領(lǐng)域。針對(duì)大算力場(chǎng)景>100TOPS,在無(wú)人車(chē)、泛機(jī)器人、智能駕駛,云計(jì)算領(lǐng)域提供高性能大算力和高性?xún)r(jià)比的產(chǎn)品。此外,存算一體芯片還有一些其他延伸應(yīng)用,比如感存算一體、類(lèi)腦計(jì)算等。

?06國(guó)內(nèi)存算一體技術(shù)進(jìn)程

著眼于該技術(shù)的廣闊發(fā)展前景,國(guó)際傳統(tǒng)存儲(chǔ)大廠(chǎng)紛紛踴躍入局。

國(guó)際方面,三星電子在多個(gè)技術(shù)路線(xiàn)進(jìn)行嘗試,發(fā)布新型 HBM-PIM(存內(nèi)計(jì)算)芯片、全球首個(gè)基于 MRAM(磁性隨機(jī)存儲(chǔ)器)的存內(nèi)計(jì)算研究等。臺(tái)積電在 ISSCC 2021 上提出基于數(shù)字改良的 SRAM 設(shè)計(jì)存內(nèi)計(jì)算方案。英特爾也早早提出近內(nèi)存計(jì)算戰(zhàn)略,將數(shù)據(jù)在存儲(chǔ)層級(jí)向上移動(dòng),使其更接近處理單元進(jìn)行計(jì)算。國(guó)內(nèi)方面,存算一體芯片企業(yè)也“扎堆”入場(chǎng),并在2021年后逐步實(shí)現(xiàn)量產(chǎn)和產(chǎn)業(yè)化。

較早成立的公司傾向于采用較為成熟的技術(shù),比如:閃易、新憶科技、蘋(píng)芯科技、知存科技等公司專(zhuān)注于物聯(lián)網(wǎng)、可穿戴設(shè)備、智能家居等邊緣小算力場(chǎng)景。隨著相關(guān)技術(shù)和應(yīng)用的不斷成熟,近年來(lái)成立的初創(chuàng)企業(yè)勇于嘗試,在大算力布局和新技術(shù)應(yīng)用方面布局。比如:億鑄科技、千芯科技等專(zhuān)注于大模型計(jì)算、自動(dòng)駕駛等AI大算力場(chǎng)景。

在小算力領(lǐng)域,知存科技成功量產(chǎn)了全球首顆基于模擬Flash存算一體的芯片WTM2101。該芯片以極低功耗完成大規(guī)模深度學(xué)習(xí)運(yùn)算,廣泛應(yīng)用于可穿戴設(shè)備中的智能語(yǔ)音和智能健康服務(wù)等場(chǎng)景。在這顆芯片進(jìn)入市場(chǎng)不到一年的時(shí)間里,其出貨量就已經(jīng)接近百萬(wàn)顆。

近日,蘋(píng)芯科技發(fā)布基于存算一體的28nm及22nm節(jié)點(diǎn)的PIMCHIP-N300存算一體NPU和PIMCHIP-S300多模態(tài)智能感知芯片,支持智能可穿戴設(shè)備、智能安防、AI大模型、健康數(shù)據(jù)分析等領(lǐng)域,尤其支持AI與大模型推理加速等各類(lèi)計(jì)算任務(wù)場(chǎng)景。

在大算力方面,后摩智能發(fā)布了首款存算一體智駕芯片后摩鴻途H30,其物理算力達(dá)到了256TOPS,成為國(guó)內(nèi)首家成功落地存算一體大算力AI芯片的公司。H30已開(kāi)始送測(cè)給Alpha客戶(hù),而第二代H50正在研發(fā)中,計(jì)劃于2024年推出,為支持2025年的量產(chǎn)車(chē)型做好準(zhǔn)備。

去年億鑄科技也點(diǎn)亮了基于ReRAM的高精度、低功耗存算一體AI大算力PoC芯片。此外,億鑄科技基于存算一體超異構(gòu)概念的下一代芯片設(shè)計(jì)工作也已經(jīng)開(kāi)始推進(jìn)。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,存內(nèi)計(jì)算將在未來(lái)發(fā)揮更加重要的作用,推動(dòng)算力新時(shí)代的發(fā)展。然而,存內(nèi)計(jì)算技術(shù)仍面臨一些挑戰(zhàn)和問(wèn)題。例如,存算一體器件的研發(fā)需要突破關(guān)鍵技術(shù)難題,提高性能和可靠性;同時(shí),存內(nèi)計(jì)算系統(tǒng)的設(shè)計(jì)和優(yōu)化也需要充分考慮實(shí)際應(yīng)用需求,提高系統(tǒng)的可擴(kuò)展性和靈活性等。

存算一體芯片大規(guī)模落地的時(shí)刻尚未明確,但這一天的到來(lái)值得我們期待。技術(shù)的演進(jìn)從不停止,市場(chǎng)的需求也在不斷變化,當(dāng)各種條件成熟之際,或許就是存算一體芯片大放異彩之時(shí)。

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠(chǎng)商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
CP2102-GMR 1 Silicon Laboratories Inc USB Bus Controller, CMOS, 5 X 5 MM, LEAD FREE, QFN-28

ECAD模型

下載ECAD模型
$5.73 查看
ATMEGA64A-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 16MHz, CMOS, PQFP64, 14 X 14 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026AEB, TQFP-64

ECAD模型

下載ECAD模型
$4.99 查看
ATXMEGA128D4-MH 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQCC44, 7 X 7 MM, 1 MM HEIGHT, 0.50 MM PITCH, GREEN, PLASTIC, MO-220VKKD-3, VQFN-44
$5.3 查看

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶(hù)資源
  • 寫(xiě)文章/發(fā)需求
立即登錄

公眾號(hào):半導(dǎo)體產(chǎn)業(yè)縱橫。立足產(chǎn)業(yè)視角,提供及時(shí)、專(zhuān)業(yè)、深度的前沿洞見(jiàn)、技術(shù)速遞、趨勢(shì)解析,鏈接產(chǎn)業(yè)資源,構(gòu)建IC生態(tài)圈,賦能中國(guó)半導(dǎo)體產(chǎn)業(yè),我們一直在路上。