• 正文
    • 新計(jì)算架構(gòu)填補(bǔ)MRAM空白
    • 為什么要提出存算一體
    • 存算一體化迎來爆發(fā)時(shí)刻
    • 寫在最后
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

存算一體技術(shù)新突破,劍指下一代AI芯片

2022/01/19
1223
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

近日,三星電子在頂級(jí)學(xué)術(shù)期刊 Nature 上發(fā)表了全球首個(gè)基于 MRAM(磁性隨機(jī)存儲(chǔ)器)的存內(nèi)計(jì)算研究。

存內(nèi)計(jì)算由于毋需數(shù)據(jù)在存儲(chǔ)器和處理器間移動(dòng),大大降低了 AI 計(jì)算的功耗,被視作邊緣 AI 計(jì)算的一項(xiàng)前沿研究。

新計(jì)算架構(gòu)填補(bǔ)MRAM空白

存算一體化技術(shù)路線,處于多種存儲(chǔ)介質(zhì)百花齊放的格局。根據(jù)存儲(chǔ)器介質(zhì)的不同,目前存算一體芯片的主流研發(fā)集中在

易失性存儲(chǔ)器,如SRAM、DRAM

非易失性存儲(chǔ)器,如RRAM,PCM,MRAM與閃存

其中比較成熟的是以SRAM和MRAM為代表的通用近存計(jì)算架構(gòu),這種方案通常采用同構(gòu)眾核的架構(gòu),每個(gè)存儲(chǔ)計(jì)算核(MPU)包含:

計(jì)算引擎(Processing Engine, PE)

緩存(Cache)

控制(CTRL)

輸入輸出(Inout/Output, I/O)

非易失性的RRAM(電阻隨機(jī)存取存儲(chǔ)器)和PRAM(相變隨機(jī)存取存儲(chǔ)器)是存內(nèi)計(jì)算最常用的兩類存儲(chǔ)器。對(duì)比其他存儲(chǔ)器:

MRAM磁阻內(nèi)存在運(yùn)行速度、壽命、量產(chǎn)方面都有明顯優(yōu)勢(shì)

功耗也遠(yuǎn)低于傳統(tǒng)DRAM

還具有非易失的特點(diǎn),即斷電不會(huì)丟失數(shù)據(jù)

不過一直以來,MRAM磁阻內(nèi)存很難用于內(nèi)存內(nèi)計(jì)算,因?yàn)樗跇?biāo)準(zhǔn)的內(nèi)存內(nèi)計(jì)算架構(gòu)中無法發(fā)揮低功耗優(yōu)勢(shì)。

三星電子的研究人員構(gòu)建了一種基于MRAM的新存內(nèi)計(jì)算架構(gòu),填補(bǔ)了這種空白。通過結(jié)構(gòu)創(chuàng)新,實(shí)現(xiàn)了基于MRAM(磁阻隨機(jī)存取存儲(chǔ)器)的內(nèi)存內(nèi)計(jì)算(In-Memory Computing),進(jìn)一步拓展了三星的下一代低功耗人工智能芯片技術(shù)的前沿領(lǐng)域。

三星研究團(tuán)隊(duì)設(shè)計(jì)了一種名為“電阻總和”(resistance sum)的新型內(nèi)存內(nèi)計(jì)算架構(gòu),取代標(biāo)準(zhǔn)的“電流總和”(current-sum)架構(gòu),成功開發(fā)了一種能演示內(nèi)存內(nèi)計(jì)算架構(gòu)的MRAM陣列芯片,命名為“用于內(nèi)存內(nèi)計(jì)算的磁阻內(nèi)存交叉陣列”(crossbar array of magnetoresistive memory devices for in-memory computing)。

這一陣列成功解決了單個(gè)MRAM器件的小電阻問題,從而降低功耗,實(shí)現(xiàn)了基于MRAM的內(nèi)存內(nèi)計(jì)算。按照三星的說法,在執(zhí)行AI計(jì)算時(shí),MRAM內(nèi)存內(nèi)計(jì)算可以做到98%的筆跡識(shí)別成功率、93%的人臉識(shí)別準(zhǔn)確率。

論文特別寫道,該研究并非和基于其他存儲(chǔ)器的存內(nèi)計(jì)算架構(gòu)競(jìng)爭(zhēng)。到目前為止,沒有一種存儲(chǔ)器類型在電子產(chǎn)品中占據(jù)絕對(duì)主導(dǎo),因?yàn)椴煌愋偷拇鎯?chǔ)器各有自身的優(yōu)點(diǎn)和缺點(diǎn)。因此,基于不同存儲(chǔ)器的存內(nèi)計(jì)算也可能發(fā)展成不同的架構(gòu)。從這個(gè)角度看,三星電子通過填補(bǔ)基于MRAM存儲(chǔ)器的存內(nèi)計(jì)算架構(gòu)空白,有助于存內(nèi)計(jì)算發(fā)展。

如下圖所示,這里緩存可以是SRAM、MRAM或類似的高速隨機(jī)存儲(chǔ)器。各個(gè)MPU之間通過片上網(wǎng)絡(luò)(Network-on-Chip, NoC)進(jìn)行連接。每個(gè)MPU訪問各自的緩存,可以實(shí)現(xiàn)高性能并行運(yùn)算。

基于高速緩存的通用近存計(jì)算架構(gòu)

基于MRAM的存算一體主要有兩種方案:

第一種方案是利用輔助外圍電路,跟上述SRAM存算一體類似,如圖(a)

 

第二種方案是直接利用存儲(chǔ)單元實(shí)現(xiàn)布爾邏輯計(jì)算,如圖(b)

一種典型的可重構(gòu)存算一體實(shí)現(xiàn)方案,其可以在存儲(chǔ)應(yīng)用與存算一體應(yīng)用之間進(jìn)行切換

由于RRAM/PCM/MRAM非易失性電阻式存儲(chǔ)原理,其具有不同的電路實(shí)現(xiàn)方式

這種方案直接利用存儲(chǔ)單元的輸入輸出操作進(jìn)行邏輯運(yùn)算

根據(jù)不同存儲(chǔ)器存儲(chǔ)單元的結(jié)構(gòu)與操作方法不同,可以有不同的實(shí)現(xiàn)方式

 

基于RRAM/PCM/MRAM的存算一體基本原理

(a)利用外圍電路方案

(b)利用存儲(chǔ)單元方案

未來或可用于生物神經(jīng)元網(wǎng)絡(luò)

對(duì)于這項(xiàng)研究,研究人員寫道,MRAM陣列運(yùn)行存內(nèi)計(jì)算的一個(gè)重要挑戰(zhàn)是構(gòu)建AI SoC(片上系統(tǒng)),將許多陣列和數(shù)據(jù)轉(zhuǎn)換器、數(shù)字電子設(shè)備進(jìn)行集成。研究人員還強(qiáng)調(diào),寬泛來說,內(nèi)存陣列不僅可以用來運(yùn)算神經(jīng)網(wǎng)絡(luò)算法,也可以作為潛在的生物神經(jīng)元網(wǎng)絡(luò)載體。

2021年9月,三星電子和哈佛聯(lián)合在Nature子刊Nature Electronics上發(fā)表了名為《Neuromorphic electronics based on copying and pasting the brain(基于復(fù)制和粘貼大腦的神經(jīng)形態(tài)電子學(xué))》的論文,提出了一種將大腦神經(jīng)元連接圖(neuronal wiring map)“復(fù)制、粘貼”到高密度3維存儲(chǔ)網(wǎng)絡(luò)上的可能。

三星此前“復(fù)制、粘貼”大腦的研究(圖片來源:Nature)

MRAM陣列研究的第一作者Seungchul Jung稱,存內(nèi)計(jì)算與人類大腦的計(jì)算類似,因?yàn)槿祟惖挠?jì)算也發(fā)生在記憶或突觸網(wǎng)絡(luò)中。雖然MRAM陣列當(dāng)前的計(jì)算目的并非模仿大腦,但這種固態(tài)存儲(chǔ)網(wǎng)絡(luò)將來可能會(huì)被用作模擬大腦突觸的平臺(tái)。

為什么要提出存算一體

早在1992年,中國(guó)工程院院士許居衍便預(yù)測(cè),2014-2017年,人類將進(jìn)入硅技術(shù)生命曲線上的拐點(diǎn),即將進(jìn)入“后摩爾時(shí)代”?,F(xiàn)有馮諾依曼計(jì)算系統(tǒng)采用存儲(chǔ)和運(yùn)算分離的架構(gòu),存在“存儲(chǔ)墻”與“功耗墻”瓶頸,嚴(yán)重制約系統(tǒng)算力和能效的提升。人工智能的發(fā)展已經(jīng)被算力不足,能效過低約束。

摩爾定律及AI算法算力的演進(jìn)發(fā)展

在馮·諾依曼架構(gòu)中,存儲(chǔ)器與處理器是兩個(gè)完全分離的單元,處理器根據(jù)指令從存儲(chǔ)器中讀取數(shù)據(jù)、完成運(yùn)算,并存回存儲(chǔ)器。兩者之間數(shù)據(jù)交換通路窄以及由此引發(fā)的高能耗兩大難題,在存儲(chǔ)與運(yùn)算之間筑起了一道“存儲(chǔ)墻”。

以數(shù)據(jù)為主的AI計(jì)算之下,馮·諾伊曼架構(gòu)的“存儲(chǔ)墻”和“功耗墻”挑戰(zhàn)凸顯。半個(gè)多世紀(jì)后的今天,有沒有一種方式可以翻越“兩面墻”?

隨算力增加,處理器核心數(shù)增多,每核心可用帶寬越來越少,也就限制了整體速度。搬運(yùn)數(shù)據(jù),成為相當(dāng)大的瓶頸。

當(dāng)下的計(jì)算處理器如CPU,GPU或AI專用芯片等,均采用馮諾依曼架構(gòu)設(shè)計(jì),80%的功耗發(fā)生在數(shù)據(jù)傳輸上,99%的時(shí)間消耗在存儲(chǔ)器書寫過程中,而真正用于計(jì)算的能耗和時(shí)間其實(shí)占比很低。

人工智能迅猛發(fā)展的當(dāng)下,人工智能算法對(duì)邏輯單元與存儲(chǔ)單元之間信息交互能力的需求相對(duì)于傳統(tǒng)任務(wù)更嚴(yán)苛。AI計(jì)算以數(shù)據(jù)為主,大量數(shù)據(jù)搬運(yùn)導(dǎo)致功耗居高不下。到2025年,全球數(shù)據(jù)中心將使用全球20%的電量。

AlphaGo下棋打敗人類,但人類只用了20瓦的大腦能耗,而AlphaGo是2萬瓦。如果更多腦力勞動(dòng)被機(jī)器取代,芯片散發(fā)的熱量會(huì)讓地球變得滾燙。

只有低功耗基礎(chǔ)上的大算力才是可持續(xù)的。

解決存儲(chǔ)墻最根本的方案,就是把存儲(chǔ)和計(jì)算融合到一起,用存儲(chǔ)單元去做計(jì)算。

存算一體化是將計(jì)算機(jī)中的運(yùn)算從中央處理器轉(zhuǎn)入內(nèi)存中進(jìn)行,直接在存儲(chǔ)單元內(nèi)部進(jìn)行運(yùn)算,緩解數(shù)據(jù)搬運(yùn),可大幅降低數(shù)據(jù)交換時(shí)間以及計(jì)算過程中的數(shù)據(jù)存取能耗。

存算一體成為現(xiàn)階段實(shí)現(xiàn)高帶寬、低功耗、計(jì)算需求的一條有效途徑。

馮諾依曼架構(gòu)與存內(nèi)計(jì)算對(duì)比

存算一體化迎來爆發(fā)時(shí)刻

受限于芯片設(shè)計(jì)復(fù)雜度與制造成本問題,以及缺少殺手級(jí)大數(shù)據(jù)應(yīng)用進(jìn)行驅(qū)動(dòng),存算一體一直不溫不火。

存算一體技術(shù)(PIM :Processing in-memory)被視為人工智能創(chuàng)新的核心。它將存儲(chǔ)和計(jì)算有機(jī)結(jié)合,直接利用存儲(chǔ)單元進(jìn)行計(jì)算,極大地消除了數(shù)據(jù)搬移帶來的開銷,解決了傳統(tǒng)芯片在運(yùn)行人工智能算法上的“存儲(chǔ)墻”與“功耗墻”問題,可以數(shù)十倍甚至百倍地提高人工智能運(yùn)算效率,降低成本。

尤其是國(guó)內(nèi)一大批存算一體技術(shù)公司伴隨著融資信息浮出水面,國(guó)外的三星和Myhtic也是該領(lǐng)域的潛心研究者,他們近來也動(dòng)作頻頻,一個(gè)新的存儲(chǔ)計(jì)算時(shí)代似乎將要來臨:

5月Myhtic C輪融資了7000萬美元,迄今為止已共計(jì)籌集了1.65億美元

6月10日,知存科技宣布完成億元A3輪融資,產(chǎn)品線擴(kuò)充及新的產(chǎn)品量產(chǎn),加上此前的兩輪融資,截至目前,知存科技已完成累計(jì)近3億元的A輪系列融資

6月25日九天睿芯獲億元級(jí)A輪融資,用于新產(chǎn)品研發(fā)和人員擴(kuò)充的工作

7月2日,杭州智芯科完成近億元的天使輪融資,用于繼續(xù)搭建團(tuán)隊(duì),啟動(dòng)ACIM下一階段技術(shù)研發(fā)與市場(chǎng)拓展

8月24日,后摩智能宣布完成3億元人民幣Pre-A輪融資,將用于加速芯片產(chǎn)品技術(shù)研發(fā)、團(tuán)隊(duì)拓展,早期市場(chǎng)布局及商業(yè)落地

8月24日,蘋芯科技完成近千萬美元Pre-A輪融資

動(dòng)輒億元的資本涌入,前仆后繼的玩家踴躍跳入,充分證明了資本對(duì)存算一體這個(gè)賽道的青睞,為何存算一體芯片市場(chǎng)會(huì)如此被看好?

一是算力和運(yùn)算數(shù)據(jù)量每年都在指數(shù)級(jí)增加,然而摩爾定律已經(jīng)接近于到極限,每代芯片只有10-20%的性能提升

 

二是馮諾依曼架構(gòu)的算力已經(jīng)被內(nèi)存墻所限制,只有解決內(nèi)存墻問題才能進(jìn)一步提高算力

 

三是與深度學(xué)習(xí)網(wǎng)絡(luò)運(yùn)算模型中的基本算子高度契合,使得基于存內(nèi)計(jì)算架構(gòu)的芯片相比于市場(chǎng)已有的AI加速芯片,在計(jì)算效率(TOPS/Watt)方面有數(shù)量級(jí)上的提升

 

四是通用性計(jì)算芯片在服務(wù)特定AI算法方面并不具備性價(jià)比優(yōu)勢(shì),在各種解決方案中,存內(nèi)計(jì)算是最直接也是最高效的

寫在最后

在智能時(shí)代里,從可穿戴到自動(dòng)駕駛,功耗約束下場(chǎng)景里的計(jì)算效率都是永恒的主題,存內(nèi)計(jì)算是解放算力、提升能效比最強(qiáng)有力的武器之一。存算一體化技術(shù)是顛覆傳統(tǒng)馮諾依曼架構(gòu)的存在,是未來趨勢(shì),但從消費(fèi)級(jí)到企業(yè)級(jí)市場(chǎng)的應(yīng)用普及,可能需要十年甚至更長(zhǎng)的時(shí)間來扎實(shí)基礎(chǔ),升級(jí)完善。

存內(nèi)計(jì)算技術(shù)的發(fā)展是一條追求高能效計(jì)算的重要技術(shù)路線,如何有效控制存內(nèi)計(jì)算接口是一個(gè)重要挑戰(zhàn)。誰擁有兼顧計(jì)算密度與存儲(chǔ)密度的存內(nèi)計(jì)算硬件架構(gòu),誰就擁有了打開高能效計(jì)算的金鑰匙。

“存算一體”打破了運(yùn)行70年的馮諾依曼架構(gòu),將成為AI時(shí)代主流的計(jì)算架構(gòu)。目前國(guó)內(nèi)外在存算一體方面都處于起步階段,存算一體正處于學(xué)術(shù)界向工業(yè)界遷移的關(guān)鍵時(shí)期,所以這可能是我們發(fā)展國(guó)產(chǎn)芯片的另一大重要方向。

三星電子

三星電子

探索三星讓您感受品位生活,在這里您可以找到Galaxy Z Fold4 | Z Flip4、Galaxy S22 Ultra 5G, Galaxy S22 | S22+ 5G, Galaxy Z Fold3 | Flip3 5G等新品,也可以瀏覽手機(jī)、電視、顯示器、冰箱、洗衣機(jī)等三星官方產(chǎn)品內(nèi)容,并獲得相關(guān)產(chǎn)品服務(wù)與支持。

探索三星讓您感受品位生活,在這里您可以找到Galaxy Z Fold4 | Z Flip4、Galaxy S22 Ultra 5G, Galaxy S22 | S22+ 5G, Galaxy Z Fold3 | Flip3 5G等新品,也可以瀏覽手機(jī)、電視、顯示器、冰箱、洗衣機(jī)等三星官方產(chǎn)品內(nèi)容,并獲得相關(guān)產(chǎn)品服務(wù)與支持。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號(hào):技術(shù)大院;傳播知識(shí),開闊視野。技術(shù)大雜院,睜眼看世界,有種,有趣,有料!