AI革新浪潮席卷而至,眾多行業(yè)正經(jīng)歷深刻變革。傳統(tǒng)云端AI受限于帶寬、延遲和隱私問(wèn)題,難以滿(mǎn)足實(shí)時(shí)性要求,使得邊緣AI需求呈爆炸增長(zhǎng)之勢(shì)。
“推理是AI釋放價(jià)值的關(guān)鍵,AI推理將從云端下沉至我們身邊,無(wú)處不在。對(duì)于芯片硬件玩家來(lái)說(shuō),邊緣側(cè)形態(tài)各異的設(shè)備與豐富用例,將帶來(lái)更多激動(dòng)人心的機(jī)會(huì)”,Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健表示。
日前,Arm正式發(fā)布了全球首個(gè)Armv9邊緣AI計(jì)算平臺(tái),該平臺(tái)以基于Armv9架構(gòu)的超高能效CPU Arm Cortex-A320和Arm Ethos-U85 AI加速器為核心,可支持運(yùn)行超10億參數(shù)的端側(cè)AI模型。這一平臺(tái)的推出標(biāo)志著邊緣計(jì)算發(fā)展的重要里程碑,為物聯(lián)網(wǎng)帶來(lái)了先進(jìn)的AI功能和開(kāi)發(fā)者優(yōu)勢(shì),該平臺(tái)同時(shí)獲得了包括亞馬遜云科技 (AWS)、西門(mén)子、瑞薩電子、研華科技和 Eurotech在內(nèi)的多家生態(tài)合作伙伴支持。
為何要將Armv9引入邊緣AI?
此次發(fā)布的Armv9邊緣AI計(jì)算平臺(tái),相較于去年推出的基于Cortex-M85搭配Ethos-U85的平臺(tái)提升了八倍的ML計(jì)算性能,帶來(lái)了顯著的AI計(jì)算能力突破。
在推出這款最新的邊緣AI計(jì)算平臺(tái)之前,Arm已有多款處理器在為多樣化的邊緣側(cè)設(shè)備提供支持,為何還要將Armv9引入相同目標(biāo)設(shè)備的處理器技術(shù)中?
事實(shí)上,在IoT環(huán)境中,邊緣設(shè)備需求更勝以往,例如:智能攝像頭需要在本地運(yùn)行復(fù)雜的計(jì)算機(jī)視覺(jué)算法;工業(yè)傳感器須處理復(fù)雜的機(jī)器學(xué)習(xí)模型以進(jìn)行預(yù)測(cè)性維護(hù);即使是端側(cè)設(shè)備,也越來(lái)越離不開(kāi)增強(qiáng)的安全性和虛擬化功能。此外,OEM廠商迫切需要快速推出解決方案,以應(yīng)對(duì)不斷攀升的計(jì)算需求,例如:自動(dòng)駕駛車(chē)輛在工廠環(huán)境中的精準(zhǔn)導(dǎo)航,以及構(gòu)建能夠提供更自然AI交互體驗(yàn)的人機(jī)界面……
正因如此,不論是設(shè)備本身,還是相關(guān)企業(yè),這些不斷變化的需求使得Armv9的先進(jìn)功能不再只是錦上添花,而是新一代物聯(lián)網(wǎng)創(chuàng)新的必備條件。
全新Cortex-A320為下一代AIoT設(shè)備奠定安全基礎(chǔ)
作為Armv9邊緣AI計(jì)算平臺(tái)的核心組件,Cortex-A320作為基于Armv9架構(gòu)的全新超高能效CPU,將Armv9架構(gòu)的功能擴(kuò)展到了IoT領(lǐng)域的高能效設(shè)備。
在ML性能方面,相較于前代產(chǎn)品Cortex-A35,Cortex-A320的ML性能提升了十倍,標(biāo)量性能提升了30%。此外,其能效比較Cortex-A520提升了 50%,進(jìn)一步降低了功耗。
Cortex-A320充分利用了Armv9增強(qiáng)的計(jì)算特性和安全性。計(jì)算特性方面,增強(qiáng)的Neon和可伸縮向量擴(kuò)展(SVE2)技術(shù),能夠提供更高效的ML計(jì)算能力;對(duì)包括BFloat16等新數(shù)據(jù)類(lèi)型的支持提高了AI計(jì)算的精度和能效;新增的矩陣乘法指令則優(yōu)化了AI和ML計(jì)算性能,加速神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。
此外,Cortex-A320還引入了多項(xiàng)Armv9高級(jí)安全功能,包括指針驗(yàn)證(PAC)、分支目標(biāo)識(shí)別(BTI)和內(nèi)存標(biāo)記擴(kuò)展(MTE)。
其中,由于大部分軟件漏洞仍與內(nèi)存安全問(wèn)題相關(guān),通過(guò)MTE功能有助于檢測(cè)和減少 C/C++ 程序中常見(jiàn)的內(nèi)存安全漏洞。通過(guò)對(duì)內(nèi)存分配進(jìn)行標(biāo)記,并在訪問(wèn)時(shí)檢查這些標(biāo)記,MTE可以識(shí)別并防范潛在的安全漏洞。PAC通過(guò)確保函數(shù)指針和返回地址的完整性,為系統(tǒng)增加了一層額外的安全保護(hù),以減少攻擊者利用軟件漏洞的機(jī)會(huì)。而B(niǎo)TI則是通過(guò)確保間接分支僅指向有效位置,來(lái)保護(hù)系統(tǒng)免受控制流攻擊。
此外,由于虛擬化技術(shù)可高效利用資源并改善不同工作負(fù)載間的隔離性,Cortex-A320支持的Secure EL2 (S-EL2)虛擬化,增強(qiáng)了TrustZone內(nèi)部的隔離性,支持更安全地運(yùn)行軟件容器,這對(duì)多用戶(hù)環(huán)境及云計(jì)算、邊緣計(jì)算場(chǎng)景中維護(hù)數(shù)據(jù)完整性與機(jī)密性很重要。
這些改進(jìn)使Cortex-A320成為IoT設(shè)備的理想計(jì)算平臺(tái),能夠高效執(zhí)行復(fù)雜的邊緣AI任務(wù),同時(shí)保證系統(tǒng)的安全性、可靠性和數(shù)據(jù)完整性。
Cortex-A320 +Ethos-U85:邊緣AI的理想組合
隨著邊緣AI負(fù)載變得越來(lái)越復(fù)雜,對(duì)支持更大規(guī)模、多模態(tài)AI模型的硬件需求不斷增長(zhǎng),系統(tǒng)的內(nèi)存需求也在迅速提升。因此,為了滿(mǎn)足更復(fù)雜的應(yīng)用場(chǎng)景,具備更高內(nèi)存訪問(wèn)性能的系統(tǒng)變得尤為必要。
馬健指出,Cortex-A 處理器正是為此而設(shè)計(jì),相比 Cortex-M,它支持更大的可尋址內(nèi)存空間,并能夠更靈活地管理多層次內(nèi)存訪問(wèn)延遲。此外,傳統(tǒng)的Cortex-M一般只能支持實(shí)時(shí)操作系統(tǒng),而Cortex-A320 具備支持多種操作系統(tǒng)的能力,無(wú)論是如 FreeRTOS 和 Zephyr 的實(shí)時(shí)操作系統(tǒng) (RTOS),還是如 Linux 和 Android 的功能豐富的操作系統(tǒng),都能提供高效支持。Cortex-A320與Ethos-U85這一組合,成為了運(yùn)行大模型及需要更高軟件靈活性的邊緣AI任務(wù)的理想選擇。
其中,作為邊緣AI計(jì)算平臺(tái)的另一核心,Ethos-U85是Arm Ethos-U產(chǎn)品線中的第三代NPU,也是迄今為止性能和能效最強(qiáng)的Ethos NPU。最新的Ethos-U85可支持 Transformer 架構(gòu)網(wǎng)絡(luò),在1GHz時(shí),算力可支持從256 GOPS到4 TOPS,滿(mǎn)足多種設(shè)備需求。目前,驅(qū)動(dòng)程序更新后的Ethos-U85可由Cortex-A320直接驅(qū)動(dòng),無(wú)需額外搭載Cortex-M。這一更新降低了延遲,并降低了系統(tǒng)復(fù)雜性和成本。
此外,在可預(yù)見(jiàn)的未來(lái),多模態(tài)AI模型正在成為AI發(fā)展的必然趨勢(shì),因?yàn)樗笰I能以更貼近人類(lèi)感知世界的方式為我們服務(wù)。
對(duì)此,馬健認(rèn)為,多模態(tài)AI模型的發(fā)展將推動(dòng)AI助手等應(yīng)用更加自然和便捷,例如通過(guò)語(yǔ)音和視覺(jué)模態(tài)的結(jié)合,用戶(hù)可以更自由地與設(shè)備交互。在產(chǎn)品布局方面,此次發(fā)布的以Cortex-A320+Ethos-U85為核心的邊緣AI計(jì)算平臺(tái)已在智能視覺(jué)方面有很多的應(yīng)用。此外,Arm在整個(gè)視覺(jué)方面已有比較成熟的解決方案,比如通過(guò)GPU和ISP(圖像信號(hào)處理)進(jìn)行圖像處理,具備很強(qiáng)的優(yōu)勢(shì)。
將Arm Kleidi擴(kuò)展到物聯(lián)網(wǎng)
“真正的邊緣AI計(jì)算平臺(tái)需要靈活性,使工作負(fù)載既可以運(yùn)行在CPU,也可以運(yùn)行在AI加速器上。例如,在連續(xù)圖像檢測(cè)任務(wù)中,通常會(huì)優(yōu)先在AI加速器上運(yùn)行,以提高能效;而單張圖像的處理,在CPU上執(zhí)行可能更高效”,馬健在談及提升邊緣AI開(kāi)發(fā)效率時(shí)表示,“對(duì)于在CPU上運(yùn)行的AI任務(wù),開(kāi)發(fā)者希望能夠獲得最優(yōu)的性能,這正是Arm Kleidi發(fā)揮作用的地方”。
為了簡(jiǎn)化邊緣AI開(kāi)發(fā)流程,Arm現(xiàn)已將Kleidi擴(kuò)展到物聯(lián)網(wǎng)領(lǐng)域。Arm Kleidi是一套面向AI框架開(kāi)發(fā)者的計(jì)算庫(kù),旨在優(yōu)化基于Arm CPU的AI和ML工作負(fù)載,無(wú)需開(kāi)發(fā)者額外操作。KleidiAI已集成到多個(gè)主流AI框架中,如Llama.cpp和 ExecuTorch或LiteRT(通過(guò)XNNPACK),加速了Meta Llama 3和Phi-3等關(guān)鍵模型的性能。例如,在Llama.cpp上運(yùn)行微軟的Tiny Stories數(shù)據(jù)集時(shí),KleidiAI為新的Cortex-A320帶來(lái)了70%的性能提升。
在當(dāng)今快速迭代的技術(shù)浪潮中,產(chǎn)品的上市速度已成為決定其市場(chǎng)成敗的關(guān)鍵因素。Arm此次推出的邊緣AI計(jì)算平臺(tái)確保了與更高性能Cortex-A處理器在軟件層面的無(wú)縫兼容。這種高度的可擴(kuò)展性讓開(kāi)發(fā)者能夠根據(jù)不斷變化的需求靈活調(diào)整解決方案。借助龐大的Armv9生態(tài)系統(tǒng),以及與Linux等功能豐富的操作系統(tǒng)和Zephyr等實(shí)時(shí)操作系統(tǒng)的兼容性,開(kāi)發(fā)者擁有了前所未有的靈活性。
寫(xiě)在最后
Arm此次發(fā)布的全新邊緣AI計(jì)算平臺(tái)有望成為新一輪物聯(lián)網(wǎng)創(chuàng)新的催化劑。在Armv9架構(gòu)、先進(jìn)的AI功能和全面軟件支持的加持下,OEM廠商和開(kāi)發(fā)者正在獲得更多AIoT領(lǐng)域技術(shù)創(chuàng)新的可能性。
Arm認(rèn)為,這不僅僅是一次漸進(jìn)式的進(jìn)步,而是代表著行業(yè)對(duì)邊緣計(jì)算和AI處理方式的根本性革新。這也是行業(yè)首次迎來(lái)專(zhuān)為物聯(lián)網(wǎng)應(yīng)用優(yōu)化的Armv9 CPU,通過(guò)將超高能效與先進(jìn)AI能力結(jié)合,Armv9邊緣AI計(jì)算平臺(tái)將會(huì)實(shí)現(xiàn)前所未有的技術(shù)突破,進(jìn)而助力物聯(lián)網(wǎng)領(lǐng)域未來(lái)的創(chuàng)新與轉(zhuǎn)型。