邊緣人工智能作為將AI能力下沉至終端設(shè)備的核心技術(shù),雖然在實(shí)時(shí)性、隱私保護(hù)和帶寬節(jié)省方面具有顯著優(yōu)勢(shì),但其工作負(fù)載和場(chǎng)景應(yīng)用仍面臨多重挑戰(zhàn)。
首先是計(jì)算資源有限與模型優(yōu)化的矛盾。邊緣設(shè)備的計(jì)算能力、存儲(chǔ)容量和內(nèi)存資源遠(yuǎn)低于云端服務(wù)器,這限制了復(fù)雜AI模型的部署。例如,許多邊緣設(shè)備(如傳感器、攝像頭)需運(yùn)行輕量化模型,但模型壓縮(如量化、剪枝)可能犧牲精度。此外,專用硬件(如NPU)的普及尚未覆蓋所有場(chǎng)景,導(dǎo)致部分設(shè)備難以高效處理高算力需求的任務(wù)(如生成式AI)。
以工業(yè)自動(dòng)化為例,實(shí)時(shí)監(jiān)測(cè)設(shè)備故障需要高精度模型,但邊緣設(shè)備的算力可能無法滿足需求。又如在智能交通系統(tǒng)中,復(fù)雜的環(huán)境感知算法需在低功耗硬件上運(yùn)行,需平衡性能與資源占用。
能源效率與功耗管理也是一個(gè)困擾。多數(shù)邊緣設(shè)備依賴電池供電,而AI模型的高能耗可能縮短設(shè)備壽命。例如,連續(xù)運(yùn)行的智能攝像頭需在低功耗模式下完成視頻分析,這對(duì)芯片設(shè)計(jì)和算法優(yōu)化提出了更高要求。盡管低功耗芯片和能效優(yōu)化算法有所發(fā)展,但實(shí)際應(yīng)用中仍需在性能與能耗間權(quán)衡。
另一個(gè)壓力來自數(shù)據(jù)安全與隱私保護(hù)。盡管邊緣AI減少了數(shù)據(jù)上傳云端的需求,但本地設(shè)備仍面臨物理攻擊(如傳感器篡改)和網(wǎng)絡(luò)攻擊(如中間人攻擊)。例如,醫(yī)療設(shè)備中的患者數(shù)據(jù)若未加密存儲(chǔ),可能因設(shè)備失竊導(dǎo)致隱私泄露。此外,邊緣設(shè)備的安全認(rèn)證機(jī)制尚未全面普及,也進(jìn)一步加劇了風(fēng)險(xiǎn)。
因此,在邊緣側(cè)解決這些痛點(diǎn)已迫在眉睫。
全新Armv9邊緣AI計(jì)算平臺(tái)
近日,Arm推出了全球首個(gè)Armv9邊緣AI計(jì)算平臺(tái),該平臺(tái)以全新的Arm Cortex-A320 CPU和對(duì)Transformer網(wǎng)絡(luò)具有原生支持的邊緣AI加速器Arm Ethos-U85 NPU為核心,可支持運(yùn)行超10億參數(shù)的端側(cè)AI模型。
Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健表示,該邊緣AI計(jì)算平臺(tái)不是CPU和AI加速器的簡(jiǎn)單堆疊,而是實(shí)現(xiàn)了深度配合,讓CPU和NPU相得益彰。Cortex-A320可為Ethos-U85提供更高的內(nèi)存容量與帶寬,讓大模型在Ethos-U85上的執(zhí)行如虎添翼。任何開發(fā)者們不希望在Ethos-U85上運(yùn)行的AI操作,可以回退到Cortex-A320,利用其Neon/SVE2引擎更靈活有效地在CPU上執(zhí)行。這使智能物聯(lián)網(wǎng)與消費(fèi)類電子生態(tài)系統(tǒng)能夠在正確的時(shí)間,并在合適的地方運(yùn)行最適合的工作負(fù)載。Arm相信,這一創(chuàng)新將推動(dòng)邊緣AI領(lǐng)域在未來多年內(nèi)的持續(xù)發(fā)展。
該全新平臺(tái)將覆蓋多個(gè)應(yīng)用場(chǎng)景,實(shí)現(xiàn)包括視覺和自然語言在內(nèi)的多模態(tài)的環(huán)境感知與理解,進(jìn)而運(yùn)行智能體AI、自主規(guī)劃、執(zhí)行復(fù)雜任務(wù)。該平臺(tái)具備強(qiáng)大的計(jì)算能力,比去年的基于Cortex-M85搭配Ethos-U85的平臺(tái)提升了八倍的ML計(jì)算性能,帶來了顯著的AI計(jì)算能力突破,可以賦能邊緣AI設(shè)備輕松運(yùn)行超過10億參數(shù)的大模型,助力大模型與生成式AI在物聯(lián)網(wǎng)領(lǐng)域的落地。
去年Arm推出的集成了Cortex-M85和Ethos-U85的Arm Corstone物聯(lián)網(wǎng)參考設(shè)計(jì)平臺(tái),顯著提升了端側(cè)Transformer網(wǎng)絡(luò)的執(zhí)行效率。如今,Ethos-U85驅(qū)動(dòng)程序已經(jīng)更新,使得Cortex-A320能夠直接驅(qū)動(dòng)Ethos-U85,無需額外搭載Cortex-M。這一更新降低了延遲,并使Arm的合作伙伴可以去掉用于驅(qū)動(dòng)AI加速器的額外控制器,從而降低成本和系統(tǒng)復(fù)雜性。
全新的超高能效CPU Cortex-A320
從Arm發(fā)布的信息看,此次全新發(fā)布的Cortex-A320是首個(gè)專為物聯(lián)網(wǎng)優(yōu)化的,基于Armv9架構(gòu)的超高能效CPU。相較于前代產(chǎn)品Cortex-A35,ML性能提升高達(dá)10倍,標(biāo)量性能提升了30%。其能效比較Cortex-A520提升了50%。Cortex-A320充分利用了Armv9增強(qiáng)的安全性和AI計(jì)算特性,這些特性已經(jīng)在其他市場(chǎng)得到廣泛應(yīng)用,而Arm現(xiàn)在也將其引入物聯(lián)網(wǎng)領(lǐng)域。
在安全性方面,Cortex-A320引入了多項(xiàng)安全特性,包括Secure EL2,它增強(qiáng)了TrustZone內(nèi)部的隔離性,支持更安全地運(yùn)行軟件容器;指針驗(yàn)證/分支目標(biāo)識(shí)別(PACBTI),這一特性有效緩解了跳轉(zhuǎn)和返回編程中的指針安全隱患;內(nèi)存標(biāo)記擴(kuò)展(MTE),通過內(nèi)存標(biāo)記機(jī)制,使得黑客更難利用軟件漏洞進(jìn)行攻擊,從而顯著提高了整體系統(tǒng)的安全性。
與此同時(shí),Cortex-A320在AI計(jì)算能力方面也實(shí)現(xiàn)了顯著提升,增強(qiáng)的Neon和SVE2技術(shù),提供更高效的ML計(jì)算能力;同時(shí),它還支持新的數(shù)據(jù)類型,如BFloat16,進(jìn)一步提高了AI計(jì)算的精度和能效;此外,新增的矩陣乘法指令優(yōu)化了AI和ML計(jì)算性能,加速了神經(jīng)網(wǎng)絡(luò)推理和訓(xùn)練任務(wù)。
在軟件兼容性與生態(tài)方面,Armv9架構(gòu)的優(yōu)勢(shì)明顯:支持Armv9架構(gòu)的軟件可無縫運(yùn)行在所有這些處理器上,極大降低了物聯(lián)網(wǎng)服務(wù)部署與交付的總體擁有成本(TCO)。此外,開源操作系統(tǒng)項(xiàng)目和編譯器已支持Armv9的特性,進(jìn)而大幅縮短產(chǎn)品開發(fā)周期。不僅如此,軟件發(fā)行版本在整個(gè)Armv9架構(gòu)設(shè)備內(nèi)也保持兼容,這不僅簡(jiǎn)化了開發(fā)流程,同時(shí)也減少了物聯(lián)網(wǎng)生態(tài)伙伴在解決方案交付上的整體成本。
具備靈活性是邊緣AI計(jì)算平臺(tái)的剛需,使工作負(fù)載既可以運(yùn)行在CPU,也可以運(yùn)行在AI加速器。例如,在連續(xù)圖像檢測(cè)任務(wù)中,通常會(huì)優(yōu)先在AI加速器上運(yùn)行,以提高能效。
然而,對(duì)于單張圖像的處理,在CPU上執(zhí)行可能更高效。而對(duì)于在CPU上運(yùn)行的AI任務(wù),開發(fā)者希望能夠獲得最優(yōu)的性能,這正是Arm Kleidi發(fā)揮作用之處。
Arm去年推出了Kleidi軟件庫,并將其引入了智能手機(jī)和服務(wù)器市場(chǎng),包含優(yōu)化 AI 負(fù)載在Arm CPU上執(zhí)行的KleidiAI和加速機(jī)器視覺的KleidiCV。如今,Arm也將Arm Kleidi擴(kuò)展到了物聯(lián)網(wǎng)。
KleidiAI是一套專為AI框架開發(fā)者設(shè)計(jì)的計(jì)算內(nèi)核,讓開發(fā)者可以無縫地在Arm CPU上獲取最佳性能,適用于各類設(shè)備。它支持如Neon和SVE2等Armv9架構(gòu)的關(guān)鍵特性,大幅提升了AI的計(jì)算效率。此外,KleidiAI已經(jīng)集成到多個(gè)主流AI框架,包括Llama.cpp、ExecuTorch和LiteRT(通過 XNNPACK)。它可以加速M(fèi)eta Llama 3和Phi-3等主流AI大模型,進(jìn)一步釋放AI計(jì)算性能。
靈活性也體現(xiàn)在對(duì)多種操作系統(tǒng)的支持。無論是如FreeRTOS和Zephyr的實(shí)時(shí)操作系統(tǒng)(RTOS),還是如Linux和Android的功能豐富的操作系統(tǒng),Cortex-320都能提供高效支持。
Cortex-A320還為現(xiàn)有的物聯(lián)網(wǎng)領(lǐng)域的Cortex-A產(chǎn)品提供了靈活的升級(jí)路徑。無論是從Cortex-A35遷移,還是從全球出貨量最高的基于Armv8架構(gòu)的Cortex-A處理器Cortex-A53升級(jí),Cortex-A320都提供了理想的Armv9遷移方案,并帶來了眾多優(yōu)勢(shì),包括更先進(jìn)的安全性、廣泛的Armv9軟件生態(tài)的支持,以及更高的計(jì)算性能。
克服碎片化
場(chǎng)景碎片化與標(biāo)準(zhǔn)化缺失一直是物聯(lián)網(wǎng)系統(tǒng)開發(fā)需要克服的瓶頸。馬健表示,Arm一直聚焦軟件生態(tài),過去幾年中,Arm在IoT標(biāo)準(zhǔn)化方面推出了Arm SystemReady,希望在不同的IoT平臺(tái)上可以支持各種主流軟件和操作系統(tǒng),確?!伴_機(jī)即用”。Arm SystemReady 項(xiàng)目在全球的推廣非常成功,目前已經(jīng)累計(jì)頒發(fā)了超過了 160 張認(rèn)證。
在中國(guó)市場(chǎng),去年11月Arm攜手中科創(chuàng)達(dá)成立了中國(guó)大陸首個(gè)Arm SystemReady Devicetree合規(guī)實(shí)驗(yàn)室。該實(shí)驗(yàn)室融合了中科創(chuàng)達(dá)在操作系統(tǒng)和工程方面全方位的專業(yè)能力,以及Arm經(jīng)過全球驗(yàn)證的SystemReady項(xiàng)目,為芯片廠商、OEM/ODM 廠商、系統(tǒng)集成商提供端到端的測(cè)試和技術(shù)支持服務(wù),為智能設(shè)備啟動(dòng)固件的標(biāo)準(zhǔn)化,加速萬物智能互聯(lián)時(shí)代的到來。
同時(shí),Arm與中國(guó)市場(chǎng)的本地認(rèn)證機(jī)構(gòu)進(jìn)行了深度合作,推廣PSA Certified認(rèn)證。獲得PSA Certified認(rèn)證后,產(chǎn)品通過歐美市場(chǎng)的電子產(chǎn)品認(rèn)證流程將更為順暢,為中國(guó)芯片和電子產(chǎn)品出海提供了一條便捷的通道。目前,截至目前,全球已有101家企業(yè)成功取得PSA Certified認(rèn)證,其中累計(jì)獲得認(rèn)證數(shù)量已達(dá)241項(xiàng)。許多中國(guó)的合作伙伴也通過了PSA Certified認(rèn)證,包括瑞芯微的RK3588/RK356X系列芯片、涂鴉智能的TS24-U模組等。
結(jié)語
展望未來,AI的未來趨勢(shì)將轉(zhuǎn)向邊緣,這一點(diǎn)是顯而易見的。全新Arm邊緣AI計(jì)算平臺(tái)將成為新一輪物聯(lián)網(wǎng)創(chuàng)新的催化劑。Armv9架構(gòu)的特性、先進(jìn)的AI功能和全面軟件支持的結(jié)合,將為OEM廠商和開發(fā)者創(chuàng)造新的可能性。