“AI大潮洶涌澎湃,大模型要真正落地,一定是云、邊、端的三級結(jié)合。與此同時,人工智能正在走向萬物智能,受到實(shí)時響應(yīng)需求的影響,車載大模型或成為落地最快的板塊之一?!?愛芯元智創(chuàng)始人、董事長仇肖莘在2024 WAIC上如是說。
圖 | 愛芯元智參展2024 WAIC ,來源:愛芯元智
大模型落地端側(cè),GPGPU不是最好的方案
根據(jù)市場調(diào)研數(shù)據(jù)顯示,2023年我國人工智能核心產(chǎn)業(yè)規(guī)模為5784億元,增速達(dá)到13.9%。
隨著AI模型的發(fā)展趨于成熟,AI基礎(chǔ)設(shè)施建設(shè)變得越來越重要?;诖?,仇肖莘得出結(jié)論,在大模型時代,更經(jīng)濟(jì)、更高效、更環(huán)保將成為AI基礎(chǔ)設(shè)施的關(guān)鍵詞。
圖 | 愛芯元智創(chuàng)始人、董事長仇肖莘,來源:愛芯元智
下潛到芯片層面,如何讓大模型在AI芯片中跑得更快,如何讓大模型實(shí)現(xiàn)更好的調(diào)優(yōu),是目前人工智能要解決的落地難題,更經(jīng)濟(jì)的AI專用芯片將成為必然。
而正是有這樣的趨勢推動,我們觀察到,美國、以色列等國家已經(jīng)好多年沒有出現(xiàn)新的AI創(chuàng)業(yè)公司,但今年卻出現(xiàn)了很多家,這是因?yàn)楫?dāng)大模型落地邊側(cè),原來的架構(gòu)可能已經(jīng)不再適用?!熬唧w來講,當(dāng)基礎(chǔ)網(wǎng)絡(luò)架構(gòu)還不穩(wěn)定時,GPGPU存在靈活性優(yōu)勢,但過去10年中,卷積網(wǎng)絡(luò)的基礎(chǔ)架構(gòu)已經(jīng)趨于穩(wěn)定,包括算子的固定,大多已經(jīng)進(jìn)入微調(diào)和調(diào)優(yōu)階段,所以在端側(cè)GPGPU不是最好的方案,DSA架構(gòu)(Domain Specific Architecture,特定領(lǐng)域架構(gòu))下的AI芯片更具能效優(yōu)勢”,仇肖莘表示。
據(jù)悉,NPU通常采用DSA架構(gòu),DSA架構(gòu)下的NPU通過模仿生物神經(jīng)網(wǎng)絡(luò)構(gòu)建,可以在電路層實(shí)現(xiàn)存儲和計算一體化,提高運(yùn)行效率。
對此,愛芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉表示:“我們不能把NPU當(dāng)做加速起來使用,否則就不能適應(yīng)網(wǎng)絡(luò)架構(gòu)的變化,也不是擴(kuò)展指令集,否則就不能把能量消耗最大比例的放在Tensor計算上,NPU應(yīng)該是一個AI原生處理器?!?/p>
圖 | 愛芯元智聯(lián)合創(chuàng)始人、副總裁劉建偉,來源:愛芯元智
劉建偉以愛芯通元AI處理器為例,進(jìn)一步補(bǔ)充道:“愛芯通元AI處理器的核心是算子指令集和數(shù)據(jù)流微架構(gòu)。其底層采用了可編程數(shù)據(jù)流的微架構(gòu),來提高能效和算力密度。同時它的靈活性也保證了算子指令集的完備性,支撐各種AI的應(yīng)用。而其成熟的軟件工具鏈可以讓開發(fā)者快速上手。此外,軟硬件的聯(lián)合設(shè)計也保證了愛芯通元AI處理器的高速迭代和競爭力。愛芯通元AI處理器很大程度降低了AI應(yīng)用的開發(fā)及運(yùn)維成本,讓AI智能更經(jīng)濟(jì)、更高效、更環(huán)保?!?/p>
誰是端側(cè)大模型的最佳載體?
當(dāng)大模型落地邊緣側(cè)和端側(cè),行業(yè)內(nèi)猜測AI手機(jī)、AI PC、汽車等應(yīng)用場景或成為首批試點(diǎn)。對于AI手機(jī)、AI PC來說,因?yàn)榕c當(dāng)前AI大模型的應(yīng)用場景覆蓋度較高,且潛在市場體量較大,被寄希望于成為“大模型的最佳載體”。而對于汽車來說,雖然當(dāng)前銷量可能面臨瓶頸,但智能化的滲透率還在繼續(xù)。
以手機(jī)行業(yè)為例,今年全球各大手機(jī)廠家紛紛推出了跑在終端的“大模型”版本,比如Google的Gemini-nano(1.8B)、vivo的藍(lán)星大模型(1B)、以及國內(nèi)“小鋼炮”MiniCPM(1B)等。此外,蘋果公司在2024年全球開發(fā)者大會上對外披露了自研模型OpenELM,其參數(shù)量約為3B,在iPhone 15 Pro上的處理速度可以達(dá)到每秒生成30個token,初始響應(yīng)延遲約0.6毫秒。
根據(jù)蘋果的測試結(jié)果,這個3B級別的端側(cè)小模型在性能上足以比肩主流的7B級別模型的能力,而云端模型的效果甚至可以與GPT-4 Turbo級別相媲美。
對此,愛芯元智創(chuàng)始人、董事長仇肖莘表示:“蘋果在手機(jī)上跑3B的模型,如果能落地應(yīng)用,那么3-7B基本能滿足當(dāng)下手機(jī)市場的需求?!?/p>
“此外,手機(jī)算力不夠,當(dāng)前需要外掛協(xié)處理器,但成本會上升,未來手機(jī)的SoC中一定會集成NPU,但我們應(yīng)思考的是,集成多大的NPU,才能平衡算力要求和成本問題。當(dāng)前國內(nèi)已經(jīng)有很多廠商和愛芯元智在接觸并討論關(guān)于NPU IP集成的合作?!?仇肖莘補(bǔ)充道。
值得一提的是,由于這些模型的參數(shù)規(guī)模與當(dāng)前以GPT4為代表的云端大模型參數(shù)規(guī)模相差多個數(shù)量級,因此也被稱為“小模型”。
用劉建偉的話來說,端側(cè)跑小模型基本夠了,邊緣側(cè)跑多模態(tài)的大模型。
計算單元已經(jīng)不再是AI芯片的最大瓶頸
在邊緣計算和端側(cè)設(shè)備的應(yīng)用場景中,與云端計算的集中處理模式不同,它們更強(qiáng)調(diào)感知與計算的緊密結(jié)合。因此,對于邊、端兩側(cè),計算單元已經(jīng)不再是AI芯片的最大瓶頸,當(dāng)前最大的挑戰(zhàn)是在DDR和I/O側(cè),所以如何節(jié)省帶寬、節(jié)省存儲成為新的挑戰(zhàn),為此對混合精度的需求增加,比如我們看到英偉達(dá)也從原來的FP8、FP16轉(zhuǎn)變到開始支持INT4。
事實(shí)上,在人工智能網(wǎng)絡(luò)的實(shí)際應(yīng)用中,經(jīng)常存在信息冗余現(xiàn)象,這表明在深度學(xué)習(xí)模型的許多部分,并不總是需要高精度的浮點(diǎn)數(shù),如32比特或16比特的計算。通過采用低精度的數(shù)據(jù)表示,例如8比特整數(shù)(INT8)或4比特整數(shù)(INT4),可以顯著減少模型的計算負(fù)擔(dān)和內(nèi)存需求,同時仍然保持可接受的準(zhǔn)確性水平。
圖 | 神經(jīng)網(wǎng)絡(luò)示意圖(簡化版),來源:愛芯元智
據(jù)悉,在愛芯元智的AI-ISP應(yīng)用中,就是基于混合精度的,網(wǎng)絡(luò)中許多中間層都是采用INT4精度。相比原來的8比特網(wǎng)絡(luò),數(shù)據(jù)搬運(yùn)量可能就變成原來的1/4。由此便可以提升NPU的使用率和效率,在單位面積內(nèi)提供數(shù)倍于傳統(tǒng)NPU的等效算力,同時還能把成本和功耗降下來,更有利于端側(cè)和邊緣側(cè)AI地落地。
當(dāng)然,在AI落地的過程中,除了要解決內(nèi)存墻和功耗墻問題以外,還需要考慮算法和硬件的結(jié)合問題。尤其是在端側(cè)和邊緣側(cè),芯片天生就和場景有一種弱耦合的關(guān)系,所以愛芯元智在設(shè)計AI視覺芯片時,采用了從應(yīng)用到算法再到NPU的聯(lián)合優(yōu)化設(shè)計。
我們看到,今年4月,愛芯元智AX650N已經(jīng)第一時間完成Llama 3、Phi-3、Llama 2、TinyLlama、Phi-2、Qwen1.5、ChatGLM3等國內(nèi)外主流的開源大語言模型適配,而完成這些適配的前提,正式AX650N原生支持transformer,并完成了現(xiàn)有NPU工具鏈針對大語言模型的支持和調(diào)優(yōu)。
此外,近期我們看到愛芯通元V4(AX630C)已經(jīng)跑通了通義千問(Qwen2.0),這個僅百元左右的模組,就能跑通義千問0.5B的模型,并解決生活中端側(cè)的一些問題,這意味著大模型在人機(jī)交互方面落地已經(jīng)成為可能。
寫在最后
仇肖莘在2024 WAIC上表達(dá)了一個愿景:“讓黑光全彩相機(jī),布滿田間地頭,讓每一分駕駛需求,都享受AI的服務(wù),高效AI處理器,令邊緣智能觸手可及?!?/p>
圖 | 愛芯元智生態(tài)展示,來源:愛芯元智
然而,摩爾定律放緩,每個晶體管的價格已經(jīng)不再下降,所以在硬件上一定要做減法,來降低硬件成本和軟件開發(fā)的難度,這有這樣才能實(shí)現(xiàn)AI普惠。而愛芯元智的策略是通過平臺技術(shù)來均攤成本,最終實(shí)現(xiàn)降本增效,惠利更多客戶。