手機(jī)之王奪下桌面設(shè)備的王冠,那么代價(jià)呢?
一周多前,水果公司更新了MacBook產(chǎn)品線。
在放出了2021版格型MacBook Pro系列的同時(shí),更是繼去年首發(fā)桌面級(jí)M1處理器之后,拓展出性能更加強(qiáng)悍的M1 Pro和M1 Max系列芯片。
19日線上發(fā)布會(huì)那會(huì),C次元沒有跟進(jìn)。彼時(shí),我們雖然有點(diǎn)想法,但眾多疑惑和猜測(cè),還需要等測(cè)評(píng)數(shù)據(jù)來進(jìn)行驗(yàn)證。當(dāng)然現(xiàn)在,隨著越來越多的信息以及測(cè)評(píng)陸續(xù)放出,有些話終于是可以講了。
首先,深度解讀一下蘋果在發(fā)布會(huì)上的性能對(duì)比圖吧。注意,蘋果畢竟是蘋果,和部分廠商為了對(duì)比圖好看而找軟柿捏完全不同的是,庫(kù)克這一次是直接對(duì)標(biāo)現(xiàn)階段頂級(jí)的游戲筆記本微星 GP66 Leopard——
測(cè)試對(duì)標(biāo)的是微星 GP66 Leopard (11UG-018),采用的是Intel的11代i7-11800H處理器,國(guó)內(nèi)售價(jià)超過13,000元。M1 Pro/Max的CPU在同功耗下,性能是i7-11800H的1.7倍。
而在面對(duì)同樣GP66時(shí),僅僅“大杯”的M1 Pro就能用30w左右的功耗,實(shí)現(xiàn)其配備的RTX3070型圖形處理器100w功耗才能達(dá)到的性能。
而更高級(jí)的M1 Max處理器則直接找上了頂級(jí)游戲本雷蛇Blade 15 Advanced“麻煩”??磮D,在60w功耗下,“超大杯”M1 Max處理器的GPU部分,其性能已堪比RTX3080的160w狀態(tài)。
那么,目前爆出的跑分?jǐn)?shù)據(jù)呢?
從最新曝光的Geekbench 5跑分?jǐn)?shù)據(jù)來看,頂配 M1 Max 的單核跑分為1749,多核達(dá)到了11542,幾乎是M1芯片的兩倍,與2019款Mac Pro高配版(搭載12核 Intel至強(qiáng)W-3235處理器)相差無幾。
01、往死里“擠牙膏”的蘋果
“擠牙膏”,是市場(chǎng)和用戶相當(dāng)一段時(shí)間來,對(duì)Intel企業(yè)策略的一種調(diào)侃。
從2008年到 2017年長(zhǎng)達(dá)9年時(shí)間,Intel處理器更新了7代,在消費(fèi)者市場(chǎng)一直是i3雙核4線程,i5四核四線程,i7四核八線程的步調(diào),每一代比上代同頻性能提升3%-5%,雷打不動(dòng)。
久而久之,Intel也得到了一個(gè)“牙膏廠”的外號(hào)。
蘋果自研桌面端芯片的初始動(dòng)機(jī),筆者無從知曉,但無論如何,相信至少有一部分原因是對(duì)這其“擠牙膏”策略忍無可忍。只不過這一次,蘋果擠得實(shí)在大力了一些,不但擠兌到了“牙膏廠”,甚至順帶狠狠惡心了一把皮衣老黃和蘇媽。
下面,讓我們細(xì)品下蘋果M1系列的“中杯”“大杯”和“超大杯”。
CPU部分,10核心的M1Pro/M1Max由8個(gè)性能核心和2個(gè)能效核心構(gòu)成。
可能很多人對(duì)這幾張圖沒有直觀感受,最左邊最小的是基礎(chǔ)款蘋果M1處理器,他的晶體管總數(shù)是160億,采用了臺(tái)積電N5工藝制造,而安卓端目前主流的旗艦芯片驍龍888在算上基帶后其晶體管總數(shù)也不過100億,采用的還是稍差的三星5LPE工藝。
▲M1、M1 Pro、M1 Max處理器核心X光圖
而右邊兩個(gè),大杯M1 Pro和超大杯M1 Max,其總晶體管數(shù)目來到了驚人的337億和570億,(幾天前阿里巴巴公布的128核服務(wù)器專用芯“倚天”擁有600億晶體管)一個(gè)M1Max的晶體管數(shù)量相當(dāng)于6塊手機(jī)端的驍龍888。
先來細(xì)品一下“超大杯”的M1 Max。
其中CPU部分為超寬執(zhí)行架構(gòu),性能核心擁有192KB的指令緩存,128KB的數(shù)據(jù)緩存和高達(dá)24MB(12MB*2)的二級(jí)緩存,而2個(gè)能效核心則同樣擁有128KB指令緩存,64KB數(shù)據(jù)緩存和4MB的L2緩存。其能效核心緩存的富裕程度,已經(jīng)超越了大多數(shù)安卓端所有手機(jī)SOC的超大核。
而在這樣超額的晶體管背后,還有著恐怖的性能和外圍電路。
▲M1 Max 芯片X光照片
最顯眼的,莫過于32核心蘋果自研GPU核心陣列,整齊地排列在處理器的中心,由控制器和總線連接著,旁邊是面積極大的片上SLC緩存,如果每一個(gè)緩存區(qū)域的大小是16M,整個(gè)處理器的SLC緩存可以達(dá)到64M。
盡管并不恰當(dāng),但這里可以拉來作個(gè)對(duì)比——目前主流安卓旗艦的處理器驍龍888,其L3緩存大小僅為4M!
左右兩邊則是4組128bit寬度的LPDDR5內(nèi)存控制器,共同組成了M1 Max“毀天滅地”的內(nèi)存最大帶寬,在滿配64G片上LPDDR5 6400內(nèi)存的前提下,最大帶寬達(dá)到了驚人的409.6GB/s。
而與之對(duì)比,桌面端intel的11代處理器11800H的最大內(nèi)存帶寬僅為51.2GB/s,這在一些內(nèi)存帶寬敏感的深度學(xué)習(xí)應(yīng)用中將會(huì)提供無與倫比的硬件優(yōu)勢(shì)。
說完“超大杯”,繼續(xù)看看“大杯”的M1 Pro。
M1Pro則是M1 Max這個(gè)“巨無霸”砍掉下半部分構(gòu)成的。但是即便如此,其晶體管總數(shù)仍達(dá)到了驚人的337億,并且還保留了32M的SLC緩存和2組128bit LPDDR5內(nèi)存控制器。當(dāng)然,“腰斬”后204.8GB/s的內(nèi)存帶寬依舊驚人。
擠完了“牙膏廠”,再來聊聊對(duì)于蘇媽以及皮衣老黃的沖擊。
如果不考慮各個(gè)架構(gòu)和平臺(tái)的差異以及各個(gè)API的效率差異,僅僅考慮GPU的浮點(diǎn)算力:
滿血的M1 Pro為16核心GPU,浮點(diǎn)算力高達(dá)5.2Teraflops(tflops),足以對(duì)標(biāo)AMD的RX5500顯卡或者NVIDIA的RTX 1660 Ti;
哪怕是小刀的M1 Pro(14核心),算力也達(dá)到了4.6tflops,直接對(duì)標(biāo)筆記本上滿血的RX5500M、RTX1650 Super;
而大哥M1 Max的滿血版更是恐怖如斯——浮點(diǎn)算力10.4TFlops,執(zhí)行單元4096個(gè),并發(fā)線程數(shù)極限98304個(gè),紋理填充率每秒3270億,像素填充率每秒1640億。直接可以對(duì)標(biāo)滿血的RTX2080,或者降低了功耗的縮水版RTX3080。
皮衣老黃贏的如此艱難,至于蘇媽,則需要祭出RX Vega56才能勉強(qiáng)將超越32核心GPU的滿血M1 Max。
在這里,需要再一次強(qiáng)調(diào)一點(diǎn)——正如本文一開始解讀的蘋果發(fā)布會(huì)PPT里的內(nèi)容,追上160w的RTX3080的浮點(diǎn)性能,M1 Max“滿血版”只需要60w的功耗。
02、但是,庫(kù)克,代價(jià)是什么呢?
回顧M1芯片推出之時(shí),那是在2020年的11月,差不多一年前。
彼時(shí)的M1,就擁有和現(xiàn)在M1 Pro/Max一樣的單核心性能,而多核心性能的差距僅僅來自于核心數(shù)量從8變成了10。
GPU部分則更為簡(jiǎn)單,M1擁有最高8個(gè)GPU核心,對(duì)應(yīng)M1 Pro和M1 Max的16核心/32核心,就是單純的1:2:4的性能關(guān)系,無論是3D Mark分?jǐn)?shù)還是浮點(diǎn)算力都是如此。
換而言之就是,在工藝沒有進(jìn)步的前提下,單核心一年時(shí)間沒有任何變化。
如果往回看蘋果A系列處理器的超大核心,每一代的進(jìn)步都是極其可觀的,但是從A12開始,這個(gè)進(jìn)步開始放緩,到A13/M1這一代,蘋果已經(jīng)開始部分依賴代工工藝的進(jìn)步和頻率的提升了。
而蘋果的對(duì)手,不知道是牙膏擠多了還是突然發(fā)力了,幾乎不約而同將在明年推出極其具有競(jìng)爭(zhēng)力的競(jìng)品。
首先是蘋果的老伙伴對(duì)手。
如無意外,2022年將會(huì)是“牙膏廠”GPU爆發(fā)元年。最新的Xe架構(gòu)GPU很快將會(huì)出現(xiàn),在Intel當(dāng)前制程工藝落后于臺(tái)積電(自然也就落后于使用臺(tái)積電先進(jìn)工藝的蘋果)的情況下,Intel仍預(yù)期將實(shí)現(xiàn)相對(duì)于蘋果當(dāng)前對(duì)比基準(zhǔn)線產(chǎn)品“大約一倍”的能效提升。
不要認(rèn)為這是吹牛,以目前泄漏的Intel DG2處理器滿配置512處理單元來看,蘋果在GPU上對(duì)Intel顯卡集群的優(yōu)勢(shì)將會(huì)迅速縮小。
▲未來Intel DG2移動(dòng)端獨(dú)立顯卡的預(yù)估配置與參數(shù)
至于AMD,其RNDA2架構(gòu)也有著超過50%的預(yù)估提升。
目前蘋果在桌面產(chǎn)品上的優(yōu)勢(shì),若以非專業(yè)人士的視角來看,對(duì)于友商競(jìng)品而言堪稱碾壓性。但其代價(jià)就是:核心架構(gòu)在這一年將原地踏步,以及將為超大規(guī)模臺(tái)積電最新制程工藝而付出極高的成本。
須知在芯片設(shè)計(jì)領(lǐng)域,雖然同樣的技術(shù)條件下規(guī)模越大(也就是晶體管數(shù)量越多)某些程度上產(chǎn)品的表現(xiàn)會(huì)變得更好。但是事實(shí)上就半導(dǎo)體產(chǎn)品的技術(shù)指標(biāo)來說,同樣的性能發(fā)揮和功耗下,用的晶體管越少,越說明你的能力強(qiáng)大,因?yàn)檫@意味著企業(yè)能用更低的成本做出來。
半導(dǎo)體作為一個(gè)研發(fā)密集的產(chǎn)業(yè),其研發(fā)投入是固定投入,晶體管數(shù)量則是變動(dòng)投入,隨著產(chǎn)品的量產(chǎn),大家自然希望固定投入占比越高越好,變動(dòng)投入占比越低越好,實(shí)現(xiàn)同樣的功能,自然是晶體管越少越好。
03、蘋果的野望與國(guó)產(chǎn)的方向
很多人關(guān)心蘋果新M1 Pro/Max系列處理器的CPU和GPU性能,但是很多人忽略了蘋果在這幾年一直著重發(fā)力的另一個(gè)領(lǐng)域,NPU,也就是神經(jīng)處理單元。
NPU作為一種專用計(jì)算單元,對(duì)于神經(jīng)網(wǎng)絡(luò),深度學(xué)習(xí)相關(guān)的運(yùn)算相對(duì)于CPU/GPU這樣的通用計(jì)算單元有著他們無法比擬的能效與性能優(yōu)勢(shì),在圖像識(shí)別,自然語言處理這類任務(wù)中NPU往往可以相對(duì)于CPU/GPU用更低的負(fù)載更高的速度更好的完成。
正因?yàn)閮?yōu)點(diǎn)如此顯著,所以在移動(dòng)端的許多未來應(yīng)用中,端側(cè)的NPU算力成為了許多公司的發(fā)展方向。無論是大陸的海思還是紫光,中國(guó)臺(tái)灣的聯(lián)發(fā)科,美國(guó)的高通,亦或者韓國(guó)的三星,他們的移動(dòng)端處理器最近幾年都在朝著強(qiáng)化神經(jīng)網(wǎng)絡(luò)算力的方向發(fā)展,這些算力最終都會(huì)落地。
當(dāng)然,在這一點(diǎn)上,蘋果又走到了大家的前面。以蘋果在iOS 15中更新的“文字識(shí)別”功能為例,蘋果可以直接、實(shí)時(shí),沒有任何延遲地讀取一張照片中的文字信息,并且允許用戶簡(jiǎn)單的將其復(fù)制下來。
與之對(duì)比,類似的功能在安卓端,則通常需要例如小米傳送門或者華為智慧識(shí)屏的特有功能——通過長(zhǎng)按觸發(fā)后經(jīng)過運(yùn)算分析后讀取出來。這背后看似是功能的差異,實(shí)際上是算法和算力的巨大鴻溝,蘋果無感,無延遲,無范圍限制的文字識(shí)別,有非常大的概率是蘋果為未來的可穿戴智能設(shè)備對(duì)外界環(huán)境低功耗全時(shí)段無延遲感知進(jìn)行預(yù)先研發(fā)過程中的一個(gè)簡(jiǎn)單成果落地。
僅僅有感和無感、有延遲和無延遲之間,到底有何差距?
我們不妨想象一下,未來的智能眼鏡允許用戶在轉(zhuǎn)頭一撇中,獲取足夠的信息,并且高效無感的為你處理完畢。因此,用戶就不在需要反復(fù)看一個(gè)公告、反復(fù)記憶一個(gè)地標(biāo)、反復(fù)的閱讀一個(gè)內(nèi)容,更不需要把他拍下來然后逐字逐句的讀取。
未來的智能穿戴設(shè)備或許可以直接幫你進(jìn)行閱讀和理解,拆分和挑選重點(diǎn),在國(guó)外旅游時(shí)的菜單翻譯只需要一看就在瞬間完成替換,復(fù)雜公式的計(jì)算不再需要拍照錄入而是自動(dòng)實(shí)時(shí)的完成,這對(duì)生活的便利程度提升是難以想象的,而這一切的背后都需要強(qiáng)大的算力與算法的支撐。
然而,這或許只是蘋果野心的一小部分。
國(guó)內(nèi)目前在做較為先進(jìn)制程芯片的公司有很多,大多數(shù)都是尋找臺(tái)積電這類代工廠進(jìn)行代工,少數(shù)會(huì)選擇中芯國(guó)際這類國(guó)內(nèi)的代工廠,同時(shí)也有大量的公司在做人工智能/神經(jīng)網(wǎng)絡(luò)相關(guān)的芯片研究與開發(fā),例如寒武紀(jì),地平線,芯原,中星微等等。
這個(gè)方向目前來說是一個(gè)獨(dú)立的,起跑線相對(duì)接近的賽道,不像ARM/X86架構(gòu)下國(guó)內(nèi)與國(guó)外起點(diǎn)就有十年的差距和大量的技術(shù)/專利壁壘,同時(shí)這也是未來社會(huì)快速發(fā)展的方向之一,背后蘊(yùn)含著千億級(jí)別的龐大市場(chǎng)和需求。
微信號(hào)|汽車公社 C次元
作者:秋元明、查攸吟