• 正文
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

蔚來5納米自動駕駛芯片分析

2024/01/02
6085
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

2023年12月23日,NIO DAY上,蔚來推出了新旗艦車型ET9,同時(shí)也介紹了蔚來自主研發(fā)的自動駕駛芯片神璣NX9031,并宣布2025年ET9將量產(chǎn),搭載這款NX9031。

目前對于這款芯片,蔚來僅公布了如上圖中的信息,不過這已經(jīng)足夠做深度分析了。關(guān)鍵點(diǎn)包括5納米工藝,超過500億晶體管,使用LPDDR5X存儲,32核心CPU配置,且是大小核配置,高動態(tài)ISP,位寬26比特,像素處理能力6.5GPixel/s,支持ASIL-D級安全。

現(xiàn)在芯片行業(yè)是IP時(shí)代,只要舍得花錢,自動駕駛SoC需要的IP都可以買得到,蔚來能做出來5納米芯片并不令人驚訝。能做5納米芯片代工的只有臺積電和三星,蔚來找三星代工的可能性更高,一來臺積電代工價(jià)格至少是三星的兩倍,二來三星的5納米客戶稀缺,車規(guī)級更是稀缺,臺積電有大量高通5納米車規(guī)芯片訂單,產(chǎn)能可能還比較緊張,三星僅有安霸一家,產(chǎn)能肯定非常充裕。

智能駕駛芯片排名并不簡單只看AI算力,存儲帶寬和AI算力數(shù)值一樣重要,CPU算力也很重要,智能駕駛系統(tǒng)軟件異常復(fù)雜,會消耗大量的CPU運(yùn)算資源,軟件系統(tǒng)包含眾多中間件諸如SOME/IP、自適應(yīng)AUTOSAR、DDS、ROS等,基礎(chǔ)軟件包括訂制的Linux BSP、OS抽象層、虛擬機(jī),還有與底層硬件關(guān)聯(lián)的內(nèi)存管理、各種驅(qū)動、各種通訊協(xié)議等等。除此之外,應(yīng)用層中的路徑規(guī)劃、高精度地圖、行為決策等也大量消耗CPU資源,同時(shí)CPU也管理AI運(yùn)算時(shí)的任務(wù)調(diào)度、存儲搬運(yùn)指令等,整體的任務(wù)調(diào)度,決策自然也是CPU的任務(wù)。CPU是絕對的核心,AI是CPU的附屬功能,只是在做圖像特征提取、分類、BEV變換、矢量地圖映射或空間分布占有時(shí)才用到AI。

排名的權(quán)重依次是AI算力、存儲帶寬、CPU算力、GPU算力、制造工藝。存儲帶寬和AI算力同等權(quán)重,GPU也是錦上添花,大部分車載AI處理部分只能對應(yīng)INT8位數(shù)據(jù),而GPU可以對應(yīng)FP32數(shù)據(jù),有些時(shí)候可能有很大作用。實(shí)際AI算力數(shù)字完全是個(gè)黑箱,有些廠家寫的是等效于多少算力,這里面操作空間極大,參考意義不大。最能準(zhǔn)確衡量算力的是MAC陣列數(shù)量,谷歌的TPU V1是65000個(gè)FP16 MAC,運(yùn)行頻率0.7GHz,那么算力就是65000*0.7G*2=91TOPS。特斯拉第一代FSD兩個(gè)NPU,每個(gè)NPU是9216個(gè)INT8 MAC,運(yùn)行頻率是2GHz,算力就是2*2*2G*9216=73.7TOPS。制造工藝方面,自然還是越先進(jìn),功耗越低。

圖片來源:Synopsys

上圖是SYNOPSYS推出的一款I(lǐng)P,最高支持8個(gè)NPU,達(dá)到3500TOPS的算力,單個(gè)NPU有高達(dá)96000個(gè)MAC,運(yùn)行頻率1.3GHz,2*1.3G*96000=249.6TOPS的算力,這個(gè)顯然是稠密值,如果是稀疏EDSR模式,那么算力會增加大約76%,即440TOPS。

蔚來NX9031未公布算力,有人認(rèn)為NX9031是代替4片英偉達(dá)Orin的,算力自然是4*254=1008TOPS。這就大錯(cuò)特錯(cuò)了,4片英偉達(dá)Orin如果是用以太網(wǎng)交換機(jī)連接,那么算力頂多增加20%,4片也就是大約300TOPS。想要算力增加4倍付出的成本遠(yuǎn)超4片Orin。

通過英偉達(dá)DGX級聯(lián)8個(gè)GPU的例子來看看如何級聯(lián)芯片。

英偉達(dá)DGX系統(tǒng)的示意圖

英偉達(dá)DGX系統(tǒng)有8個(gè)GPU也就是8張顯卡級聯(lián),首先GPU是無法單獨(dú)工作的,必須配合CPU才能工作。GPU之間是通過NVLink連接的,CPU與GPU之間是通過PCIe交換機(jī)連接的。

圖片來源:NVIDIA

目前第四代NVLink的帶寬是900GB/s,那么以太網(wǎng)交換機(jī)帶寬是多少?以目前量產(chǎn)最頂級以太網(wǎng)交換機(jī)88Q5192來說,下行端口帶寬一般是1Gb/s,也就是0.125GB/s,與NVLink有天壤之別,即便不看上行或下行,目前主流的以太網(wǎng)交換最高也就1.25GB/s,通常這種帶寬的端口不超過兩個(gè)。

想要媲美NVLink,讓4個(gè)Orin就是4倍算力,可以考慮博通的Qumran3D的路由交換芯片,它的上行帶寬高達(dá)3200GB/s,也就是25.6Tb/s,價(jià)格驚人,超過1萬美元。不過Orin芯片最高也只支持1.25GB/s的以太網(wǎng),Qumran3D是無法使用的。

再來看存儲,蔚來把LPDDR5X特別點(diǎn)出來,但沒說芯片存儲位寬,也就無法得知存儲帶寬了。

歷代LPDDR的參數(shù)

圖片來源:公開資料整理

目前業(yè)內(nèi)大多數(shù)是采用LPDDR5或LPDDR4,LPDDR5X畢竟是2021年才有標(biāo)準(zhǔn)的(實(shí)際2020年就有產(chǎn)品了),最高帶寬8533MT/s,不過比LPDDR5X高的GDDR6已經(jīng)有百度和特斯拉在用了,還有更高的HBM。

蔚來未給出位寬,估計(jì)位寬是128-256比特,存儲帶寬也就是136-273GB/s。那廠家為何不把位寬做高一點(diǎn),很簡單,會增加成本,芯片的成本就是die size,位寬越高,對應(yīng)的內(nèi)存控制器die size就增加越多,成本就增加越多。

蘋果M3系列芯片

蘋果M3的位寬僅128比特,M3 Pro是192比特,M3 Max是512比特,從上圖不難看出M3 Max的內(nèi)存控制器占的die size遠(yuǎn)比M3和M3 Pro大十幾倍乃至幾十倍以上,也就是存儲位寬的增加會導(dǎo)致成本暴增,也是大多數(shù)廠家寧肯多放一些cache,也不愿意增加存儲位寬的原因。

2023年初LPDDR進(jìn)一步升級,出現(xiàn)了LPDDR5T,聯(lián)發(fā)科的天璣9300第一個(gè)使用。

接下來看ISP(Image Signal Processor),早期有不少獨(dú)立的外置ISP芯片,近期大多集成在SoC內(nèi),因?yàn)殡S著AI應(yīng)用的大量出現(xiàn)和像素的飛速增加,外置ISP芯片延遲會比較明顯。典型的ISP通常會對攝像頭輸出的RAW數(shù)據(jù)先做黑電平矯正(BLC)、壞點(diǎn)矯正(DPC)、數(shù)字增益(Dgain)、鏡頭陰影矯正(LSC)等必要處理。然后通過去馬賽克(DM)插值恢復(fù)出全彩色圖像,在RGB域完成色彩矩陣矯正(CMC)、伽馬矯正(GMA)。最后轉(zhuǎn)到Y(jié)UV域,進(jìn)行銳度(SHP)、對比度(CON)、顏色飽和度(SAT)等調(diào)整后輸出。在整個(gè)ISP pipeline中間會插入若干降噪(NR)模塊。

ISP流程

Orin內(nèi)部也是有ISP的,處理像素的速度是1.85Gpixel/s,蔚來的NX9031達(dá)到了6.5Gpixel/s,是Orin的3倍還多。不過這不算什么,手機(jī)領(lǐng)域的ISP更高。

聯(lián)發(fā)科天璣9000的ISP

上圖是聯(lián)發(fā)科天璣9000的ISP,高達(dá)9Gpixel/s,高通的一般會低一點(diǎn)。pixel/s越高意味著對應(yīng)的攝像頭像素可以越高,基本上1.3Gpixel/s就可對應(yīng)1億像素?cái)z像頭,但圖像會有壓縮,完全不壓縮的話,3.2Gpixel/s可以對應(yīng)1億像素。蔚來可以對應(yīng)2億像素。

至于ISP的位寬,很少人提及,天璣9000的位寬是18比特,蔚來是26比特,高出不少,不過大部分圖像傳感器的位寬也只有10或12比特。位寬主要是ADC的動態(tài)范圍決定,以索尼IMX490為例,當(dāng)ADC是10比特時(shí),幀率40fps,12比特時(shí),幀率30fps。ISP的位寬越高意味著幀率可以越高。

最后來看CPU,CPU被蔚來重點(diǎn)標(biāo)明,高達(dá)615kDMIPS的算力的確是無敵的。Orin的CPU算力是228kDMIPS,Orin是用了12個(gè)ARM Cortex-A78AE核心,ARM目前為汽車行業(yè)設(shè)計(jì)的大核心只有Cortex-A78AE,蔚來極有可能也是用Cortex-A78AE,Orin的L2緩存是3MB,L3緩存是6MB,運(yùn)行頻率是2.0-2.2GHz之間,也就是每個(gè)核心貢獻(xiàn)19kDMIPS的算力。蔚來是5納米工藝,運(yùn)行頻率和緩存都可以更高一點(diǎn),估計(jì)最高可以達(dá)到每核心24kDMIPS的算力,估計(jì)大核心是20個(gè),小核心還是常見的Cortex-A55,有12個(gè)。合起來算力就是615kDMIPS。

至于ASIL-D級功能安全,添加一個(gè)MCU核心島即可,一般是2到4個(gè)Cortex-R52做鎖步,高通SA8255、SA8755就是這種設(shè)計(jì)。

蔚來第一次做芯片就達(dá)到全球第三的水平,難能可貴。

免責(zé)說明:本文觀點(diǎn)和數(shù)據(jù)僅供參考,和實(shí)際情況可能存在偏差。本文不構(gòu)成投資建議,文中所有觀點(diǎn)、數(shù)據(jù)僅代表筆者立場,不具有任何指導(dǎo)、投資和決策意見。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險(xiǎn)等級 參考價(jià)格 更多信息
ADG706BRUZ-REEL7 1 Rochester Electronics LLC 16-CHANNEL, SGL POLE SGL THROW SWITCH, PDSO28, TSSOP-28
$7.27 查看
LTC6995IS6-2#TRMPBF 1 Analog Devices Inc LTC6995IS6-2#TRMPBF

ECAD模型

下載ECAD模型
$4.03 查看
ADG1414BCPZ-REEL7 1 Analog Devices Inc 9.5 Ω RON ±15 V/+12 V/±5 V iCMOS Serially-Controlled Octal SPST Switches

ECAD模型

下載ECAD模型
$7.15 查看
蔚來汽車

蔚來汽車

蔚來是一家全球化的智能電動汽車公司,于2014年11月成立。蔚來致力于通過提供高性能的智能電動汽車與極致用戶體驗(yàn),為用戶創(chuàng)造愉悅的生活方式。

蔚來是一家全球化的智能電動汽車公司,于2014年11月成立。蔚來致力于通過提供高性能的智能電動汽車與極致用戶體驗(yàn),為用戶創(chuàng)造愉悅的生活方式。收起

查看更多

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄