作者 | 包永剛
編輯 | 王川
CIPU成武林爭(zhēng)霸焦點(diǎn)的背后,是對(duì)下一代云計(jì)算標(biāo)準(zhǔn)定義權(quán)的爭(zhēng)奪。
暗流涌動(dòng)的云計(jì)算市場(chǎng),正在醞釀一場(chǎng)“華山論劍”,這場(chǎng)對(duì)決的關(guān)鍵正是炙手可熱的新型云數(shù)據(jù)中心專用處理器。
這場(chǎng)對(duì)決,氣氛正在變得熱烈,前有英偉達(dá)讓DPU(Data Processing Unit)概念一炮而紅,后有英特爾與谷歌合作,祭出IPU(Infrastructure Processing Unit)強(qiáng)勢(shì)接招。
本周,阿里云帶著新發(fā)布的CIPU(Cloud infrastructure Processing Units)處理器,以強(qiáng)者的姿態(tài)闖入了云計(jì)算3.0時(shí)代“華山論劍”的武林大會(huì)。
實(shí)際上,功能上看,CIPU、DPU、IPU、CIPU大抵相仿,都是為新型云數(shù)據(jù)中心設(shè)計(jì)的專用處理器。阿里云認(rèn)為,未來CIPU將替代CPU成為云計(jì)算的管控和加速中心。
同一本武功秘籍,卻生出了三套武功。這場(chǎng)“論劍”的輸贏,絕不止在功夫上見高低。
云計(jì)算巨頭們真正在爭(zhēng)奪的,是下一代云計(jì)算標(biāo)準(zhǔn)的定義權(quán),成為新時(shí)代的“武林盟主”。
阿里云的加入,讓這場(chǎng)武林大會(huì)變得更加有趣。
畢竟,中國(guó)工程院院士、清華大學(xué)鄭緯民教授對(duì)阿里云最新發(fā)布的CIPU也贊賞有佳,他認(rèn)為,“CIPU完全打破上一代計(jì)算架構(gòu),是在基礎(chǔ)技術(shù)上實(shí)現(xiàn)了世界領(lǐng)先的云數(shù)據(jù)中心專用處理器。”
CIPU,將如何打開云計(jì)算的新戰(zhàn)場(chǎng)?
阿里云智能總裁張建鋒發(fā)布CIPU
云計(jì)算正邁入3.0時(shí)代,IPU/DPU/CIPU成新戰(zhàn)場(chǎng)
CIPU、IPU、DPU對(duì)于大部分人而言是新概念,但對(duì)于全球領(lǐng)先的云服務(wù)提供商們,已然成為了必爭(zhēng)之地。
因?yàn)?,這一全新的處理器已經(jīng)成為了大型云服務(wù)提供商們進(jìn)入云計(jì)算3.0時(shí)代的關(guān)鍵。
阿里云智能總裁張建鋒認(rèn)為,過去十多年,云計(jì)算技術(shù)經(jīng)歷了兩個(gè)發(fā)展階段:第一階段是分布式和虛擬化技術(shù)替代了大型機(jī),滿足了當(dāng)時(shí)企業(yè)所需的算力規(guī)模;第二階段出現(xiàn)了資源池化技術(shù),以阿里巴巴為例,通過計(jì)算存儲(chǔ)分離架構(gòu),將計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源分別池化,突破了規(guī)模和穩(wěn)定性的瓶頸,提供了超大規(guī)模的云計(jì)算服務(wù)。
“隨著數(shù)據(jù)密集型計(jì)算場(chǎng)景的普及,用戶對(duì)低時(shí)延、高帶寬的需求也越來越高,傳統(tǒng)以CPU為中心的計(jì)算體系架構(gòu)無法適應(yīng)這一趨勢(shì)。為了解決這一問題,阿里云相關(guān)研發(fā)團(tuán)隊(duì)早在2015年就開始技術(shù)攻關(guān),不斷深入計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)核心技術(shù),深入垂直整合,才演進(jìn)出以CIPU為中心的全新架構(gòu)形態(tài),云計(jì)算開始進(jìn)入第三階段。” 張建鋒同時(shí)表示。
傳統(tǒng)以CPU為中心的云計(jì)算架構(gòu)中,CPU不僅需要承擔(dān)計(jì)算任務(wù),還要負(fù)責(zé)邏輯控制,隨著數(shù)據(jù)密集型計(jì)算越來越多,這種架構(gòu)會(huì)導(dǎo)致計(jì)算和網(wǎng)絡(luò)傳輸?shù)臅r(shí)延大,并且無法提供高帶寬,研發(fā)全新的CIPU//IPU/DPU加速計(jì)算芯片,才能滿足越來越多數(shù)據(jù)密集型計(jì)算需求成為了業(yè)界共識(shí),這也成了云計(jì)算巨頭們的新戰(zhàn)場(chǎng)。
中科馭數(shù)CEO鄢貴海說:“DPU誕生的背景是帶寬與計(jì)算性能的增速失調(diào)。CPU的性能從5-10年前每年30%的增幅,到三年前大概只有每年不到3%的性能增幅。而網(wǎng)絡(luò)帶寬每年依舊還有35%左右的增長(zhǎng)。處理性能和帶寬增速的比例從原來的大概1:1,變成了現(xiàn)在的1:10左右。”
大禹智芯CEO李爽指出,“當(dāng)有10倍以上的差距時(shí),就需要思考新的架構(gòu)。DPU實(shí)際上是架構(gòu)轉(zhuǎn)移。”
可以看到,無論是傳統(tǒng)芯片巨頭,還是云服務(wù)提供商,還有初創(chuàng)公司,都在近幾年涌入了這一賽道。據(jù)雷峰網(wǎng)了解,全球頭部的云服務(wù)提供商都在自研DPU。但阿里云自研的CIPU,優(yōu)勢(shì)突出。
2、CIPU有何獨(dú)特之處?
與CPU和GPU這類通用計(jì)算芯片有著顯著區(qū)別,DPU/IPU/CIPU是典型的應(yīng)用驅(qū)動(dòng)型芯片。既然是應(yīng)用驅(qū)動(dòng)型芯片,軟硬件的融合以及對(duì)應(yīng)用場(chǎng)景的理解就至關(guān)重要。
阿里云虛擬化技術(shù)負(fù)責(zé)人蔣林泉說,“CIPU是我們根據(jù)業(yè)務(wù)定義的芯片,向上接入飛天云操作系統(tǒng),將全球數(shù)百萬臺(tái)服務(wù)器連成一臺(tái)超級(jí)計(jì)算機(jī),向下對(duì)數(shù)據(jù)中心的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)資源快速云化并進(jìn)行硬件加速。我們自研的CIPU能夠更精準(zhǔn)解決云操作系統(tǒng)中管理、控制、調(diào)度,以及部分核心業(yè)務(wù)加速的問題。”
CIPU架構(gòu)示意圖
那CIPU是IPU和DPU的綜合體嗎?阿里云技術(shù)產(chǎn)品負(fù)責(zé)人蔣江偉認(rèn)為,“這種說法對(duì),也不對(duì)。如果單拿出一個(gè)IPU或者DPU,它沒有類似飛天這樣的操作系統(tǒng),其實(shí)沒那么大價(jià)值。CIPU天然需要跟云計(jì)算操作系統(tǒng)才能產(chǎn)生一個(gè)價(jià)值。”
多位業(yè)界人士也對(duì)雷峰網(wǎng)表示,DPU作為應(yīng)用驅(qū)動(dòng)的芯片,與云計(jì)算服務(wù)提供商基礎(chǔ)架構(gòu)的融合程度是DPU成功的關(guān)鍵。實(shí)際上,不同的云服務(wù)提供商底層軟硬件架構(gòu)不同,所以外部芯片設(shè)計(jì)公司設(shè)計(jì)的DPU/IPU很難與云服務(wù)提供商完美適配,像阿里云這樣體量足夠大的云服務(wù)提供商自研CIPU優(yōu)勢(shì)明顯。
但相比同樣是云服務(wù)提供商自研的芯片,比如AWS,阿里云的CIPU又有何獨(dú)特之處?
蔣林泉認(rèn)為:“我們都邁入了類似的新階段,但在不同的市場(chǎng)里,我們看到的風(fēng)景不太一樣。首先,產(chǎn)品的性能上,CIPU無論是計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的性能都遠(yuǎn)超其它產(chǎn)品,這是因?yàn)閲?guó)內(nèi)客戶對(duì)性能和性價(jià)比的追求非常極致,也與我們對(duì)垂直技術(shù)棧的深入有關(guān)。另一方面,我們與海外云服務(wù)提供商面向的客戶也有明顯不同,國(guó)外有很多成熟的企業(yè)用戶,而國(guó)內(nèi)有許多中小客戶,他們更需要普惠的服務(wù)。”
當(dāng)然,要證明CIPU在實(shí)際應(yīng)用中帶來的價(jià)值,數(shù)據(jù)是最為直觀的體現(xiàn)。要知道,在擁有CIPU和飛天操作系統(tǒng)的新一代云計(jì)算架構(gòu)體系下,阿里云的計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的性能實(shí)現(xiàn)了全面飛躍。
計(jì)算層面,CIPU能夠快速接入不同類型資源的神龍計(jì)算平臺(tái),帶來算力的“0”損耗,以及硬件級(jí)安全的加固隔離。
體現(xiàn)在不同的場(chǎng)景中,主流通用計(jì)算場(chǎng)景下,Nginx性能提升了89%,Redis性能提升了68%、MySQL提升了60%。大數(shù)據(jù)和AI 場(chǎng)景下,AI深度學(xué)習(xí)場(chǎng)景訓(xùn)練性能提升30%,Spark計(jì)算性能提升30%。
CIPU與網(wǎng)絡(luò)的結(jié)合,基礎(chǔ)帶寬從100G升級(jí)至200G,網(wǎng)絡(luò)時(shí)延從22us降低至16us,RDMA協(xié)議下更可低至5.5us。
特別值得一提的是,CIPU能夠?qū)Ω邘捨锢砭W(wǎng)絡(luò)進(jìn)行硬件加速,通過建設(shè)大規(guī)模的eRDMA分布式高性能網(wǎng)絡(luò),讓一般只有在超算里才能使用的“貴族化”技術(shù)RDMA在阿里云中普惠化。
CIPU與存儲(chǔ)的結(jié)合,對(duì)存算分離架構(gòu)的塊存儲(chǔ)接入進(jìn)行硬件加速,云盤存儲(chǔ)IOPS最高可達(dá)300萬,長(zhǎng)尾時(shí)延降低50%,全面超越市面上所有云產(chǎn)品,云端能提供比本地更安全可靠且高性能的存儲(chǔ)能力。
CIPU帶來的云計(jì)算核心三要素計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)性能的全面提升,不僅會(huì)對(duì)云、對(duì)數(shù)據(jù)中心內(nèi)部產(chǎn)生影響,也會(huì)改變傳統(tǒng)計(jì)算機(jī)終端、以及軟件應(yīng)用分發(fā)的形態(tài)。同時(shí)也意味著,云計(jì)算正在進(jìn)入下一個(gè)時(shí)代。
阿里云認(rèn)為,新一代的云計(jì)算要從數(shù)據(jù)中心的內(nèi)部做體系化創(chuàng)新,從以往的以CPU為中心的體系架構(gòu),進(jìn)入以CIPU為中心的體系架構(gòu)。
3、CIPU之爭(zhēng)背后,是下一代云計(jì)算標(biāo)準(zhǔn)的定義權(quán)爭(zhēng)奪
云計(jì)算體系架構(gòu)的變化,也將引發(fā)下一代云計(jì)算標(biāo)準(zhǔn)的定義權(quán)之爭(zhēng)。過去的經(jīng)驗(yàn)告訴我們,只有業(yè)界的佼佼者才能擁有定義標(biāo)準(zhǔn)的權(quán)利。
“今天我們可以清晰得看到,阿里云做到了軟硬件完美結(jié)合,成為‘飛天+CIPU’支撐的云計(jì)算技術(shù)體系”,張建鋒說,“阿里云核心技術(shù)一直走在世界前列,這個(gè)新型體系是技術(shù)長(zhǎng)征路上的新的里程碑,這個(gè)新型的技術(shù)體系正在定義下一代云計(jì)算架構(gòu)。”
阿里云有這樣的底氣,關(guān)鍵在于過去13年核心技術(shù)的自研,構(gòu)建出了自研芯片、服務(wù)器、計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等軟硬一體的新型計(jì)算體系架構(gòu)。2003年圖靈獎(jiǎng)得主Alan Kay曾說過,只要你是真正認(rèn)真對(duì)待軟件的人,就應(yīng)該自己做硬件,才能夠獲得差異化的體驗(yàn)。
操作系統(tǒng)和軟件是離最終用戶最近的產(chǎn)品,只有對(duì)它有深刻的認(rèn)知,才能提供有差異化和有競(jìng)爭(zhēng)力的產(chǎn)品。
阿里云正是選擇了這樣的自研之路,首先自研了中國(guó)唯一的云操作系統(tǒng)——飛天,將遍布全球的上百萬臺(tái)服務(wù)器連接成一臺(tái)超級(jí)計(jì)算機(jī),單集群可達(dá)10萬臺(tái)規(guī)模,千億級(jí)文件數(shù),EB級(jí)別存儲(chǔ)空間。
有了云操作系統(tǒng)飛天,想要進(jìn)一步提升就需要由上而下,從系統(tǒng)到軟件再到硬件掌握核心技術(shù)。這又回到了計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)三大要素。
在計(jì)算層,為了解決服務(wù)器長(zhǎng)久以來的虛擬化性能損耗的問題,阿里云自主研發(fā)了神龍架構(gòu)。在存儲(chǔ)層,阿里自研的分布式存儲(chǔ)系統(tǒng)盤古,采用了分布式系統(tǒng)先進(jìn)的容錯(cuò)架構(gòu)和柔性平臺(tái)設(shè)計(jì),大幅提高了存儲(chǔ)系統(tǒng)的可靠性和安全性。網(wǎng)絡(luò)層,阿里云自研的絡(luò)神韻網(wǎng)絡(luò)支撐起百萬級(jí)的用戶業(yè)務(wù)部署,讓更多能夠人體驗(yàn)到云計(jì)算帶來的高效便捷服務(wù)。
阿里云還通過自研數(shù)據(jù)庫(kù)PolarDB,進(jìn)一步提升可用性、并發(fā)處理、彈性能力,能夠高效應(yīng)對(duì)“雙11”般的流量洪峰。
在此基礎(chǔ)上,阿里云去年發(fā)布了自研的磐久服務(wù)器和龍蜥操作系統(tǒng),磐久服務(wù)器采用了最新型的模塊化設(shè)計(jì),帶來了服務(wù)器交付效率提升50%。龍蜥操作系統(tǒng)性能大幅提升的同時(shí),支持x86、ARM、龍芯(LoongArch)等多種芯片架構(gòu)和計(jì)算場(chǎng)景,也讓阿里云成為全球支持CPU種類最多的云廠商。
去年阿里云發(fā)布的倚天710 CPU,由于是針對(duì)云計(jì)算設(shè)計(jì)的產(chǎn)品,更是能夠帶來業(yè)界領(lǐng)先的極致性能。今年發(fā)布的CIPU,是阿里云自然而然的選擇,更是認(rèn)真對(duì)待軟件走向硬件自研的正確路徑。
過去多年的自研,已經(jīng)讓阿里云站在了云計(jì)算領(lǐng)域的山峰。最新發(fā)布的自研產(chǎn)品CIPU,讓阿里云擁有了承接上層飛天操作系統(tǒng)和底層計(jì)算、網(wǎng)絡(luò)、存儲(chǔ)的最強(qiáng)連接,再一次打破數(shù)據(jù)中心瓶頸,帶領(lǐng)數(shù)據(jù)中心從以CPU為中心轉(zhuǎn)向以CIPU為中心,推動(dòng)云計(jì)算向3.0時(shí)代邁進(jìn)。
在云計(jì)算的新階段,阿里云將擁有定義下一代云計(jì)算標(biāo)準(zhǔn)的實(shí)力,有機(jī)會(huì)站上全球云計(jì)算領(lǐng)域之巔。