隨著AI技術(shù)和應(yīng)用迅猛發(fā)展,行業(yè)正面臨日趨加劇的智算供需對(duì)接挑戰(zhàn)。一方面,國(guó)內(nèi)已建設(shè)很多智算資源池,尤其運(yùn)營(yíng)商已在全國(guó)范圍內(nèi)落地多級(jí)算力資源池,迫切需要充分發(fā)揮這些智算資源的作用;另一方面,行業(yè)對(duì)人工智能技術(shù)的投入持續(xù)增加,產(chǎn)生了海量樣本數(shù)據(jù)上傳和日益復(fù)雜的模型訓(xùn)練需求。
如何精準(zhǔn)對(duì)接智算資源供給與行業(yè)需求?智算廣域網(wǎng)成為業(yè)界關(guān)注的焦點(diǎn),其不僅是智算中心與各行各業(yè)之間智算數(shù)據(jù)傳輸的橋梁,更是實(shí)現(xiàn)“網(wǎng)效”與“算效”雙提升的關(guān)鍵基礎(chǔ)設(shè)施。
正是在這樣的背景下,中國(guó)信息通信研究院于12月23日在京舉辦了以“打造超彈性無(wú)損智算IP廣域網(wǎng),加速邁向智能時(shí)代”為主題的“智算IP廣域網(wǎng)產(chǎn)業(yè)交流會(huì)”。會(huì)上,行業(yè)專(zhuān)家們圍繞技術(shù)創(chuàng)新、應(yīng)用實(shí)踐和產(chǎn)業(yè)標(biāo)準(zhǔn)等方面進(jìn)行了深入探討,并聯(lián)合發(fā)布了“智算廣域網(wǎng)發(fā)展倡議”和首批創(chuàng)新成果,充分展示智算IP廣域網(wǎng)實(shí)用性與廣闊的應(yīng)用前景。
智算場(chǎng)景需求旺盛,對(duì)廣域網(wǎng)提出全新挑戰(zhàn)
技術(shù)的發(fā)展離不開(kāi)需求的驅(qū)動(dòng)。對(duì)于智算廣域網(wǎng)的創(chuàng)新發(fā)展,在會(huì)上,中國(guó)工程院鄔賀銓院士和中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)聞庫(kù)理事長(zhǎng)均建議行業(yè)從場(chǎng)景需求和痛點(diǎn)入手,深入探索與創(chuàng)新技術(shù)路徑和業(yè)務(wù)模式。
當(dāng)前智算業(yè)務(wù)具體有哪些場(chǎng)景需求和痛點(diǎn)?“海量樣本入算、存算分離拉遠(yuǎn)訓(xùn)練、跨數(shù)據(jù)中心協(xié)同訓(xùn)練和業(yè)務(wù)推理等典型業(yè)務(wù)需求給傳統(tǒng)網(wǎng)絡(luò)帶來(lái)了全新的挑戰(zhàn),為提升網(wǎng)效與算效,行業(yè)需要通過(guò)廣域超寬、網(wǎng)絡(luò)高吞吐、RDMA長(zhǎng)距無(wú)損、任務(wù)式服務(wù)和差異化體驗(yàn)保障等關(guān)鍵技術(shù)創(chuàng)新推動(dòng)智算廣域網(wǎng)快速發(fā)展?!敝袊?guó)信息通信研究院技術(shù)與標(biāo)準(zhǔn)研究所互聯(lián)網(wǎng)中心高巍主任對(duì)智算廣域網(wǎng)典型業(yè)務(wù)需求和挑戰(zhàn)進(jìn)行了深入分析。
海量樣本入算,指企業(yè)需要將海量樣本數(shù)據(jù)實(shí)時(shí)上傳到智算中心。傳統(tǒng)廣域網(wǎng)主要針對(duì)數(shù)據(jù)量較小的“螞蟻流”設(shè)計(jì)負(fù)載均衡,而樣本入算以GB級(jí)的“大象流”為主,流數(shù)少但單流數(shù)據(jù)量大,且具有強(qiáng)突發(fā)性,若仍采用傳統(tǒng)網(wǎng)絡(luò)的負(fù)載均衡方案,容易引發(fā)鏈路擁塞和負(fù)載不均而造成整網(wǎng)吞吐嚴(yán)重下降。同時(shí),樣本上傳通常需要短時(shí)高帶寬支持,若企業(yè)采用傳統(tǒng)固定帶寬連接方式,會(huì)面臨“低帶寬等不起、高帶寬用不起”的問(wèn)題。因此,海量樣本入算場(chǎng)景要求智算廣域網(wǎng)具備彈性高帶寬和更有效的均衡調(diào)度能力。
存算分離拉遠(yuǎn)訓(xùn)練,指行業(yè)對(duì)敏感數(shù)據(jù)的安全性要求較高,需通過(guò)RDMA協(xié)議直接將樣本數(shù)據(jù)送到智算服務(wù)器的內(nèi)存中進(jìn)行訓(xùn)練,使樣本數(shù)據(jù)不落盤(pán)存儲(chǔ)于第三方算力資源中。然而,RDMA技術(shù)對(duì)丟包極為敏感,千分之一的丟包會(huì)導(dǎo)致計(jì)算效率下降50%以上。因此,智算廣域網(wǎng)需部署RDMA無(wú)損傳輸技術(shù),以確保樣本數(shù)據(jù)遠(yuǎn)距離高吞吐無(wú)損傳輸,算效不下降。
跨數(shù)據(jù)中心協(xié)同訓(xùn)練,指利用網(wǎng)絡(luò)實(shí)現(xiàn)多智算中心協(xié)同計(jì)算,以提升整體算力效率,滿(mǎn)足更大規(guī)模的算力需求。單體智算中心因受制于機(jī)房空間、電力資源等限制,越來(lái)越難滿(mǎn)足呈指數(shù)級(jí)增長(zhǎng)的算力需求,因此跨數(shù)據(jù)中心協(xié)同訓(xùn)練成為了新趨勢(shì)。但該場(chǎng)景面臨RDMA長(zhǎng)距離傳輸對(duì)丟包十分敏感、網(wǎng)絡(luò)傳輸時(shí)延增加等挑戰(zhàn),要求網(wǎng)絡(luò)具備廣域無(wú)損調(diào)度、精準(zhǔn)擁塞控制等能力,以確??缰撬阒行乃阈Р幌陆怠?/p>
業(yè)務(wù)推理場(chǎng)景是利用數(shù)據(jù)和模型為特定業(yè)務(wù)需求提供智能分析和決策支持的實(shí)際應(yīng)用場(chǎng)景。推理業(yè)務(wù)需要網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)數(shù)據(jù)的高效傳輸和模型結(jié)果的實(shí)時(shí)交付,從而支持智能應(yīng)用的快速響應(yīng)。這要求網(wǎng)絡(luò)具備高帶寬、差異化時(shí)延保障、高等級(jí)的安全隔離等能力,以及具備邊緣節(jié)點(diǎn)東西向連接能力。
精準(zhǔn)匹配供需,運(yùn)營(yíng)商加速智算廣域網(wǎng)創(chuàng)新實(shí)踐
需求的滿(mǎn)足離不開(kāi)技術(shù)的創(chuàng)新與突破。當(dāng)前,中國(guó)移動(dòng)、中國(guó)電信和中國(guó)聯(lián)通三大運(yùn)營(yíng)商正加快完善算力布局,建起了覆蓋全國(guó)的多層級(jí)算力中心。為了將這些算力資源充分轉(zhuǎn)化為各行業(yè)可用的智算服務(wù),精準(zhǔn)匹配算力供給與行業(yè)需求,三大運(yùn)營(yíng)商已聚焦場(chǎng)景需求和痛點(diǎn),積極推動(dòng)智算IP廣域網(wǎng)技術(shù)創(chuàng)新與試點(diǎn),并已取得初步成果。
面對(duì)上海全市300多家企業(yè)、40多所高校和研究所以及11個(gè)信息化園區(qū)的用算訴求,上海電信已試點(diǎn)建設(shè)一張端到端400GE IP彈性無(wú)損智算廣域試驗(yàn)網(wǎng)絡(luò),為企業(yè)提供海量樣本高效入算、存算分離拉遠(yuǎn)訓(xùn)練等智算服務(wù)。
上海電信副總工程師張堅(jiān)平表示,該網(wǎng)絡(luò)通過(guò)網(wǎng)絡(luò)高吞吐使能“算得多”,RDMA廣域無(wú)損保障“算得快”,任務(wù)式彈性服務(wù)做到“用得起”,全面匹配智算時(shí)代下新供需關(guān)系帶來(lái)的網(wǎng)絡(luò)訴求。其中,400GE彈性算網(wǎng)通過(guò)端到端部署400GE大帶寬接口技術(shù),將網(wǎng)絡(luò)傳輸能力提升至4倍,并通過(guò)在企業(yè)側(cè)部署智算CPE,可構(gòu)建100Mbps到100Gbps的IP彈性專(zhuān)線(xiàn),滿(mǎn)足企業(yè)通過(guò)一條專(zhuān)線(xiàn)同時(shí)訪(fǎng)問(wèn)多種異構(gòu)算力資源池的需求;長(zhǎng)距RDMA無(wú)損傳輸技術(shù)使網(wǎng)絡(luò)吞吐率逼近400GE線(xiàn)路帶寬,支持廣域超百公里RDMA遠(yuǎn)距離、高吞吐無(wú)損傳輸,算效不下降;結(jié)合網(wǎng)絡(luò)控制器智能調(diào)度和秒級(jí)調(diào)優(yōu)技術(shù),可實(shí)現(xiàn)算力業(yè)務(wù)傳輸質(zhì)量實(shí)時(shí)可視,保障智算業(yè)務(wù)傳輸時(shí)延,有效滿(mǎn)足推理業(yè)務(wù)流量毫秒級(jí)傳輸。
浙江聯(lián)通建設(shè)發(fā)展部總經(jīng)理湯瀅琪分享到,在中國(guó)聯(lián)通服裝制造軍團(tuán)“衣瞳行業(yè)模型”訓(xùn)練場(chǎng)景中,面對(duì)很多服裝廠(chǎng)家有明確的數(shù)據(jù)敏感性要求,希望數(shù)據(jù)不出園區(qū),浙江聯(lián)通通過(guò)IP廣域無(wú)損方案,實(shí)現(xiàn)了杭州存、金華訓(xùn)的“數(shù)據(jù)不落盤(pán)”拉遠(yuǎn)訓(xùn)練。該方案在業(yè)界首次實(shí)現(xiàn)30TB樣本數(shù)據(jù)跨200公里存算分離拉遠(yuǎn)訓(xùn)練,計(jì)算拉遠(yuǎn)效率大于97%,充分驗(yàn)證了存算分離拉遠(yuǎn)訓(xùn)練技術(shù)的可行性。
存算分離拉遠(yuǎn)訓(xùn)練不僅能確保數(shù)據(jù)外部“不落盤(pán)”,還能大幅提升算力資源利用率。重慶移動(dòng)計(jì)劃部副總經(jīng)理劉輕舟在會(huì)上介紹,在重慶,某車(chē)企的全球數(shù)據(jù)中心設(shè)在重慶,并在多個(gè)城市部署智算中心,這種跨區(qū)域的布局面臨兩大痛點(diǎn)和需求:一是傳統(tǒng)“先傳后訓(xùn)”模式導(dǎo)致算力資源利用率低下,約30%的時(shí)間處于閑置狀態(tài);二是敏感數(shù)據(jù)傳輸涉及安全性需求。為此,重慶移動(dòng)聯(lián)合華為創(chuàng)新提出“存算拉遠(yuǎn)”解決方案,利用廣域RDMA無(wú)損網(wǎng)絡(luò)技術(shù)將敏感數(shù)據(jù)直接傳輸?shù)剿懔▋?nèi)存,以“邊傳邊訓(xùn)”的方式不僅確保了數(shù)據(jù)訓(xùn)練后即清理,而且極大降低了算卡閑置率和訓(xùn)練耗時(shí),將傳輸效率提升超過(guò)90%,從而有效解決了大模型訓(xùn)練中的算效與安全性問(wèn)題,為智算IP廣域網(wǎng)賦能智能網(wǎng)聯(lián)汽車(chē)產(chǎn)業(yè)升級(jí)樹(shù)立了標(biāo)桿。
此外,在算間協(xié)同場(chǎng)景,面對(duì)單體智算中心難以滿(mǎn)足超過(guò)10萬(wàn)卡的建設(shè)需求,北京電信正在探索通過(guò)智算廣域網(wǎng)整合京津冀三地算力中心資源,創(chuàng)新多算力中心協(xié)同的多點(diǎn)共算模式,以支持超大模型訓(xùn)練。北京電信云網(wǎng)發(fā)展部規(guī)劃總監(jiān)姚凌分享到,北京電信通過(guò)配置新一代智算路由器,采用新型流級(jí)擁塞控制技術(shù),實(shí)現(xiàn)了網(wǎng)絡(luò)擁塞或故障快速精準(zhǔn)識(shí)別,確保了擁塞不擴(kuò)散到全網(wǎng);并通過(guò)采用路由器廣域無(wú)損調(diào)度和負(fù)載均衡技術(shù),保障了業(yè)務(wù)吞吐率達(dá)到95%以上,實(shí)現(xiàn)了跨100公里長(zhǎng)距離算效僅下降1%。這些實(shí)踐成果為實(shí)現(xiàn)京津冀算力資源一體化協(xié)同提供了可能性。
產(chǎn)業(yè)協(xié)作,智算廣域網(wǎng)發(fā)展步入快車(chē)道
有明確的需求牽引,也有技術(shù)創(chuàng)新支撐,更有顯著的實(shí)踐效果,無(wú)疑彰顯了智算IP廣域網(wǎng)的可行性與廣闊前景。然而,要跟上AI應(yīng)用飛速發(fā)展的步伐,加速智算IP廣域網(wǎng)規(guī)?;涞兀胺饺悦媾R不少挑戰(zhàn),這迫切需要產(chǎn)業(yè)界凝聚共識(shí)、攜手合作,持續(xù)推動(dòng)技術(shù)創(chuàng)新和標(biāo)準(zhǔn)制定,并積極探索新模式、新場(chǎng)景。
為此,在會(huì)上,中國(guó)信通院、中國(guó)通信標(biāo)準(zhǔn)化協(xié)會(huì)、中國(guó)電信、中國(guó)移動(dòng)、中國(guó)聯(lián)通和華為聯(lián)合發(fā)起了“凝心聚力,攜手并進(jìn),共同繪制智算IP廣域網(wǎng)產(chǎn)業(yè)宏偉藍(lán)圖”的倡議,旨在聚力產(chǎn)業(yè)各方資源,更好推進(jìn)智算IP廣域網(wǎng)技術(shù)創(chuàng)新和產(chǎn)業(yè)發(fā)展。
近年來(lái),隨著算力需求呈指數(shù)級(jí)增長(zhǎng),如何通過(guò)算網(wǎng)協(xié)同保障智算高效供給,最大化發(fā)揮算力價(jià)值,已成為全社會(huì)關(guān)注的重點(diǎn)。國(guó)家相關(guān)部門(mén)從頂層設(shè)計(jì)角度已緊密發(fā)布一系列政策。2023年10月,工信部等六個(gè)部門(mén)聯(lián)合發(fā)布《算力基礎(chǔ)設(shè)施高質(zhì)量發(fā)展行動(dòng)計(jì)劃》,提出通過(guò)優(yōu)化算力高效運(yùn)載質(zhì)量、強(qiáng)化算力接入網(wǎng)絡(luò)能力、提升樞紐網(wǎng)絡(luò)傳輸效率、探索算力協(xié)調(diào)調(diào)度機(jī)制四個(gè)方面提升算力高效運(yùn)載能力。12月,國(guó)家發(fā)展改革委、國(guó)家數(shù)據(jù)局等部門(mén)聯(lián)合印發(fā)《關(guān)于深入實(shí)施“東數(shù)西算”工程 加快構(gòu)建全國(guó)一體化算力網(wǎng)的實(shí)施意見(jiàn)》,明確提出算力網(wǎng)是支撐數(shù)字經(jīng)濟(jì)高質(zhì)量發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施,可通過(guò)網(wǎng)絡(luò)連接多源異構(gòu)、海量泛在算力,實(shí)現(xiàn)資源高效調(diào)度、設(shè)施綠色低碳、算力靈活供給、服務(wù)智能隨需。
在政策和市場(chǎng)雙向驅(qū)動(dòng)下,運(yùn)營(yíng)商正加速布局一體化算力網(wǎng)。比如,中國(guó)聯(lián)通推出了全新的算力智聯(lián)網(wǎng)AINet,依托“網(wǎng)絡(luò)+平臺(tái)”兩大基礎(chǔ)底座,實(shí)現(xiàn)高通量、高性能、高智能的“三高”核心能力,提供高效入算、靈活聯(lián)算、數(shù)據(jù)快遞、數(shù)據(jù)高鐵、算網(wǎng)一體等領(lǐng)先的算網(wǎng)產(chǎn)品與服務(wù),為各行各業(yè)智能升級(jí)和智算業(yè)務(wù)發(fā)展鋪平廣闊道路。中國(guó)移動(dòng)已形成“四縱一橫”一體化發(fā)展的算力網(wǎng)絡(luò)架構(gòu),系統(tǒng)性構(gòu)建了“九州”算力互聯(lián)網(wǎng),圍繞多元承載、敏捷感知、超寬聯(lián)接、穩(wěn)定可靠、AI智能、彈性服務(wù)這八大核心能力打造“MATRIXES”技術(shù)體系。
智算廣域網(wǎng)作為支撐智算數(shù)據(jù)高效流通和智算資源高效調(diào)度的新型網(wǎng)絡(luò)底座,是算網(wǎng)一體化布局的關(guān)鍵一環(huán)。從頂層設(shè)計(jì)領(lǐng)航,到運(yùn)營(yíng)商整體布局,都將為智算IP廣域網(wǎng)的快速高質(zhì)量發(fā)展再添動(dòng)力。因此,從本次大會(huì)可以看出,在政策引導(dǎo)、市場(chǎng)需求、技術(shù)創(chuàng)新、產(chǎn)業(yè)協(xié)作等多重因素的推動(dòng)下,智算IP廣域網(wǎng)創(chuàng)新發(fā)展正步入快車(chē)道。