• 正文
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Talk King | CDCC 韓玉——智算挑戰(zhàn)破局:探索AI原生時(shí)代的基礎(chǔ)設(shè)施重構(gòu)之道

5小時(shí)前
152
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

摘要

2025年6月11-12日,“第6屆中國(guó)數(shù)據(jù)中心綠色能源大會(huì)”在上海成功召開。本屆大會(huì)以“AI原生 算力重構(gòu)”為主題,匯聚行業(yè)權(quán)威專家及領(lǐng)軍企業(yè),共同探討AI時(shí)代下數(shù)據(jù)中心的綠色轉(zhuǎn)型與基礎(chǔ)設(shè)施升級(jí)路徑。CDCC算力中心規(guī)劃設(shè)計(jì)研究員韓玉,受邀出席并以《智算基礎(chǔ)設(shè)施新挑戰(zhàn)探索》為題發(fā)表精彩演講。

 

在AI原生時(shí)代浪潮下,韓玉老師深刻剖析智算中心在規(guī)劃、建設(shè)、交付及運(yùn)維全生命周期中面臨的“幾大關(guān)鍵挑戰(zhàn)”,包括容量規(guī)劃的動(dòng)態(tài)需求、彈性功率對(duì)配電與制冷的沖擊、高投資快交付下的架構(gòu)兼容性,以及從設(shè)備維保向AI調(diào)度與能效優(yōu)化的運(yùn)營(yíng)能力重構(gòu)。

 

他提出以“風(fēng)液融合”、“模塊化離配”、“動(dòng)態(tài)彈性設(shè)計(jì)”等為代表的一系列前瞻性應(yīng)對(duì)策略,為新一代智算基礎(chǔ)設(shè)施建設(shè)提供系統(tǒng)性參考與實(shí)踐思路,受到在場(chǎng)嘉賓高度關(guān)注。正如他所言:“智算基礎(chǔ)設(shè)施的每一次挑戰(zhàn),都是系統(tǒng)性能力的重構(gòu)機(jī)會(huì)。”

現(xiàn)將演講內(nèi)容整理如下(有刪減),供廣大數(shù)據(jù)中心從業(yè)者參考。

大家上午好!今天想和大家分享的主題是:面對(duì)當(dāng)前不斷變化的行業(yè)現(xiàn)狀,智算基礎(chǔ)設(shè)施面臨的新挑戰(zhàn)。

 

我們確實(shí)遇到了一些新的挑戰(zhàn),也在這些挑戰(zhàn)中通過實(shí)際項(xiàng)目的探索,與一些行業(yè)同仁進(jìn)行了交流和嘗試。有些問題目前已經(jīng)找到了一些答案,有些則還在持續(xù)探索中。

 

容量彈性規(guī)劃的挑戰(zhàn)

第一個(gè)主題聚焦在“彈性”。這個(gè)“彈性”不僅僅是機(jī)柜功率的彈性,更是整個(gè)園區(qū)產(chǎn)出的容量和規(guī)劃,配電和制冷架構(gòu)適配等方面的彈性。尤其是在最新智算疊加變動(dòng)的高密度液冷場(chǎng)景下,智算中心交付更多的波動(dòng)性和不確定性,這也使得規(guī)劃方案到交付必須不斷調(diào)整,甚至面臨“更快交付”的壓力(T+3~4交付機(jī)電),結(jié)合我們過去在項(xiàng)目規(guī)劃、架構(gòu)設(shè)計(jì)方面的經(jīng)驗(yàn),在彈性容量規(guī)劃、交付方式、以及運(yùn)營(yíng)理解層面的一些實(shí)踐過程中的思考和探索,今天也會(huì)在這里做一個(gè)分享。

第一個(gè)問題,以往在做云計(jì)算架構(gòu)和容量設(shè)計(jì)的時(shí)候,首先關(guān)注的是一個(gè)園區(qū)單體應(yīng)該建多大,是以同城災(zāi)備、同城三中心這樣的架構(gòu)概念展開。如今的智算中心建設(shè)階段,大家開始傾向于在單體園區(qū)內(nèi)實(shí)現(xiàn)更大規(guī)模、分期、彈性功率部署。

 

具體體現(xiàn)在容量規(guī)劃上,過去網(wǎng)絡(luò)規(guī)劃中,討論的是幾千卡、幾千臺(tái)服務(wù)器的部署規(guī)模;而今天,萬卡級(jí)部署已經(jīng)成為常態(tài),甚至已經(jīng)出現(xiàn)了10萬卡、40萬卡乃至接近百萬卡規(guī)模的園區(qū)規(guī)劃。國(guó)內(nèi)已有具體項(xiàng)目案例的園區(qū)規(guī)劃設(shè)計(jì)達(dá)到40萬臺(tái)服務(wù)器的單體規(guī)模。與十幾年前我們認(rèn)為10到15兆瓦就算是“大型”數(shù)據(jù)中心相比,如今的單體園區(qū)已經(jīng)可以做到100兆瓦以上,甚至達(dá)到1 GW級(jí)別, GW級(jí)(吉瓦級(jí))數(shù)據(jù)中心的實(shí)際交付案例指日可待。

 

回到“單體”規(guī)劃概念上,從十幾年前我們做單體15兆瓦數(shù)據(jù)中心,到現(xiàn)在進(jìn)入110kV變電站對(duì)應(yīng)單體百兆瓦級(jí)設(shè)計(jì),容量是10倍跨越性的。對(duì)于機(jī)柜而言,功率也從早期的個(gè)位數(shù)千瓦,增長(zhǎng)到現(xiàn)在的幾百千瓦甚至接近1兆瓦的組合機(jī)柜。原來那種分散式、PC級(jí)別的服務(wù)器布局,正在重新回歸“大型機(jī)”架構(gòu)。服務(wù)器的功率從過去的幾百瓦,變成了動(dòng)輒十幾千瓦,容量的增長(zhǎng)已經(jīng)不是10%、20%的波動(dòng),而是成百上千倍數(shù)值的躍遷。這意味著我們面臨系統(tǒng)和空間的彈性設(shè)計(jì)挑戰(zhàn)是量級(jí)上的,其場(chǎng)景波動(dòng)性不再是小幅調(diào)整,而是可能以倍數(shù)級(jí)別進(jìn)行容量浮動(dòng),對(duì)設(shè)計(jì)提出了極高要求。

 

大容量規(guī)劃及交付挑戰(zhàn)——XAI在4個(gè)月交付100MW

我們以行業(yè)的具體案例,可以看到在傳統(tǒng)數(shù)據(jù)中心與新型智算中心之間,無論是單機(jī)功率密度還是網(wǎng)絡(luò)布線距離都面臨巨大挑戰(zhàn)。

 

這是美國(guó)特斯拉的XAI項(xiàng)目,采用改造工廠為智算中心。該項(xiàng)目在122天(約四個(gè)月)內(nèi)交付了100兆瓦,并計(jì)劃在接下來的90天(三個(gè)月)內(nèi),再交付100兆瓦。此案例也更和國(guó)內(nèi)的類似項(xiàng)目建設(shè)節(jié)奏相同,通過對(duì)原有工廠結(jié)構(gòu)的靈活利用,實(shí)現(xiàn)了高效的建設(shè)與交付。

 

項(xiàng)目采用了包括液冷、電力模塊、預(yù)制化產(chǎn)品等多種冷卻技術(shù)方案,一期部署10萬張GPU卡,設(shè)計(jì)極低的PUE,同時(shí)保障了快速、高效的上線節(jié)奏。

 

從外部可以看到,整個(gè)改造型數(shù)據(jù)中心預(yù)留了大量的室外構(gòu)筑物空間,用于放置發(fā)電機(jī)、電力模塊等附屬設(shè)施,而僅在核心區(qū)域保留了機(jī)房。這種設(shè)計(jì)思路非常典型地體現(xiàn)了當(dāng)前數(shù)據(jù)中心的規(guī)劃趨勢(shì)——無論是在單體容量、建筑形態(tài)還是配套設(shè)施上,都要具備更強(qiáng)的彈性適配能力,以支持更大的容量躍遷和未來演進(jìn)的可能性。

 

大容量規(guī)劃及交付挑戰(zhàn)——星門40萬卡/64000臺(tái)GB200的2年交付計(jì)劃

另一個(gè)典型案例是正在建設(shè)中的星門項(xiàng)目,規(guī)劃部署40萬張卡。這是一個(gè)典型的“蝴蝶式”建筑布局,共由八棟建筑組成。建設(shè)節(jié)奏極快:目前是10個(gè)月內(nèi)完成兩棟樓的建設(shè)并交付8萬卡的智算能力,而整個(gè)40萬卡的部署計(jì)劃將在不到兩年時(shí)間內(nèi)完成。

 

從容量上看,40萬張卡大致對(duì)應(yīng)500兆瓦以上的用電規(guī)模。這個(gè)項(xiàng)目選址在德州,很大概率是因?yàn)樵摰貐^(qū)具備較好的能源條件,包括天然氣發(fā)電和土地資源優(yōu)勢(shì)。同時(shí),由于缺乏水資源,該項(xiàng)目采用了干冷器冷卻方案,以適應(yīng)當(dāng)?shù)刭Y源限制。

 

從架構(gòu)角度來看,星門項(xiàng)目是智算的單體最大、網(wǎng)絡(luò)中心極短距離集中式設(shè)計(jì)架構(gòu),搭配統(tǒng)一的中控運(yùn)營(yíng)管理中心。在早期云計(jì)算時(shí)代,也曾出現(xiàn)過類似設(shè)計(jì)15兆瓦規(guī)模的蝴蝶式數(shù)據(jù)中心。但與過去不同,如今的單體規(guī)模已經(jīng)提升到了50~80兆瓦級(jí)別,在具體能源供電、電力系統(tǒng)和制冷系統(tǒng)設(shè)計(jì)上有了質(zhì)變。

 

業(yè)務(wù)類型帶來容量規(guī)劃的挑戰(zhàn)

接著看中國(guó)之前一直比較火的DeepSeek。參考一些公開渠道的資料來探索其具體規(guī)模。據(jù)其技術(shù)報(bào)告披露,在2024年1月份其爆火時(shí)的推理模型,僅使用了2048張卡,功率約為2兆瓦。

 

而據(jù)半導(dǎo)體公司究機(jī)構(gòu)預(yù)測(cè),DeepSeek若要構(gòu)建完整的模型訓(xùn)練和推理體系,可能最終需要5萬張卡左右,相應(yīng)容量大概為50兆瓦。

 

也有觀點(diǎn)基于AI工具和公開數(shù)據(jù)分析,認(rèn)為其規(guī)模大致在3萬張卡左右。也就是說僅需30~50兆瓦的級(jí)別,就可以完成其主要訓(xùn)練和推理工作。這種低成本、高效能的創(chuàng)新建設(shè)模式,與美國(guó)動(dòng)輒數(shù)十萬卡的超大規(guī)模形成了顯著差異。

 

但是這種差異也反映在模型能力的最終表現(xiàn)上,例如高考數(shù)學(xué)試卷,使用OpenAI最新完整版模型可以做到滿分,而使用DeepSeek或阿里的模型計(jì)算,分?jǐn)?shù)能達(dá)到120多分或130多分。

 

所以,今天算力發(fā)展的核心驅(qū)動(dòng)力依然是三要素:數(shù)據(jù)、算力和模型。在模型層面可以通過算法優(yōu)化,在數(shù)據(jù)層面可以通過開源或共享獲得突破,但唯獨(dú)在算力平臺(tái)層面,依然需要“力大飛磚”——也就是靠真材實(shí)料的硬件堆疊來支撐模型的訓(xùn)練與推理。

 

這也直接影響到我們?cè)谝?guī)劃設(shè)計(jì)過程中的思考方式。即便是在同一個(gè)區(qū)域進(jìn)行算力部署,不同客戶在需求容量、節(jié)奏、交付規(guī)模、運(yùn)營(yíng)模式等方面也可能差異顯著。如何在更大規(guī)模上實(shí)現(xiàn)更強(qiáng)的彈性部署和分批交付,成為我們需要應(yīng)對(duì)的新挑戰(zhàn)。

 

彈性功率波動(dòng)對(duì)系統(tǒng)設(shè)計(jì)和運(yùn)營(yíng)的挑戰(zhàn)

此外,還有一個(gè)雖未在當(dāng)下具體發(fā)生,但未來很可能出現(xiàn)的技術(shù)問題:當(dāng)前的數(shù)據(jù)中心在面對(duì)一些高功耗、波動(dòng)性強(qiáng)的AI芯片時(shí),會(huì)出現(xiàn)計(jì)算時(shí)負(fù)載波動(dòng)問題。例如,GB200在常規(guī)運(yùn)行時(shí)的功率約為130kW,但在滿載或超頻狀態(tài)下,峰值功率可能飆升至180kW。這意味著算力負(fù)載不是持續(xù)穩(wěn)定的,而是具有明顯的峰值沖擊。

 

業(yè)內(nèi)對(duì)此已有一定擔(dān)憂。在實(shí)踐中,確實(shí)已經(jīng)出現(xiàn)了局部超載的情況,部分解決方案是對(duì)UPS結(jié)合儲(chǔ)能電池進(jìn)行超配,但這會(huì)帶來成本問題。更復(fù)雜的是,在一些大規(guī)模集群集中開啟的場(chǎng)景下,負(fù)載甚至可能直接穿透到市電系統(tǒng),造成更大的電力沖擊。

 

我們也在思考,該如何更合理地應(yīng)對(duì)這種問題:是否通過末端的PSU電源優(yōu)化解決?是否引入電容器或飛輪技術(shù)緩解沖擊?還是應(yīng)該從配電系統(tǒng)系統(tǒng)架構(gòu)層面重新設(shè)計(jì),引入中壓儲(chǔ)能或者發(fā)電機(jī)的方式,以更好地適應(yīng)這種高波動(dòng)、高功耗的AI算力設(shè)備運(yùn)行模式?

 

彈性容量規(guī)劃應(yīng)對(duì)——容量調(diào)整對(duì)液冷挑戰(zhàn) ?

借用行業(yè)中的一張范例圖,當(dāng)液冷機(jī)柜的單機(jī)功率從幾十kW提升到幾百kW時(shí),真正需要解決的問題不僅僅在系統(tǒng)級(jí),而是從服務(wù)器內(nèi)部冷板的換熱材料換熱能力開始到末端的冷卻管路液體流量的影響。傳統(tǒng)的單相冷卻正在逐步轉(zhuǎn)向相變流體的使用,這就引出了對(duì)芯片層級(jí)的液體熱管理、水力設(shè)計(jì)、供熱管路等諸多方面的全新要求。

 

我們可以看到一個(gè)很典型的變化:過去液冷機(jī)柜可能只有2個(gè)冷卻接頭,現(xiàn)在已經(jīng)提升到了8個(gè),你可以想象,在一個(gè)列級(jí)規(guī)模的系統(tǒng)中,整個(gè)后端幾乎被冷卻接頭所填滿,背后的根本原因,是機(jī)柜功率密度從過去的幾十kW躍升到今天的幾百kW,形成一個(gè)高密度、列級(jí)甚至整排機(jī)柜的液冷系統(tǒng)。在這種新形態(tài)下,行業(yè)內(nèi)對(duì)于液冷的設(shè)計(jì)標(biāo)準(zhǔn)也隨之發(fā)生了轉(zhuǎn)變。

 

在此前行業(yè)討論液冷技術(shù)規(guī)范時(shí),我常被問到兩個(gè)問題,第一,液冷到底在哪個(gè)層級(jí)上需要做到冗余備份的類似A級(jí)別認(rèn)證?第二,為什么液冷一定要做到“機(jī)柜級(jí)”而不是“機(jī)房級(jí)”?

 

我的觀點(diǎn)是:“當(dāng)一個(gè)液冷機(jī)柜被設(shè)計(jì)為一個(gè)獨(dú)立單元,具備可靠性和冗余能力時(shí),可靠性評(píng)估的起點(diǎn)是從它的Manifold(分流歧管)開始,而不僅僅應(yīng)該從CDU(冷卻分配單元)起算?!盋DU本身已經(jīng)是一個(gè)列級(jí)模塊,它的失效影響范圍遠(yuǎn)超單節(jié)點(diǎn)。如果你不把它當(dāng)作“單機(jī)柜”來看,甚至不重視每一個(gè)接頭連接的可靠性,那么一旦出問題,它的“爆炸半徑”是非常大的,尤其是高密度的GB200或者3000,影響集群規(guī)模巨大。

 

這也說明了一個(gè)問題:液冷已經(jīng)從傳統(tǒng)的“運(yùn)維界面”、“機(jī)柜界面”,延伸到了服務(wù)器內(nèi)部每一個(gè)U節(jié)點(diǎn)的層級(jí),這對(duì)運(yùn)維的穩(wěn)定性和系統(tǒng)整體的可靠性都提出了全新的挑戰(zhàn)。

 

大規(guī)模智算的解決方案,從研究Stargate(星門)、XAI、國(guó)內(nèi)近期的交付來看,過去我們常見的是一個(gè)項(xiàng)目包含多個(gè)獨(dú)立單體、分批交付;而現(xiàn)在,我們正走向更大規(guī)模的單體部署,在建筑設(shè)計(jì)上就進(jìn)行預(yù)留,為未來擴(kuò)展創(chuàng)造條件,并盡可能減少運(yùn)維中心數(shù)量。這種設(shè)計(jì)要求我們?cè)跈C(jī)電系統(tǒng)與IT空間之間留出彈性,同時(shí)網(wǎng)絡(luò)架構(gòu)仍然遵循原有定律,也就是說,網(wǎng)絡(luò)架構(gòu)與配電容量一起決定了單體設(shè)計(jì)的上限。

 

彈性容量及園區(qū)規(guī)劃應(yīng)對(duì)

在實(shí)際設(shè)計(jì)中,尤其是結(jié)合土建結(jié)構(gòu)和標(biāo)準(zhǔn)建筑單體的條件下,我們往往會(huì)采用傳統(tǒng)模式來滿足IT功能區(qū)和機(jī)電設(shè)備功能區(qū)。但隨著單體規(guī)模從50兆瓦提升到100兆瓦甚至更高,我們需要對(duì)配電、電池、發(fā)電機(jī)等系統(tǒng)進(jìn)行重新組合與彈性冗余配置,為建筑空間釋放更大適應(yīng)能力,甚至將部分配電系統(tǒng)向室外延伸。也就是功能區(qū)域具備IT的機(jī)電的配比進(jìn)行彈性伸縮的設(shè)計(jì)調(diào)整,也可以在容量規(guī)模上結(jié)合產(chǎn)品設(shè)計(jì)進(jìn)行產(chǎn)出容量的動(dòng)態(tài)調(diào)整,以爭(zhēng)取在建筑規(guī)劃面積不變的情況下,通過構(gòu)筑物和建筑空間的調(diào)整,實(shí)現(xiàn)需求容量的動(dòng)態(tài)調(diào)整適配。

 

這也說明,在定制化需求的反向推動(dòng)下,我們的配電與冷卻系統(tǒng)正逐步走向產(chǎn)品化、模塊化、預(yù)制化,這已經(jīng)成為當(dāng)下大型智算中心建設(shè)中的一個(gè)重要趨勢(shì),可以彈性匹配智算中心的方案組合。

 

彈性容量規(guī)劃應(yīng)對(duì)——單體區(qū)域彈性布置/機(jī)電模塊化

 

彈性功率配電挑戰(zhàn)應(yīng)對(duì)——升壓/直流

所以今天我們面臨的挑戰(zhàn),還因?yàn)楦呙芏葞淼臋C(jī)電方案的大調(diào)整。

 

舉例來說,當(dāng)單個(gè)機(jī)柜的供電從幾個(gè)千瓦提升到幾十千瓦甚至上百千瓦時(shí),過去長(zhǎng)期存在爭(zhēng)議但尚未解決的問題——交流變直流,如今直流開始逐漸成為主流,甚至是首選。

傳統(tǒng)的200V–240V直流供電或者交流220V已經(jīng)難以滿足高功率設(shè)備在線纜傳輸距離和容量密度方面的要求。因此,像英偉達(dá)體系中就已經(jīng)采用了800V直流方案,成為應(yīng)對(duì)這一變化的代表。這也直接引發(fā)了一個(gè)核心問題:我們需要盡快推進(jìn)直流架構(gòu)的落地。

 

從供電方式來看,傳統(tǒng)模式是“市電 → UPS → 末端配電”,源-線路-荷的產(chǎn)品波動(dòng)不大,但今天我們正在發(fā)生轉(zhuǎn)變:架構(gòu)變化 “去UPS化”,也就是將原有的低壓UPS系統(tǒng)取消或向中壓轉(zhuǎn)化或者末端PSU強(qiáng)化。這意味著傳統(tǒng)意義上集中部署UPS的架構(gòu)已不再適用,而是變成了中壓級(jí)或末端級(jí)配電架構(gòu)。原因就是當(dāng)機(jī)柜單功率為600KW時(shí),出現(xiàn)了“一臺(tái)UPS只對(duì)應(yīng)一臺(tái)機(jī)柜”的極致形態(tài)。

 

目前在不同企業(yè)的實(shí)踐中,也出現(xiàn)了兩種不同路徑的演進(jìn)方向:集中式大功率電源模式:如阿里正在推進(jìn)的單體3MW的集中電源方案;行業(yè)也有市電直供 + 末端電源冗余方案,參考OCP方案,將供電集中末端解決”,即將電源控制與切換邏輯移至末端機(jī)柜,實(shí)現(xiàn)架構(gòu)的高度分化與扁平化。

 

從整個(gè)趨勢(shì)來看,傳統(tǒng)UPS集中式供配電方案正面臨被重構(gòu)的挑戰(zhàn),而直流化、模塊化、末端化已成為未來高密度智算中心的核心方向之一。

 

另外,當(dāng)末端單機(jī)柜功率達(dá)到幾百kV且負(fù)載波動(dòng)較大時(shí),如何結(jié)合儲(chǔ)能應(yīng)對(duì)這種情況成為一個(gè)重要課題,目前也在積極探討中,是將傳統(tǒng)的UPS后備電池結(jié)合儲(chǔ)能放大到中壓端還是末端PSU用更短時(shí)間的電容電池,也在持續(xù)商討中。

 

傳統(tǒng)的大量UPS加儲(chǔ)能電池用于削峰調(diào)頻目前研究較多。比如前面提到的負(fù)載從130kV彈性波動(dòng)到180kV時(shí),必然會(huì)導(dǎo)致UPS容量超配。傳統(tǒng)的2N架構(gòu)因?yàn)樨?fù)載率低于50%,這個(gè)問題相對(duì)容易解決。但如果UPS采用DR或者RR主要依賴單機(jī)冗余配置,其過載能力和故障切換就容易讓UPS轉(zhuǎn)旁路甚至最終導(dǎo)致電力穿透市電網(wǎng),整個(gè)配電系統(tǒng)架構(gòu)的冗余設(shè)計(jì)需要重新考量。

 

“源網(wǎng)荷儲(chǔ)”結(jié)合智算中心的新設(shè)計(jì)理念,我一直認(rèn)為網(wǎng)與源是一體的,以前的負(fù)荷是穩(wěn)定的不也容易實(shí)現(xiàn)儲(chǔ)能的收益,但是智算的荷載彈性,會(huì)改變?cè)淳W(wǎng)的前端系統(tǒng)的設(shè)計(jì)與架構(gòu)。

 

彈性功率對(duì)配電和制冷挑戰(zhàn)應(yīng)對(duì)

 

彈性功率對(duì)制冷挑戰(zhàn)應(yīng)對(duì)——風(fēng)液兼容彈性液冷比例

下面我們來談?wù)勱P(guān)于制冷面臨的挑戰(zhàn)。

 

過去我們對(duì)液冷的理解往往是比較單一和理想化的,但如今的實(shí)際情況已經(jīng)變得更復(fù)雜。在我參與的一個(gè)項(xiàng)目中,風(fēng)冷與液冷的負(fù)載比例達(dá)到了 5:6.5,甚至在某些極端情況下接近 5:8.5,需要做兼容彈性設(shè)計(jì)。

智算中心在同時(shí)需要兼容CPU和GPU供水溫度的場(chǎng)景下,也就是可能一個(gè)園區(qū)中兼顧推理與訓(xùn)練的業(yè)務(wù),還可能涵蓋存儲(chǔ)、通用計(jì)算等多類CPU業(yè)務(wù)。這意味著,在設(shè)計(jì)階段就要考慮到多種需求的協(xié)調(diào)與融合,應(yīng)對(duì)不同功率密度智算設(shè)備的冷卻方式和比例的解決方案。

 

因此,在一個(gè)項(xiàng)目中,我們常常需要同時(shí)配置風(fēng)冷與液冷系統(tǒng),不僅在建筑層面上預(yù)留吊頂和架空地板空間,還要在機(jī)柜層面區(qū)分不同的供水溫度。這也促使“風(fēng)液同源”的解決方案成為行業(yè)中非常關(guān)鍵的技術(shù)方向,即在同一區(qū)域內(nèi)實(shí)現(xiàn)風(fēng)冷與液冷系統(tǒng)的兼容、協(xié)同布局及設(shè)備預(yù)留,從而提高整體的靈活性與適應(yīng)性。我們一般采用風(fēng)冷液冷一體的風(fēng)墻方案疊加冷板式液冷組合的架構(gòu)方案。但是在單機(jī)柜功率為幾百KW時(shí),如何高效解決近端冷卻問題,仍是我們面臨的一大技術(shù)挑戰(zhàn),有待進(jìn)一步探索與優(yōu)化。

 

高密度液冷挑戰(zhàn)應(yīng)對(duì)——NV的GTC生態(tài)體系

英偉達(dá)主導(dǎo)的GPU時(shí)代,其在一開始就推動(dòng)了完整的行業(yè)生態(tài)體系建設(shè)。這里想強(qiáng)調(diào)的是,融入英偉達(dá)GTX生態(tài)體系是至關(guān)重要的。因?yàn)樵贕PU大規(guī)模部署的背景下,英偉達(dá)所選擇的架構(gòu)方案,幾乎決定了行業(yè)未來的主流方向。英偉達(dá)在自有架構(gòu)方案中,從Manifold接頭、服務(wù)器托盤、機(jī)柜、前端電源模塊、到800V直流電源,都已經(jīng)形成了完整的統(tǒng)一體系。只有真正融入這一生態(tài)體系,才能成為其解決方案供應(yīng)商。

 

高密度液冷的挑戰(zhàn)應(yīng)對(duì)——GB300單機(jī)柜600KW+

我們來看GB300實(shí)物,單機(jī)柜液冷配置4根巨大的冷卻水管,傳統(tǒng)的600mm標(biāo)準(zhǔn)機(jī)柜框架無法承載,末端機(jī)柜需要結(jié)合功率需求重新定制與適配,這其中不僅包括機(jī)械結(jié)構(gòu),還包括熱管理、電力供應(yīng)等,GB300是一個(gè)完全自己全部解決風(fēng)冷和液冷的完整方案,無需單獨(dú)額外考慮風(fēng)冷液冷比。

 

GB200的參考設(shè)計(jì)方案中,除了液冷機(jī)柜自帶CDU,其風(fēng)冷就已經(jīng)提出了完整的背部風(fēng)墻一體化設(shè)計(jì)。如果仍沿用傳統(tǒng)解耦式方案,就需要單獨(dú)考慮風(fēng)冷對(duì)應(yīng)比例的風(fēng)墻和整合式CDU配置。

 

在當(dāng)前智算背景下,我認(rèn)為整個(gè)產(chǎn)業(yè)應(yīng)該從終端出發(fā),由服務(wù)器廠商“反向主導(dǎo)和推動(dòng)”整個(gè)電力、冷卻、網(wǎng)絡(luò)等系統(tǒng)的設(shè)計(jì),推動(dòng)形成一個(gè)統(tǒng)一的行業(yè)架構(gòu)。這樣才能實(shí)現(xiàn)真正高效、穩(wěn)定、可規(guī)模化復(fù)制的系統(tǒng)解決方案。

 

否則,如果還是各做各的架構(gòu)方案,不匹配主流的智算設(shè)備,很多廠商的產(chǎn)品可能很快就會(huì)被淘汰出局,無法成為主流。

 

交付與運(yùn)營(yíng)挑戰(zhàn)應(yīng)對(duì)

在當(dāng)前的大容量、快速交付需求背景下,為了在保障質(zhì)量的前提下完成部署,預(yù)制化正在成為越來越多項(xiàng)目的重要選擇。

 

近期我和一位同行交流,他打了一個(gè)非常直白的比喻:今天的數(shù)據(jù)中心建設(shè),說到底就幾件事——有沒有卡、有沒有能源、能源價(jià)格。

 

第一, 有卡就有業(yè)務(wù)。東南亞地區(qū)之所以成為新的智算增長(zhǎng)熱點(diǎn),核心原因就是那兒有卡。

 

第二, 有沒有能力把能源轉(zhuǎn)化為穩(wěn)定的電力供應(yīng)。無論是天然氣、小型核電還是其他形式,只有掌握了能源供應(yīng)到智算中心,才有可能支撐起數(shù)百兆瓦規(guī)模的數(shù)據(jù)中心交付能力。

 

第三, 能源成本高低決定了智算中心聚集的規(guī)模。

 

以此來看,像美國(guó)、日本這樣的地區(qū),雖然“有卡”,但“缺能源”,所以要交付一個(gè)百兆瓦級(jí)別的數(shù)據(jù)中心都面臨巨大挑戰(zhàn),這也推動(dòng)了他們對(duì)“快速交付”和“預(yù)制化”的高度依賴。而如果我們能夠切入這些市場(chǎng),就會(huì)明顯感受到項(xiàng)目機(jī)會(huì)和商業(yè)價(jià)值都非常可觀。

 

反觀國(guó)內(nèi),在“內(nèi)卷”環(huán)境下,各方更關(guān)注的是成本控制。由于中國(guó)本身基建交付效率非常高,從立項(xiàng)到建設(shè)房屋和機(jī)電交付7-11個(gè)月都可以完成,所以對(duì)預(yù)制化的需求相對(duì)較低,這也受到成本、能力邊界、市場(chǎng)競(jìng)爭(zhēng)激烈程度等因素的影響。

 

插一句題外話,外電成本往往只在“能源有保障”和“卡有供應(yīng)”這兩個(gè)前提都滿足后,才成為決策的第三維度。我們發(fā)現(xiàn),真正具備算力芯片資源、能源保障,同時(shí)又能獲得低成本外電的區(qū)域,才是今天數(shù)據(jù)中心最優(yōu)先落地的方向,并不是所有“西算區(qū)域”都為此而受益。

 

交付挑戰(zhàn)與系統(tǒng)設(shè)計(jì)應(yīng)對(duì)

不過,預(yù)制化也并非沒有挑戰(zhàn)。當(dāng)我們從傳統(tǒng)工程定制交付轉(zhuǎn)向模塊化產(chǎn)品組合時(shí),會(huì)面臨以下幾個(gè)關(guān)鍵問題:

 

供應(yīng)體系復(fù)雜,難以標(biāo)準(zhǔn)化。如果廠商未能形成統(tǒng)一體系,產(chǎn)品之間的兼容性差,就可能導(dǎo)致所提供的解決方案難以成為主流。

 

產(chǎn)品不是自產(chǎn),缺乏完整控制和運(yùn)維保障。比如水泵、冷機(jī)來自預(yù)制化廠商,可能帶來運(yùn)行維護(hù)、維保責(zé)任不清等問題。

 

認(rèn)證與合規(guī)挑戰(zhàn)突出。在海外交付場(chǎng)景中,預(yù)制化產(chǎn)品可能還需滿足當(dāng)?shù)氐恼J(rèn)證、合規(guī)標(biāo)準(zhǔn),進(jìn)一步增加交付難度。

 

風(fēng)液冷混合方案處于波動(dòng)期。設(shè)計(jì)方案如何適配、模塊產(chǎn)品如何集成、規(guī)劃如何預(yù)留彈性空間,都是目前需要持續(xù)優(yōu)化的問題。

 

因此,我們今天所做的,仍是基于特定客戶需求、特定場(chǎng)景、定制化需求的一套端到端解決方案。從設(shè)計(jì)規(guī)劃、模塊交付,到最后的產(chǎn)品化、運(yùn)營(yíng)保障,都需要在實(shí)踐中不斷思考和迭代。

 

還有一個(gè)關(guān)鍵問題是液冷系統(tǒng)在實(shí)際交付與運(yùn)營(yíng)中的穩(wěn)定性和可靠性。

 

當(dāng)我們?cè)陧?xiàng)目中采用風(fēng)液兼容的設(shè)計(jì)方案時(shí),風(fēng)冷系統(tǒng)相對(duì)容易實(shí)現(xiàn)共用,但水冷系統(tǒng)由于需要特殊管路精準(zhǔn)分配到每一個(gè)節(jié)點(diǎn),因此帶來了很多新的挑戰(zhàn)。尤其是當(dāng)每個(gè)機(jī)柜的功率都達(dá)到幾十千瓦甚至幾百千瓦,并且伴隨頻繁波動(dòng)時(shí),原來的設(shè)計(jì)模型——例如一個(gè)模塊或包間只需要10臺(tái)空調(diào)——現(xiàn)在在同樣空間內(nèi)可能需要管理上百臺(tái)設(shè)備的散熱問題,這就導(dǎo)致水力平衡成為一個(gè)核心難點(diǎn)。

 

特別是在高功率密度情況下,從幾十千瓦到幾百千瓦的功率段,如何進(jìn)行水力熱設(shè)計(jì)、如何進(jìn)行CDU的選型與分布布置,都成為工程設(shè)計(jì)中的關(guān)鍵技術(shù)問題。

 

此外,液冷系統(tǒng)的可控性也正在成為一項(xiàng)重要考量。在現(xiàn)實(shí)中,客戶簽署的服務(wù)對(duì)象(SOI)已經(jīng)明確將單個(gè)機(jī)柜視為最小單位,一旦某個(gè)機(jī)柜功率達(dá)到600kW級(jí)別,相當(dāng)于原來60個(gè)10kW機(jī)柜的負(fù)載聚合在一起。那么在這種密度下,CDU(冷卻分布單元)的設(shè)計(jì)就必須具備足夠的冗余與可靠性。過去我們說CDU的Manifold接頭可以做到“N+X”的冗余配置,或者“N+N”,看上去太貴且浪費(fèi),但現(xiàn)在我們要思考一個(gè)現(xiàn)實(shí)問題:一臺(tái)GB300的機(jī)柜成本可能高達(dá)2000萬美元,那為什么不能在CDU設(shè)計(jì)上多投入20萬美元,來保障其運(yùn)行穩(wěn)定性?

 

如果不提升液冷系統(tǒng)可靠性,一旦一個(gè)600kW的機(jī)柜因冷卻失效宕機(jī),客戶所面臨的數(shù)據(jù)損失與運(yùn)維方所承擔(dān)的SLA罰則都將非常嚴(yán)重,遠(yuǎn)遠(yuǎn)高于當(dāng)初省下的那點(diǎn)成本。

 

而在實(shí)際項(xiàng)目中,我也看到一些廠商還在討論如何減配CDU、如何降低液冷設(shè)計(jì)冗余度,這些做法的后果,可能要等真出運(yùn)營(yíng)問題時(shí)采取反思設(shè)計(jì)。到時(shí)候結(jié)果如何,我們只能“拭目以待”了。

 

運(yùn)營(yíng)挑戰(zhàn)應(yīng)對(duì)

最后我們來談?wù)勥\(yùn)營(yíng)階段面臨的幾個(gè)核心問題,特別是PUE相關(guān)的挑戰(zhàn)。

 

首先,現(xiàn)在很多頭部客戶在簽約階段,對(duì)運(yùn)營(yíng)階段的PUE指標(biāo)提出了更高要求,甚至已經(jīng)超過了行業(yè)或者政府的相關(guān)標(biāo)準(zhǔn),也高于當(dāng)前智算基礎(chǔ)設(shè)施的普遍設(shè)計(jì)要求。以純風(fēng)冷場(chǎng)景為例,客戶普遍要求PUE要做到1.2到1.25之間。這個(gè)指標(biāo)在深圳這樣的高溫高濕地區(qū)其實(shí)很難實(shí)現(xiàn),但在華東、華北地區(qū),客戶則將其視為基本門檻。因此,在設(shè)計(jì)和交付中,我們必須對(duì)制冷設(shè)備的供水溫度控制、末端盤管墻的設(shè)計(jì),以及近端冷卻方案的預(yù)留和部署給予更多關(guān)注——這些可能都是滿足PUE要求的剛性前提條件。

 

其次,板冷系統(tǒng)的設(shè)計(jì)要求也在不斷提高。以往的PUE標(biāo)準(zhǔn)可能是做到 1.2,但現(xiàn)在逐步向 1.15 靠攏。與此同時(shí),供液溫度到底是設(shè)定在25℃還是35℃? 這取決于GPU殼溫的設(shè)計(jì)和散熱能力,也就意味著我們?cè)谝豪浞桨钢腥杂泻芏鄡?yōu)化空間與技術(shù)演進(jìn)的可能性,值得深入探討與推動(dòng)行業(yè)標(biāo)準(zhǔn)的改變。

 

最后,是用水問題。隨著數(shù)據(jù)中心規(guī)模迅速擴(kuò)大,單體容量達(dá)到500兆瓦甚至1GW后,水資源逐漸成為真正的瓶頸。原本我們認(rèn)為像華東、華南這樣水資源豐富的地區(qū)不會(huì)受限,但一旦園區(qū)規(guī)模提升到GW級(jí)別,我們會(huì)發(fā)現(xiàn),區(qū)域的自來水廠的供水能力已難以支撐,就像過去我們遇到的區(qū)域變電站容量限制一樣。

 

在這種背景下,“無水方案”(如室外干冷器、閉式冷卻塔)正成為新的技術(shù)選項(xiàng)。而如何在無水條件下依然做到極致PUE優(yōu)化,是今天在制冷架構(gòu)設(shè)計(jì)中必須正視的一項(xiàng)重大挑戰(zhàn)。

 

總結(jié)

最后,我來做一個(gè)簡(jiǎn)單的總結(jié),未來在智算基礎(chǔ)設(shè)施的發(fā)展過程中,有幾個(gè)方向非常關(guān)鍵:

 

第一,近端冷卻與液冷彈性比的協(xié)同。隨著冷板液冷逐漸成為主流,如何做好液冷系統(tǒng)與風(fēng)冷近端冷卻的協(xié)同設(shè)計(jì),特別是在高波動(dòng)負(fù)載場(chǎng)景下實(shí)現(xiàn)冷卻系統(tǒng)的彈性調(diào)節(jié),是一項(xiàng)重要課題。

 

第二,“源網(wǎng)荷儲(chǔ)”體系的重新理解。現(xiàn)在“網(wǎng)”已經(jīng)不再是主要瓶頸。真正的核心在“源”——電力源頭的保障能力。不論是光伏、自備燃?xì)怆姀S,還是接入小型核電,未來單體智算中心做到GW級(jí)需求時(shí),關(guān)鍵問題是你有沒有穩(wěn)定、可持續(xù)的能源來源。

 

“網(wǎng)”部分可能只是過網(wǎng)費(fèi),但“源”的供給能力,才是限制你能否交付的真正障礙。

 

第三,負(fù)載波動(dòng)對(duì)儲(chǔ)能與配電架構(gòu)的影響。“荷”的波動(dòng)性越來越明顯,也讓我們開始反思——儲(chǔ)能系統(tǒng)(如電池、飛輪)到底應(yīng)該布置在中壓側(cè)還是負(fù)載端?目前行業(yè)仍在探索,我們自己也還沒有完全看清楚這個(gè)趨勢(shì),但這會(huì)是接下來重點(diǎn)思考的方向。

 

第四,能源依然是核心。這里面有幾個(gè)層次:

 

● 能不能拿到能源(可用性);

● 拿到之后能源價(jià)格是否穩(wěn)定(成本);

● 能否持續(xù)供應(yīng)(可靠性)。

 

我們看到有些地方在招商階段會(huì)承諾電價(jià)補(bǔ)貼,但坦率的說,這種補(bǔ)貼在幾百兆瓦級(jí)別的數(shù)據(jù)中心面前是不可持續(xù)的。最終你要靠自己的方案解決穩(wěn)定、低價(jià)、長(zhǎng)期的能源供給。

 

第五,IT機(jī)柜設(shè)計(jì)可能面臨重構(gòu)。當(dāng)單柜功率從幾十kW走向幾百kW時(shí),原本標(biāo)準(zhǔn)的服務(wù)器機(jī)柜設(shè)計(jì)將難以為繼,未來機(jī)柜形態(tài)可能需要重新定義,包括末端配電方式、冷卻結(jié)構(gòu)、機(jī)房布局等,這其中潛藏著重大革新的機(jī)會(huì)。

 

以上就是我今天的總結(jié)分享。有些問題我們還在摸索,很多結(jié)論也未必已經(jīng)有答案,只是基于我們所經(jīng)歷的項(xiàng)目和行業(yè)探索提出的一些思考。謝謝大家!

相關(guān)推薦