隨著生成式AI技術(shù)的蓬勃發(fā)展,我們正步入一個(gè)萬(wàn)物存儲(chǔ)、萬(wàn)物智能、萬(wàn)物互聯(lián)的全新時(shí)代。在這個(gè)時(shí)代里,數(shù)據(jù)的洪流如潮水般涌來(lái),對(duì)數(shù)據(jù)中心的基礎(chǔ)設(shè)施提出了前所未有的挑戰(zhàn)。為了滿足AI模型日益增長(zhǎng)的計(jì)算需求,大型語(yǔ)言模型(LLM)需要同時(shí)處理海量的多模態(tài)數(shù)據(jù)集,包括文本、圖像、音頻和視頻等,這促使AI處理資源的需求急劇上升,并需要在整個(gè)數(shù)據(jù)中心內(nèi)實(shí)現(xiàn)高效互連。
面對(duì)這一挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)互連方式已經(jīng)難以滿足現(xiàn)代AI集群的擴(kuò)展需求。隨著AI平臺(tái)架構(gòu)的多樣化和定制化,以及年度升級(jí)節(jié)奏的顯著加快,數(shù)據(jù)中心必須尋找更加高效、可靠的連接解決方案。在這樣的背景下,“PCIe over optics”技術(shù)應(yīng)運(yùn)而生,為AI基礎(chǔ)設(shè)施的擴(kuò)展和升級(jí)提供了全新的可能。
PCIe(Peripheral Component Interconnect Express)接口作為AI加速器和GPU上的原生可用接口,一直扮演著連接數(shù)據(jù)中心內(nèi)部各個(gè)組件的重要角色。然而,隨著AI集群規(guī)模的不斷擴(kuò)大,從最初的幾個(gè)機(jī)架、數(shù)十個(gè)GPU,發(fā)展到跨越多個(gè)機(jī)架、數(shù)百個(gè)GPU的大型pod,互連長(zhǎng)度迅速成為制約性能的關(guān)鍵因素。在PCIe 5.0數(shù)據(jù)速率下,雖然有源電纜能夠覆蓋到7米的距離,但在更高的數(shù)據(jù)速率下,如PCIe 6.x和PCIe 7.x,傳統(tǒng)的銅纜解決方案已經(jīng)無(wú)法滿足跨機(jī)架連接的需求。
AI 互聯(lián)挑戰(zhàn)應(yīng)對(duì)之道
自 2017 年起,Astera Labs 致力于釋放 AI 和云基礎(chǔ)設(shè)施潛力,其智能連接平臺(tái)以 PCIe?、CXL? 和以太網(wǎng)半導(dǎo)體解決方案及 COSMOS 軟件套件為基礎(chǔ),構(gòu)建可擴(kuò)展、可定制架構(gòu)。
該平臺(tái)能實(shí)現(xiàn)遠(yuǎn)距離可靠連接,如今借助光學(xué)器件實(shí)現(xiàn) PCIe 到行的連接,加速 GPU 集群部署;還通過(guò)軟件定義架構(gòu)和互操作性測(cè)試縮短 AI 平臺(tái)部署時(shí)間;其深度診斷等功能可提高基礎(chǔ)設(shè)施正常運(yùn)行時(shí)間和利用率。
其產(chǎn)品系列豐富,Aries?PCIe?/CXL? 智能 DSP retimer 帶寬高且被廣泛應(yīng)用,Aries PCIe/CXL 智能電纜模塊(SCM)提供 7 米有源電纜用于機(jī)架連接,Taurus 以太網(wǎng)智能電纜模塊(SCM)支持高速以太網(wǎng)連接,Leo CXL? 智能內(nèi)存控制器優(yōu)化內(nèi)存管理。Astera Labs 在技術(shù)創(chuàng)新方面表現(xiàn)出色,為大規(guī)模部署先進(jìn)方案奠定基礎(chǔ)。
開創(chuàng)無(wú)縫AI連接的新篇章
隨著AI基礎(chǔ)設(shè)施規(guī)模的擴(kuò)大,傳統(tǒng)無(wú)源直接連接電纜(DAC)已難以滿足需求。高數(shù)據(jù)速率下,信號(hào)丟失問(wèn)題加劇,限制了無(wú)源方案的有效性。為此,Aries PCIe/CXL? SCM?有源電纜(AEC)應(yīng)運(yùn)而生,其7米覆蓋范圍解決了DAC的連接距離限制,為AI加速器集群拓展提供了更多可能,布線可輕松延伸至機(jī)架外。但隨數(shù)據(jù)速率提升至PCIe 6.x、7.x等高級(jí)別,無(wú)源和有源電纜將局限于單機(jī)架內(nèi)。此時(shí),PCIe over optics解決方案,特別是有源光纜(AOC),將在機(jī)架間連接中發(fā)揮關(guān)鍵作用,提供長(zhǎng)距離、高穩(wěn)定性能的連接,確保AI集群高效運(yùn)行。
探索PCIe光連接的未來(lái)之路
光纖鏈路已成為高速以太網(wǎng)連接的基石,支持超大規(guī)模數(shù)據(jù)中心內(nèi)的長(zhǎng)距離數(shù)據(jù)傳輸。將這一優(yōu)勢(shì)融入PCIe連接,通過(guò)開發(fā)新型PCIe over optics解決方案(含AOC),相較于銅纜,能顯著擴(kuò)展PCIe連接至機(jī)架集群范圍,并優(yōu)化電纜管理。
PCIe/CXL?在光學(xué)器件領(lǐng)域的運(yùn)用,主要受其相較于以太網(wǎng)更低的延遲需求驅(qū)動(dòng),特別是在緩存一致內(nèi)存事務(wù)及GPU間并行處理等高負(fù)載應(yīng)用中。此外,這些應(yīng)用還需借助專用軟件對(duì)鏈路實(shí)施全面管理,以確保協(xié)議完全兼容及系統(tǒng)高度可靠。
總之,“PCIe over optics”技術(shù)的出現(xiàn),為數(shù)據(jù)中心內(nèi)部的數(shù)據(jù)傳輸提供了新的解決方案。它不僅提高了數(shù)據(jù)傳輸?shù)男屎头€(wěn)定性,還降低了運(yùn)維成本,為AI平臺(tái)的加速部署和下一代生成式AI應(yīng)用程序的快速發(fā)展提供了有力支持。隨著技術(shù)的不斷進(jìn)步和應(yīng)用場(chǎng)景的不斷拓展,“PCIe over optics”有望成為未來(lái)數(shù)據(jù)存儲(chǔ)與傳輸領(lǐng)域的主流技術(shù)之一。