日本美女牲交免费播放,亚洲无码在线无码在线口爆,精品女同一区二区在线播放

隨著生成式人工智能功能的日益強(qiáng)大，使得模型訓(xùn)練需求呈現(xiàn)爆發(fā)式增長(zhǎng)。在這一背景下，任何單一的圖形處理器（GPU）、異構(gòu)處理器（XPU）或其他人工智能加速器，都已難以滿足人工智能工作負(fù)載的龐大計(jì)算需求。

這種需求的激增，有力地推動(dòng)了人工智能基礎(chǔ)設(shè)施建設(shè)的持續(xù)擴(kuò)張。大模型的Scaling Law（尺度定律）在未來(lái)一段時(shí)間內(nèi)將保持其有效性。所謂Scaling Law，指的是數(shù)據(jù)量和參數(shù)規(guī)模增加，模型的性能也隨之提升?？梢灶A(yù)見(jiàn)，在不久的將來(lái)，成千上萬(wàn)，甚至數(shù)十萬(wàn)個(gè)人工智能加速器必須協(xié)同工作，并且它們的集群規(guī)模會(huì)隨著訓(xùn)練參數(shù)的持續(xù)增加而不斷擴(kuò)大。

全球AI集群建設(shè)持續(xù)擴(kuò)展：從“萬(wàn)卡集群”到“十萬(wàn)卡集群”

當(dāng)前，“萬(wàn)卡集群”被業(yè)界視為這一輪大模型競(jìng)賽的“入場(chǎng)券”，而如今，“十萬(wàn)卡集群”正成為科技巨頭們競(jìng)逐的新高地。

早在去年7月，馬斯克便宣布旗下初創(chuàng)人工智能公司xAI在美國(guó)孟菲斯建立了一個(gè)超級(jí)集群，號(hào)稱是“全球最強(qiáng)大的AI訓(xùn)練集群”。該集群由100,000個(gè)英偉達(dá)的液冷H100 GPU組成，并在單個(gè)RDMA結(jié)構(gòu)（即遠(yuǎn)程直接數(shù)據(jù)存取結(jié)構(gòu)）上運(yùn)行。

緊接著，去年9月份的百度云智大會(huì)上，百度宣布對(duì)作為算力基礎(chǔ)設(shè)施的百舸AI異構(gòu)計(jì)算平臺(tái)進(jìn)行升級(jí)，新升級(jí)的百舸4.0也具備成熟的十萬(wàn)卡集群部署和管理能力。同一時(shí)期，阿里云在云棲大會(huì)上宣布其單網(wǎng)絡(luò)集群已擴(kuò)展至十萬(wàn)卡級(jí)別。騰訊則基于自研的高性能網(wǎng)絡(luò)星脈，以及新一代算力集群HCC，同樣能夠支持10萬(wàn)卡GPU的超大計(jì)算規(guī)模。

人工智能基礎(chǔ)設(shè)施的Scale Up和Scale Out擴(kuò)展

AI算力集群通常由AI服務(wù)器、高速交換機(jī)構(gòu)成。AI加速器是AI算力的最小單元，一臺(tái)服務(wù)器通常會(huì)包含多個(gè)加速器。為便于管理，多臺(tái)服務(wù)器組成一個(gè)機(jī)柜，并通過(guò)架頂交換機(jī)實(shí)現(xiàn)互連。

如前文所述，單芯片的算力和內(nèi)存存在局限性，無(wú)法承載大模型的計(jì)算任務(wù)。因此，通過(guò)多種互連技術(shù)將多顆算力芯片互連在一起，以提供大規(guī)模的算力和內(nèi)存，已成為目前人工智能集群建設(shè)的主要方法。GPU的互連主要分為業(yè)務(wù)互連、Scale Up網(wǎng)絡(luò)互連和Scale Out互連，它們各自承擔(dān)著不同的業(yè)務(wù)流。

業(yè)務(wù)網(wǎng)絡(luò)互連承載著諸如需要計(jì)算的輸入數(shù)據(jù)、輸出結(jié)果，以及在各類存儲(chǔ)系統(tǒng)中的模型參數(shù)、checkpoint等。由于其需要進(jìn)行極大范圍的互連，并且要與云上的存儲(chǔ)、業(yè)務(wù)接口等互通，所以多采用以太網(wǎng)技術(shù)，通常支持各類RDMA。

Scale Up網(wǎng)絡(luò)互連通過(guò)將不同GPU互連，在節(jié)點(diǎn)內(nèi)部進(jìn)行擴(kuò)展，即所謂的縱向擴(kuò)展；而Scale Out網(wǎng)絡(luò)互連則通常是將集群橫向擴(kuò)展到更多的GPU機(jī)柜，從而使AI集群的規(guī)模進(jìn)一步擴(kuò)大，即所謂的橫向擴(kuò)展。

新互連標(biāo)準(zhǔn)助力AI基礎(chǔ)設(shè)施無(wú)縫擴(kuò)展

目前，以谷歌、博通、亞馬遜、AMD、微軟、Meta、Marvell等為首的北美科技巨頭企業(yè)，為了取得AI競(jìng)爭(zhēng)優(yōu)勢(shì)，正紛紛自研AI芯片，并建立新的高速互連標(biāo)準(zhǔn)。

以AMD、博通為代表的AI芯片廠商正逐漸搶占更多市場(chǎng)份額。AMD提供GPU芯片，博通則主要憑借其ASIC定制化芯片服務(wù)能力。此外，OpenAI、微軟等科技巨頭也紛紛投身自研AI芯片領(lǐng)域。

在高速互連領(lǐng)域，對(duì)于Scale Up網(wǎng)絡(luò)互連，2024年10月，由AMD、亞馬遜AWS、Astera Labs、思科、谷歌、慧與（HPE）、英特爾、Meta和微軟9家企業(yè)發(fā)起的Ultra Accelerator Link Consortium（UALink聯(lián)盟）正式成立。該聯(lián)盟旨在為AI Pod和集群中加速器與交換機(jī)之間的縱向擴(kuò)展通信定義一種高速、低延遲的互聯(lián)規(guī)范。

對(duì)于Scale Out網(wǎng)絡(luò)互連。超以太網(wǎng)聯(lián)盟（Ultra Ethernet，UEC）未來(lái)有望成為AI網(wǎng)絡(luò)的主流方案。超以太網(wǎng)聯(lián)盟由AMD、Arista、博通、思科等硬件廠商以及微軟、新思科技和Meta等云廠商牽頭成立，借助以太網(wǎng)的生態(tài)優(yōu)勢(shì)，致力于打造滿足AI和HPC網(wǎng)絡(luò)需求的新一代標(biāo)準(zhǔn)。

UALink技術(shù)和超以太網(wǎng)技術(shù)特點(diǎn)

UALink技術(shù)

UALink作為一種Scale Up架構(gòu)，能夠在數(shù)十到數(shù)百個(gè)專用人工智能加速器之間建立基于標(biāo)準(zhǔn)的、具有極高帶寬連接的網(wǎng)絡(luò)。它將網(wǎng)絡(luò)從臨時(shí)的網(wǎng)絡(luò)配置轉(zhuǎn)變?yōu)楦訕?biāo)準(zhǔn)化的網(wǎng)絡(luò)，從而能夠構(gòu)建具備更高基數(shù)系統(tǒng)的網(wǎng)絡(luò)，并配備專用的超高速加速器鏈路交換機(jī)。

UALink構(gòu)建了一個(gè)高速、低延遲的網(wǎng)絡(luò)，該網(wǎng)絡(luò)可連接一個(gè)計(jì)算節(jié)點(diǎn)內(nèi)的多個(gè)加速器（如GPU）。這使得每個(gè)加速器都能夠直接訪問(wèn)其他加速器的內(nèi)存，從而讓整個(gè)計(jì)算節(jié)點(diǎn)的功能就如同一塊單一的、大型的GPU。從軟件層面來(lái)看，這些相互連接的GPU組就像是一個(gè)單一的、大型的GPU塊。

UALink具有以下技術(shù)特點(diǎn)：

高帶寬：UALink每條通道的帶寬高達(dá)200Gbps，可實(shí)現(xiàn)加速器之間的高效數(shù)據(jù)傳輸。

輕量級(jí)協(xié)議：該協(xié)議設(shè)計(jì)為輕量級(jí)，可減少開(kāi)銷并確保高效通信。

高效性：亞微秒級(jí)的延遲提升了推理性能，并且能夠在不分割工作負(fù)載的情況下實(shí)現(xiàn)對(duì)八個(gè)以上GPU的擴(kuò)展。

開(kāi)放標(biāo)準(zhǔn)：UALink是一項(xiàng)開(kāi)放的行業(yè)標(biāo)準(zhǔn)，有助于促進(jìn)互操作性并減少對(duì)單一供應(yīng)商的依賴。

內(nèi)存共享：其具備特定的內(nèi)存共享功能，使加速器能夠高效訪問(wèn)共享內(nèi)存資源。支持在數(shù)百個(gè)GPU之間進(jìn)行加載、存儲(chǔ)和原子操作，最大限度地減少端到端延遲并降低功耗。

同步特性：UALink包含同步特性，以確保多個(gè)加速器之間的一致性和高效運(yùn)行。、

與UEC互補(bǔ)：能與UEC良好協(xié)作，以實(shí)現(xiàn)更廣泛的可擴(kuò)展性。

超以太網(wǎng)技術(shù)

超以太網(wǎng)系統(tǒng)由包含節(jié)點(diǎn)和架構(gòu)基礎(chǔ)設(shè)施的集群組成。節(jié)點(diǎn)通過(guò)架構(gòu)接口（網(wǎng)卡）連接到網(wǎng)絡(luò)，這些架構(gòu)接口可以承載多個(gè)邏輯架構(gòu)端點(diǎn)（FEP）。網(wǎng)絡(luò)被劃分為多個(gè)平面，每個(gè)平面都包含通常通過(guò)交換機(jī)相互連接的架構(gòu)端點(diǎn)。

圖4：超以太網(wǎng)集群圖。（圖源：新思科技）

這些集群可以在兩種主要模式下工作，以處理不同的任務(wù)。

并行作業(yè)模式：系統(tǒng)運(yùn)行任務(wù)直至完成，并允許多個(gè)節(jié)點(diǎn)同時(shí)進(jìn)行通信。這對(duì)于需要大量并行處理的高性能計(jì)算任務(wù)來(lái)說(shuō)非常理想。

客戶端/服務(wù)器模式：該系統(tǒng)是為存儲(chǔ)任務(wù)而設(shè)置的。在這種模式下，服務(wù)器持續(xù)處理來(lái)自多個(gè)客戶端的請(qǐng)求，通信發(fā)生在特定的節(jié)點(diǎn)之間。這種模式非常適用于對(duì)于可靠且一致的數(shù)據(jù)訪問(wèn)和管理。

超以太網(wǎng)技術(shù)具有以下技術(shù)特點(diǎn)：

物理層：與IEEE 802.3標(biāo)準(zhǔn)以太網(wǎng)兼容，可基于前向糾錯(cuò)（FEC）碼字進(jìn)行可選的性能監(jiān)測(cè)。諸如不可糾正碼字率（UCR）和平均分組錯(cuò)誤間隔時(shí)間（MTBPE）等指標(biāo)，可深入了解傳輸性能和可靠性。

數(shù)據(jù)鏈路層：引入鏈路級(jí)重傳（LLR）協(xié)議，實(shí)現(xiàn)無(wú)損傳輸，且不依賴于優(yōu)先級(jí)流量控制（PFC）。這確保了更快的錯(cuò)誤恢復(fù)，消除了不必要的端到端重傳，并減少了尾部延遲。

分組速率提升（PRI）：壓縮以太網(wǎng)和IP報(bào)頭以提高分組速率，解決因舊有功能和冗余協(xié)議字段導(dǎo)致的效率低下問(wèn)題。

鏈路協(xié)商協(xié)議：通過(guò)協(xié)商功能擴(kuò)展了鏈路層發(fā)現(xiàn)協(xié)議（LLDP），以檢測(cè)并啟用鏈路級(jí)重傳（LLR）和分組速率提升（PRI）等受支持的功能。

傳輸層：旨在解決傳統(tǒng)遠(yuǎn)程直接內(nèi)存訪問(wèn)（RDMA）網(wǎng)絡(luò)的局限性，具備選擇性重傳、亂序交付、分組噴射以及先進(jìn)的擁塞控制機(jī)制等特點(diǎn)。它支持多種傳輸模式，包括可靠有序交付（ROD）、可靠無(wú)序交付（RUD）和不可靠無(wú)序交付（UUD）。

擁塞控制：實(shí)現(xiàn)諸如內(nèi)聚流管理、加速速率調(diào)整、基于遙測(cè)的控制以及通過(guò)分組噴射進(jìn)行自適應(yīng)路由等功能，以最大限度地減少尾部延遲并提升網(wǎng)絡(luò)性能。

安全性：在傳輸層融入基于作業(yè)的安全性，利用互聯(lián)網(wǎng)安全協(xié)議（IPSec）和數(shù)據(jù)包保護(hù)協(xié)議（PSP）功能，最大限度地減少加密開(kāi)銷并支持硬件卸載。

新思科技業(yè)界首款超以太網(wǎng)和UALink IP解決方案

隨著超大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施的加速發(fā)展，必須擴(kuò)展到數(shù)十萬(wàn)個(gè)具有高效快速連接的加速器，才能夠支持處理大型語(yǔ)言模型中的數(shù)萬(wàn)億個(gè)參數(shù)。在這樣的背景下，新思科技推出的業(yè)界首款超以太網(wǎng)IP和UALink IP解決方案猶如一場(chǎng)及時(shí)雨，滿足業(yè)界對(duì)高帶寬、低延遲互連技術(shù)的迫切需求。

新思科技的UALink IP解決方案的領(lǐng)先性能：

垂直擴(kuò)展計(jì)算結(jié)構(gòu)的IP解決方案：新思科技UALink IP解決方案由PHY、控制器和驗(yàn)證IP組成，助力開(kāi)發(fā)者加快開(kāi)發(fā)，可支持多達(dá)1024個(gè)AI加速器的系統(tǒng)的上市時(shí)間；

高效、高速的數(shù)據(jù)傳輸：低功耗、高帶寬的新思科技UALink PHY IP專為數(shù)據(jù)密集型AI工作負(fù)載而設(shè)計(jì)，每通道可提供200Gbps的傳輸速度；

具有內(nèi)存共享功能的延遲優(yōu)化：新思科技UALink控制器IP通過(guò)從加速器到加速器的共享內(nèi)存訪問(wèn)，幫助緩解AI硬件基礎(chǔ)設(shè)施的關(guān)鍵瓶頸；

內(nèi)置協(xié)議檢查：新思科技UALink驗(yàn)證IP與新思科技硬件加速驗(yàn)證解決方案相結(jié)合，為AI硬件提供快速可靠的驗(yàn)證。

值得一提的是，2025年1月，新思科技、蘋果和阿里巴巴還加入了UALink聯(lián)盟董事會(huì)，共同推進(jìn)下一代AI集群互連技術(shù)的發(fā)展。

而新思科技超以太網(wǎng)IP解決方案則具有以下領(lǐng)先性能：

可擴(kuò)展后端網(wǎng)絡(luò)的IP解決方案：新思科技超以太網(wǎng)IP解決方案由PHY、MAC和PCS控制器以及驗(yàn)證IP組成，為開(kāi)發(fā)者開(kāi)發(fā)可在單個(gè)網(wǎng)絡(luò)中支持多達(dá)一百萬(wàn)個(gè)端點(diǎn)的系統(tǒng)提供了一條低風(fēng)險(xiǎn)途徑；

全球領(lǐng)先的224G以太網(wǎng)PHY IP：經(jīng)過(guò)硅驗(yàn)證的新思科技224G以太網(wǎng)PHY IP支持超以太網(wǎng)協(xié)議，并已在ECOC、OFC和DesignCon等多個(gè)行業(yè)展覽上展示其廣泛的互操作性；

獲得專利的糾錯(cuò)實(shí)現(xiàn)：新思科技超以太網(wǎng)MAC和PCS控制器IP提供高達(dá)1.6 Tbps的帶寬和超低延遲，可實(shí)現(xiàn)AI工作負(fù)載所需的實(shí)時(shí)處理；

無(wú)縫集成：MAC和PCS IP支持與超以太網(wǎng)堆棧更高層的接口，為交換機(jī)、AI加速器和智能NIC提供完整的芯片實(shí)現(xiàn)；

加速驗(yàn)證和確認(rèn)：新思科技超以太網(wǎng)驗(yàn)證IP有助于確保協(xié)議符合快速發(fā)展的行業(yè)標(biāo)準(zhǔn)，從而更快、更高效地驗(yàn)證AI和HPC系統(tǒng)。

寫在最后

隨著AI產(chǎn)業(yè)的迅猛發(fā)展，AI算力、運(yùn)力需求大幅提升，這對(duì)于網(wǎng)絡(luò)互連技術(shù)也提出了全新的要求。人工智能集群網(wǎng)絡(luò)需要從Scale Up和Scale Out兩方面進(jìn)行擴(kuò)展，以建立基于標(biāo)準(zhǔn)的、具有高帶寬和低延遲的連接網(wǎng)絡(luò)。

新思科技最新的UALink和超以太網(wǎng)IP解決方案，再結(jié)合其PCIe 7.0、1.6T以太網(wǎng)、CXL、高帶寬存儲(chǔ)（HBM），以及通用芯片互連（UCIe）等互聯(lián)IP產(chǎn)品，將進(jìn)一步推動(dòng)人工智能和高性能計(jì)算在性能、可擴(kuò)展性、效率以及互操作性方面達(dá)到新的高度，為AI產(chǎn)業(yè)的持續(xù)繁榮注入強(qiáng)大動(dòng)力。

從“萬(wàn)卡集群”到“十萬(wàn)卡集群”，需要怎樣的高速互連技術(shù)？

全球AI集群建設(shè)持續(xù)擴(kuò)展：從“萬(wàn)卡集群”到“十萬(wàn)卡集群”

人工智能基礎(chǔ)設(shè)施的Scale Up和Scale Out擴(kuò)展

新互連標(biāo)準(zhǔn)助力AI基礎(chǔ)設(shè)施無(wú)縫擴(kuò)展

UALink技術(shù)和超以太網(wǎng)技術(shù)特點(diǎn)

UALink具有以下技術(shù)特點(diǎn)：

超以太網(wǎng)技術(shù)

新思科技業(yè)界首款超以太網(wǎng)和UALink IP解決方案

寫在最后

相關(guān)推薦

從“萬(wàn)卡集群”到“十萬(wàn)卡集群”，需要怎樣的高速互連技術(shù)？

全球AI集群建設(shè)持續(xù)擴(kuò)展：從“萬(wàn)卡集群”到“十萬(wàn)卡集群”

人工智能基礎(chǔ)設(shè)施的Scale Up和Scale Out擴(kuò)展

新互連標(biāo)準(zhǔn)助力AI基礎(chǔ)設(shè)施無(wú)縫擴(kuò)展

UALink技術(shù)和超以太網(wǎng)技術(shù)特點(diǎn)

UALink具有以下技術(shù)特點(diǎn)：

超以太網(wǎng)技術(shù)

新思科技業(yè)界首款超以太網(wǎng)和UALink IP解決方案

寫在最后

相關(guān)推薦

從“萬(wàn)卡集群”到“十萬(wàn)卡集群”，需要怎樣的高速互連技術(shù)？