• 正文
    • 什么是DPU?
    • “九死一生”,國產DPU跑出來了嗎?
    • 云脈芯聯(lián):“智能網(wǎng)卡+AI網(wǎng)卡+DPU”三箭齊發(fā),YSA-100芯片迎量產
    • 披荊斬棘的DPU, 正在面臨怎樣的變革?
    • 寫在最后
  • 相關推薦
申請入駐 產業(yè)圖譜

國產DPU跑出來了嗎?

原創(chuàng)
2024/12/19
7084
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

什么是DPU?

相對標準網(wǎng)卡,最初具備加速和卸載功能的網(wǎng)卡被稱為智能網(wǎng)卡,當DPU(數(shù)據(jù)處理器)的概念出現(xiàn)后,智能網(wǎng)卡和DPU的概念則缺乏一個清晰的定義。以英偉達的DPU BlueField 系列和智能網(wǎng)卡CX系列為例,兩者的區(qū)別主要是BlueField 系列增加了多核的ARM通用CPU 處理單元,用于滿足控制平面的卸載,以此實現(xiàn)基礎設施服務的全卸載和宿主機業(yè)務物理上的安全隔離。

無論是智能網(wǎng)卡還是DPU,都具有一樣的核心功能,主要包含RDMA融合以太網(wǎng)(RoCE)、存儲加速卸載如NVMe-oF、VPC網(wǎng)絡卸載加速、存儲網(wǎng)絡IO虛擬化等。

因此,廣義上的DPU即包含DPU,又包含智能網(wǎng)卡。

“九死一生”,國產DPU跑出來了嗎?

2022年,DPU產業(yè)經歷了一場高開低走的市場變化,伴隨著AMD收購Pensando、微軟收購Fungible等動作,DPU又“熱”了一把,各路創(chuàng)業(yè)英雄不少。

與此同時,資本和行業(yè)界也卷起了一股對DPU創(chuàng)業(yè)的懷疑潮,有媒體甚至發(fā)出了“逃離DPU,因為DPU創(chuàng)業(yè)至少死掉九成”的言論。

站在兩年后的今天,不能說看到DPU產業(yè)跑出來了,但至少逃出了“2022年就出現(xiàn)資金問題”的悲觀預測,也并沒有出現(xiàn)“九死一生”的DPU創(chuàng)業(yè)慘狀。相反地,我們看到國內幾家頭部的DPU廠商已經流片成功,并開始商業(yè)落地。

云脈芯聯(lián):“智能網(wǎng)卡+AI網(wǎng)卡+DPU”三箭齊發(fā),YSA-100芯片迎量產

就在近日,云脈芯聯(lián)YSA-100網(wǎng)絡互聯(lián)芯片正式對外發(fā)布,同期發(fā)布的還有基于YSA-100這顆芯片底座研發(fā)的三款主力產品——metaScale系列智能網(wǎng)卡、metaConnect系列AI智能網(wǎng)卡和metaVisor系列AI DPU。

根據(jù)云脈芯聯(lián)創(chuàng)始人/總裁吳吉朋的介紹,YSA-100是國內第一顆擁有400Gbps接入能力的支持RDMA網(wǎng)絡互聯(lián)的芯片,而在此基礎上推出的三款產品分別面向不同的用戶市場。

圖片來源:云脈芯聯(lián)

  • metaScale系列智能網(wǎng)卡

metaScale是一款面向現(xiàn)代數(shù)據(jù)中心云場景、AI智算中心高性能網(wǎng)絡和高性能存儲領域打造的智能網(wǎng)卡,可提供優(yōu)異的網(wǎng)絡收發(fā)性能和成熟的平臺兼容性,已適配如英特爾、AMD、海光、飛騰5000C、鯤鵬920和申威等CPU,天數(shù)智芯、沐曦MetaX、寒武紀、摩爾線程等GPU,并已成功適配新華三、浪潮、戴爾等主流服務器。

  • metaConnect系列AI智能網(wǎng)卡

metaConnect是一款面向AI大模型業(yè)務,針對新型智算中心高性能網(wǎng)絡需求打造的AI智能網(wǎng)卡產品,擁有單口400Gbps RDMA網(wǎng)絡能力,可以有效加速GPU和AI芯片的計算效率,同時具備Lossy網(wǎng)絡傳輸能力,為AI大模型算力集群網(wǎng)絡提供高吞吐完全負載均衡的解決方案。

云脈芯聯(lián)方面透露,基于云脈芯聯(lián)自主創(chuàng)新的HyperDirect技術和多路徑擁塞控制算法,metaConnect-400系列對比市場同類產品網(wǎng)絡帶寬利用率可整體提升20%。

  • metaVisor系列AI DPU

metaVisor是一款面向大模型業(yè)務,針對智算中心基礎設施網(wǎng)絡管理運維監(jiān)控能力提升需求打造的AI DPU產品,除了支持傳統(tǒng)DPU的云計算租戶VPC網(wǎng)絡卸載和存儲卸載,提供高性能RDMA網(wǎng)絡能力外,還支持自主創(chuàng)新的HyperDirect技術,可有效加速GPU和AI芯片的計算效率。

此外,metaVisor系列AI DPU產品還能夠和云脈芯聯(lián)AI智能網(wǎng)卡產品協(xié)同構建端到端的高性能網(wǎng)絡監(jiān)控運維管理能力,為智算中心打造更有競爭力的產品解決方案。

關于用戶側表現(xiàn)和出貨情況,目前基于云脈芯聯(lián)YSA-100的產品已經正式量產出貨,并受到了包括兩家頭部互聯(lián)網(wǎng)大廠、頭部服務器廠商、智算基礎設施服務商在內的用戶較為廣泛的性能測試肯定,尤其是在RDMA方面的表現(xiàn)。

其中一位頭部互聯(lián)網(wǎng)廠商網(wǎng)絡負責人表示:“在端網(wǎng)融合的大趨勢下,網(wǎng)卡性能的提升,能夠顯著簡化網(wǎng)絡部署難度,提升整體網(wǎng)絡性能,而國產網(wǎng)卡的發(fā)力,則能夠很好的幫助國產廠商控制數(shù)據(jù)中心的總擁有成本(TCO)。在未來訓推一體的大趨勢下,需要智能網(wǎng)卡/DPU產品為網(wǎng)絡基礎設施提供更好的靈活性,能夠更快速的在訓練和推理應用之間,內部使用和對外售賣之間靈活轉換?!?/p>

另外,本土集成商新華三和浪潮信息也帶來了對metaConnect和metaScale的反饋。

新華三集團副總裁、人工智能研究院院長李飛介紹,在新華三4機32卡集群端網(wǎng)協(xié)同測試中,云脈芯聯(lián)metaConnect-400S AI NIC產品在400G RDMA網(wǎng)絡的集合通信庫方面的表現(xiàn)已比肩國際一線廠商產品水平,雙方聯(lián)創(chuàng)的解決方案目前也已在客戶側部署落地。

浪潮信息網(wǎng)絡研發(fā)部總經理李鵬翀則表示,云脈芯聯(lián)metaScale-50、metaScale-200和metaScale-200S目前已順利通過浪潮的供應商引入測試,未來將與浪潮產品一起服務客戶,同時采購的云脈芯聯(lián)YSA-100芯片,也將作為浪潮信息自研智能網(wǎng)卡的核心組件推向市場。

披荊斬棘的DPU, 正在面臨怎樣的變革?

DPU產業(yè)正在如火如荼的高速發(fā)展,那么到底是什么在支撐DPU行業(yè)披荊斬棘呢?筆者認為首先是人工智能行業(yè)的發(fā)展在持續(xù)推高市場側的需求,即解決數(shù)據(jù)中心等基礎設施的“降本增效”難題。具體來講就是將“CPU處理效率低下、GPU處理不了”的數(shù)據(jù)傳輸工作負載卸載到專用DPU,以提升整個計算系統(tǒng)的效率、降低整體系統(tǒng)的總體擁有成本(TCO)。

早些年,大家談論的更多是CPU處理效率低下情況下DPU的用武之處,但近年來,這個趨勢正在“被轉變”。因為近年來,在數(shù)據(jù)中心中,GPU服務器的占比越來越高。根據(jù)Dell’Oro Group的數(shù)據(jù)顯示,預計在3-5年后,即2027-2028年前后,GPU服務器的數(shù)量將超過CPU服務器的數(shù)量。屆時,DPU將更多地被用于解決大型集群中海量GPU協(xié)同工作的問題。

從云脈芯聯(lián)此次推出的產品,我們可以看到,metaConnect系列AI智能網(wǎng)卡和metaVisor系列AI DPU就是應這一趨勢推出的產品。

GPU服務器會帶來怎樣的改變呢?前幾年,當我們提到400G、800G覺得好像很遙遠,因為大家常用的還是10G、25G、50G網(wǎng)絡。但是,GPU并行計算一下子把網(wǎng)絡推到了400G以上。

DPU是一個強IO型的芯片,相較通過間接手段來支持網(wǎng)絡IO的CPU而言,DPU的IO帶寬幾乎可以與網(wǎng)絡帶寬等同,例如,網(wǎng)絡支持25G,那么DPU就要支持25G。

所以,當網(wǎng)絡帶寬從主流 10G朝著25G、40G、100G、200G、400G,甚至800G發(fā)展時,原來基于“CPU/NP”和“FPGA+CPU”這兩類硬件架構的DPU,除了在性能上難以為繼以外,在成本和功耗上也存在較大挑戰(zhàn),而結合了ASIC和CPU雙邊優(yōu)勢的“ASIC+CPU”硬件架構將引領產品趨勢。

寫在最后

受到地緣政治等不確定因素的影響,國內必須形成閉環(huán)的產業(yè)鏈才能實現(xiàn)真正自主的發(fā)展,而在AI領域,當前大家把更多的關注放在GPU等核心芯片上,事實上真正國產化低的是高速網(wǎng)卡,所以這也是接下來AI產業(yè)要克服的重點。

好在,近年來越來越多的國產DPU廠商拿出了可商業(yè)化的產品,也在不斷適配國內的CPU、GPU、路由等產品,希望在未來幾年的迭代后,可以真正做到高性能產品的自主可控。

云脈芯聯(lián)

云脈芯聯(lián)

上海云脈芯聯(lián)科技有限公司是一家專注于云數(shù)據(jù)中心網(wǎng)絡芯片產品研發(fā)與技術創(chuàng)新的高科技創(chuàng)新企業(yè)。公司致力于打造用于大規(guī)模數(shù)據(jù)中心和云計算基礎設施的網(wǎng)絡互聯(lián)芯片,幫助用戶構建端網(wǎng)融合的高性能網(wǎng)絡基礎設施,以應對進入全面數(shù)字化和智能化時代的技術挑戰(zhàn)。

上海云脈芯聯(lián)科技有限公司是一家專注于云數(shù)據(jù)中心網(wǎng)絡芯片產品研發(fā)與技術創(chuàng)新的高科技創(chuàng)新企業(yè)。公司致力于打造用于大規(guī)模數(shù)據(jù)中心和云計算基礎設施的網(wǎng)絡互聯(lián)芯片,幫助用戶構建端網(wǎng)融合的高性能網(wǎng)絡基礎設施,以應對進入全面數(shù)字化和智能化時代的技術挑戰(zhàn)。收起

查看更多

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄