• 正文
    • 不讓存儲拖AI的后腿
    • 存儲主控的“六邊形戰(zhàn)士”
    • 劈開行業(yè)應(yīng)用的存力枷鎖
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

低調(diào)平頭哥,吹響先進(jìn)存力商業(yè)化號角

03/18 11:45
554
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

克雷西 發(fā)自 凹非寺,量子位 | 公眾號 QbitAI

“在AI時代,我們必須全面提升先進(jìn)存力。”

這就是平頭哥半導(dǎo)體產(chǎn)品總監(jiān)周冠鋒,在中國存儲界的盛會MemoryS 2025存儲峰會上給出的關(guān)于AI存力發(fā)展的號召。

要知道,相比于各種形態(tài)的算力設(shè)施,存儲設(shè)備在AI基礎(chǔ)設(shè)施當(dāng)中受到的關(guān)注是相對較少的——

顯然,人們從未滿足于算力的發(fā)展水平,但在聚光燈效應(yīng)之下,存力發(fā)展更加不充分的現(xiàn)狀卻沒有得到充分重視

實(shí)際上,如果把AI算力比作水力發(fā)電,那么存儲就像水庫,同樣會對AI等各種大規(guī)模數(shù)據(jù)應(yīng)用形成制約。

2018年成立的平頭哥,憑借自研的SSD主控芯片鎮(zhèn)岳510,已經(jīng)成為存儲設(shè)施建設(shè)的重要力量。

在這屆峰會上,AI存力的發(fā)展建設(shè)成為了重要議題,在諸多與會者面前,平頭哥展示出了AI存力的鎮(zhèn)岳510方案。

不讓存儲拖AI的后腿

上線一年多的鎮(zhèn)岳510,帶來了商業(yè)化落地的新進(jìn)展——

鎮(zhèn)岳510已在阿里云的EBS規(guī)?;暇€,大幅提升了整體系統(tǒng)的IOPS和吞吐帶寬,更大幅優(yōu)化IO延遲,相當(dāng)于在同等資源條件下,幫助阿里云EBS客戶承載更多訪問量,間接實(shí)現(xiàn)降本增效。

更重要的是,鎮(zhèn)岳510也讓跑在阿里云EBS業(yè)務(wù)上的客戶應(yīng)用獲得了更快的響應(yīng),從而贏得了更好的用戶體驗(yàn)。

云計(jì)算場景之外,平頭哥也為SSD整盤廠商提供了新的選擇。

例如憶恒創(chuàng)源的PBlaze7 7A40系列SSD產(chǎn)品,就基于鎮(zhèn)岳510打造,成為業(yè)界首款具有100萬IOPS的4K隨機(jī)寫性能的企業(yè)級SSD產(chǎn)品;

得瑞領(lǐng)新剛剛發(fā)布的旗下首款PCIe 5.0高性能企業(yè)級NVMe SSD D8436/D8456系列,也利用鎮(zhèn)岳510,相比上一代PCIe4.0產(chǎn)品實(shí)現(xiàn)了70%性能功耗比的提升。

高IO吞吐、高傳輸帶寬、低IO延……一系列特性都瞄準(zhǔn)了存力發(fā)展不足給AI帶來的制約。

那么,SSD對于AI應(yīng)用來說都起到了什么樣的關(guān)鍵作用呢?

運(yùn)算、傳輸、存儲……馮·諾依曼的計(jì)算機(jī)設(shè)計(jì)思想將AI基礎(chǔ)設(shè)施的運(yùn)轉(zhuǎn)劃分出了多個流程,既相對獨(dú)立,各個環(huán)節(jié)之間又彼此關(guān)聯(lián)。

就以大模型為例,其訓(xùn)練過程中的GPU的利用率,直接受限于數(shù)據(jù)的供給速度。并且由于SSD的I/O延遲(50-100 μs)遠(yuǎn)高于DRAM延遲(50-100 ns),數(shù)據(jù)從存儲到內(nèi)存的傳輸,正是大模型訓(xùn)練數(shù)據(jù)供給速度的瓶頸。

到了推理階段,很多行業(yè)大模型需要在極短時間內(nèi)進(jìn)行實(shí)施決策,也需要更高的數(shù)據(jù)訪問速度和更低的數(shù)據(jù)時延。

此外,在AI大模型的訓(xùn)練和部署中會間歇性的大量寫入Checkpoint檢查點(diǎn)環(huán)節(jié),存儲設(shè)備需要具備所需的高寫入吞吐量。

反過來看,在算力一定的情況下,提高存儲設(shè)備的數(shù)據(jù)供給速度,就能拉高單位算力的利用效率,節(jié)省出算力時間。

上個月的DeepSeek開源周中,DeepSeek在最后一天開源了3FS文件系統(tǒng),就是一個有效例證。3FS的目標(biāo)就是把SSD的帶寬利用率提升到極致,從而降低模型的訓(xùn)練總成本。

這還是在存儲能力本身沒有提高情況下的結(jié)果,如果存儲設(shè)備自身的能力得到提升,那么對AI訓(xùn)練的降本增效更加有所裨益。并且相比于堆更多算力,對存力地提升也是一種更加經(jīng)濟(jì)的選擇。

所以,周冠鋒認(rèn)為,DeepSeek的3FS,一方面在刺激著AI從業(yè)者將存儲設(shè)施升級到性能更高的PCIe 5.0接口設(shè)備,另一方面也在激勵做存力的廠商進(jìn)一步提高其產(chǎn)品的性能。

也就是說,DeepSeek將作為催化劑,同時從需求和供給兩側(cè),推動改善存力設(shè)備相對于算力發(fā)展的不足。更為有利的是,DeepSeek這個“催化劑”帶來的這波新機(jī)遇,剛好貼合了SSD行業(yè)固有的演進(jìn)節(jié)奏。

周冠鋒介紹,結(jié)合SSD行業(yè)固有的節(jié)奏,以及服務(wù)器、CPU他們的演進(jìn)節(jié)奏,2025年會是PCIe 5服務(wù)器的大規(guī)模上線的崛起之年。這樣的節(jié)奏,剛好匹配了基于鎮(zhèn)岳510的SSD大規(guī)模上線的節(jié)奏。

實(shí)際上,SSD是一個長周期行業(yè),鎮(zhèn)岳510早在2021年開始立項(xiàng),當(dāng)時就定下了PCIe 5的接口方案,讓鎮(zhèn)岳510在產(chǎn)品上市之后剛好匹配市場需求。這對從業(yè)者的前瞻性視野和對行業(yè)規(guī)律的精準(zhǔn)把握,無疑都具有極高的要求。

而現(xiàn)在,鎮(zhèn)岳510在阿里云EBS的上線,以及合作伙伴整盤產(chǎn)品的推出,已經(jīng)證明了平頭哥的這個選擇,給鎮(zhèn)岳510帶來了成功。

當(dāng)然,如果說前瞻性的視野為平頭哥找到了成功的方向,那么還需要有足夠的驅(qū)動力,才能走向成功。

這個驅(qū)動力,無疑就是技術(shù)。

存儲主控的“六邊形戰(zhàn)士”

在鎮(zhèn)岳510的研發(fā)過程中,平頭哥進(jìn)行了芯片架構(gòu)和算法的全面創(chuàng)新。

鎮(zhèn)岳510采用平頭哥自研緊耦合芯片架構(gòu),能夠適應(yīng)AI等高性能應(yīng)用場景。

它可以對SSD任務(wù)進(jìn)行高度抽象,將表項(xiàng)管理、隊(duì)列管理、Buffer管理等可固化任務(wù)硬化為加速算子,以提升性能,地址分配、錯誤處理等FTL關(guān)鍵任務(wù)則運(yùn)行于CPU,以保持靈活性。

鎮(zhèn)岳510每秒可處理高達(dá)340萬次IO,相當(dāng)于1萬塊高性能機(jī)械硬盤(HDD)的性能總和,數(shù)據(jù)帶寬達(dá)到了14GByte/s。

同時鎮(zhèn)岳510還支持最新的PCle 5.0主機(jī)接口以及DDR5.0內(nèi)存接口,進(jìn)一步提升了芯片的數(shù)據(jù)吞吐速率。

延時上,鎮(zhèn)岳510實(shí)現(xiàn)了4μs的超低時延,比業(yè)界主流降低30%以上;在阿里云EBS上的實(shí)測結(jié)果也表明,鎮(zhèn)岳510將讀寫混合99.99%長尾延時降低了92%。

這得益于平頭哥創(chuàng)新的IO自動化處理機(jī)制,將前端IO的解析與處理交由專用硬件模塊自動完成,也得益于芯片的實(shí)現(xiàn)了IO/SYS/GC全鏈路隔離,極大地降低這些任務(wù)之間的相互干擾。

此外,平頭哥也提前預(yù)見AI的發(fā)展會對IO模型帶來的差異,采取了靈活性的設(shè)計(jì),使得一年多之后的今天仍然能夠適配已經(jīng)今非昔比的AI場景,讓AI發(fā)展不再受制于先進(jìn)存力的短缺。

在準(zhǔn)確率上,鎮(zhèn)岳510實(shí)現(xiàn)了低至10^-18的UBER(不可修復(fù)的錯誤比特率),相當(dāng)于每讀取百億億筆數(shù)據(jù),才可能有一筆數(shù)據(jù)糾錯失敗,比業(yè)內(nèi)標(biāo)桿領(lǐng)先了一個數(shù)量級。

因?yàn)樵谒惴▽用?,?zhèn)岳510采用了平頭哥自研的高性能LDPC(奇偶校驗(yàn)碼)糾錯算法,編碼效率逼近香農(nóng)極限,同時還利用TappingSet消除算法,消除工作過程中產(chǎn)生的譯碼環(huán),從而將ErrorFloor降低一個數(shù)量級。

平頭哥還自研了閃存電壓預(yù)測算法,采取拋物線擬合方式,在各種閃存的不同工況、壽命、溫度等條件下,準(zhǔn)確預(yù)測閃存電壓漂移,進(jìn)一步降低LDPC解碼器的輸入誤碼率。

另外,鎮(zhèn)岳510也更加節(jié)能,每瓦功耗可提供42萬筆的IO訪問。

以一個部署了10萬塊SSD的數(shù)據(jù)中心為例,相比目前主流的PCIe 4.0 SSD,鎮(zhèn)岳510在相同的性能下,僅主控芯片即每年節(jié)省260萬度電,相當(dāng)于2.6萬塊100度汽車電池的總能量。并且,選擇更加節(jié)能的存儲芯片,不僅是出于電力成本或環(huán)境保護(hù)。

算力設(shè)備進(jìn)步的同時,功耗和發(fā)熱也大幅增加,在算力設(shè)別擁有絕對話語權(quán)的背景之下,有限的散熱能力也會被優(yōu)先分配給算力設(shè)備,使得存力設(shè)備不得不在功耗上做出升級。

劈開行業(yè)應(yīng)用的存力枷鎖

平頭哥擁有更多基礎(chǔ)設(shè)施、應(yīng)用場景,可通過阿里云業(yè)務(wù)對其產(chǎn)品進(jìn)行實(shí)際驗(yàn)證。在驗(yàn)證取得成功之后,平頭哥也希望推動存力生態(tài)建設(shè),拓展行業(yè)合作,將先進(jìn)存力帶到更多應(yīng)用場景。

比如在金融行業(yè),一個微小的錯誤就有可能帶來不可挽回的損失,因而可靠、安全是最重要的指標(biāo);

在智能電力調(diào)度當(dāng)中,需要根據(jù)情況進(jìn)行實(shí)時決策研判,低延時就成了最關(guān)鍵的考量;

還有在搜索行業(yè),并發(fā)量大又成了一個典型特征,給IOPS帶來了更大的需求;

除此之外,在不同行業(yè)間,甚至行業(yè)內(nèi)部,對成本的把控同樣是要考慮的問題……

所以,平頭哥把鎮(zhèn)岳510做成了集容量、時延、成本、能效、可靠和帶寬于一體的“六邊形戰(zhàn)士”,在硬件上對每個行業(yè)的不同需求都能夠提供保障。

結(jié)合鎮(zhèn)岳510的靈活性設(shè)計(jì),就可以再根據(jù)行業(yè)特點(diǎn),通過不同的固件軟件對行業(yè)看中的最關(guān)鍵因素進(jìn)行專門化增強(qiáng),從而游刃有余地走向千行百業(yè)。

總之,平頭哥憑借著全面的技術(shù)和算法創(chuàng)新,突破了各行各業(yè)先進(jìn)存力發(fā)展的瓶頸,未來將全面加速創(chuàng)新。

不難看出,平頭哥在先進(jìn)存力上,展現(xiàn)出了十足的野望——

劈開行業(yè)應(yīng)用的存力枷鎖,將先進(jìn)存力推向百業(yè)千行。

時間上,平頭哥趕上了存儲設(shè)備迭代與AI在千行百業(yè)的廣泛落地的雙重機(jī)遇;資源方面,平頭哥的阿里背景也給其提供了堅(jiān)實(shí)的保障;

再看平頭哥自身,也對存力發(fā)展的規(guī)律有著全面的把握和前瞻性的眼光,并同時在軟硬件上不斷創(chuàng)新;天時地利人和之下,平頭哥立志要成為這一波存力設(shè)備升級換代潮當(dāng)中的引領(lǐng)者。

低調(diào)的平頭哥,這次注定要高調(diào)地將先進(jìn)存力SSD這塊短板補(bǔ)上。

平頭哥

平頭哥

平頭哥半導(dǎo)體有限公司于2018年9月宣布成立,是阿里巴巴集團(tuán)的全資半導(dǎo)體芯片業(yè)務(wù)主體。平頭哥擁有端云一體全棧產(chǎn)品系列,涵蓋數(shù)據(jù)中心人工智能芯片、處理器IP授權(quán)等,實(shí)現(xiàn)芯片端到端設(shè)計(jì)鏈路全覆蓋。

平頭哥半導(dǎo)體有限公司于2018年9月宣布成立,是阿里巴巴集團(tuán)的全資半導(dǎo)體芯片業(yè)務(wù)主體。平頭哥擁有端云一體全棧產(chǎn)品系列,涵蓋數(shù)據(jù)中心人工智能芯片、處理器IP授權(quán)等,實(shí)現(xiàn)芯片端到端設(shè)計(jì)鏈路全覆蓋。收起

查看更多

相關(guān)推薦