2025年存儲產(chǎn)業(yè)趨勢
隨著Deepseek等AI大模型應(yīng)用的快速崛起,2025年的存儲產(chǎn)業(yè)正在經(jīng)歷一場前所未有的變革。以深度學習為例,訓練大型模型需要處理大量的原始數(shù)據(jù),并將這些數(shù)據(jù)轉(zhuǎn)化為可供模型學習的信息。這一過程不僅對計算能力提出了挑戰(zhàn),還要求存儲系統(tǒng)提供高性能的數(shù)據(jù)存取和處理能力。
那么AI大模型對存儲產(chǎn)業(yè)究竟帶來哪些新的需求?存儲技術(shù)在新需求的推動下又將出現(xiàn)哪些新的創(chuàng)新和突破?近日,在一年一度的閃存峰會(CFMS 2025)上,與非網(wǎng)記者接觸采訪到了國內(nèi)、國外多家存儲廠商代表,從晶圓廠、模組廠、到主控芯片廠商,讓我們來看看這些存儲廠商們?nèi)绾慰创鼳I產(chǎn)業(yè)帶來的影響吧!
“我們必須要承認AI讓存儲變得更為的基礎(chǔ)、更為的關(guān)鍵?!薄狢FM閃存市場總經(jīng)理邰煒
存儲產(chǎn)業(yè)市場趨勢,來源:與非研究院整理
CFM閃存市場總經(jīng)理邰煒表示AI已經(jīng)對存儲市場格局產(chǎn)生了明顯的變化,其中高帶寬內(nèi)存(HBM)和高性能固態(tài)硬盤(SSD)將成為支撐AI計算的核心技術(shù),而低延遲、大容量和高效能的存儲將直接影響AI工作負載的處理速度和精度。
2025年存儲產(chǎn)業(yè)呈現(xiàn)出顯著的變化,主要體現(xiàn)在DRAM、NAND Flash、以及應(yīng)用端的多元化需求上:
首先,DRAM產(chǎn)業(yè)面臨結(jié)構(gòu)性變化,HBM(高帶寬內(nèi)存)在DRAM市場的占比已接近30%,并在應(yīng)用上持續(xù)增長,特別是在服務(wù)器領(lǐng)域,已經(jīng)超過手機內(nèi)存消耗。HBM在高性能計算(如AI)中廣泛應(yīng)用,預(yù)計隨著英偉達GPU架構(gòu)的升級,HBM將在2024年迎來爆發(fā)性增長,并推動從HBM3到HBM3e的過渡,最終在2026年進入HBM4階段。
三星半導體軟件開發(fā)團隊執(zhí)行副總裁吳文旭表示,HBM4的出現(xiàn)標志著存儲行業(yè)在速度和定制化方面的進一步突破。與HBM3相比,HBM4引入了更多的可定制選項,允許客戶將專業(yè)IP與HBM相融合,以滿足特定應(yīng)用需求??蛻魧τ诙ㄖ苹疕BM的需求越來越高,尤其是在AI領(lǐng)域,創(chuàng)新成為了行業(yè)發(fā)展的關(guān)鍵驅(qū)動力。他認為,DDR5內(nèi)存正迎來更高容量的需求,客戶需求已從傳統(tǒng)的128GB擴展到256GB甚至更大容量。三星電子已投入大量資源,以提供市場上更大容量的DRAM產(chǎn)品。此外,MRDIMM(Multi-Rank DRAM)技術(shù)也在不斷發(fā)展,從最初的實驗性產(chǎn)品逐漸成為應(yīng)對AI基礎(chǔ)設(shè)施需求的關(guān)鍵技術(shù)。
吳文旭也認同,隨著AI計算需求的增加,SSD的容量和性能不斷提升,未來可能會達到128TB甚至更高。此外,針對AI技術(shù)的專用SSD已經(jīng)開始出現(xiàn),滿足AI工作負載的特定要求,成為高性能計算系統(tǒng)的重要組成部分。存儲容量的不斷擴展是響應(yīng)AI技術(shù)發(fā)展的重要趨勢。從最初的15TB SSD到未來可能達到128TB甚至256TB的超大容量產(chǎn)品,存儲產(chǎn)業(yè)正在不斷滿足AI計算、數(shù)據(jù)分析和訓練等應(yīng)用的需求。
在NAND Flash市場,QLC(四級單元)存儲的需求迅速增長,2024年出現(xiàn)了供不應(yīng)求的情況,預(yù)計QLC占市場的20%,并且企業(yè)級SSD的容量將大幅增長,像32TB、64TB、128TB等大容量SSD將迎來量產(chǎn)。QLC的市場滲透不僅限于服務(wù)器和PC,今年預(yù)計在手機中也將突破,512GB至1TB的QLC UFS預(yù)計將成為主流。2024年,NAND Flash市場規(guī)模達到700億美元,盡管價格回歸理性,但容量增長將持續(xù),推動整個市場穩(wěn)定發(fā)展。
隨著服務(wù)器市場成為存儲產(chǎn)業(yè)的核心驅(qū)動力,內(nèi)存和存儲需求快速增長。2024年,服務(wù)器內(nèi)存容量增長了107%,并且AI服務(wù)器占比預(yù)計達到14%。2025年,服務(wù)器將進一步增長,預(yù)計達到1330萬臺,并且主流服務(wù)器平臺全面支持DDR5和PCIe5.0技術(shù),帶來更高的計算性能和訓練效率,特別是在AI應(yīng)用中。特別值得注意的是,PCIe5.0的應(yīng)用將加速,預(yù)計在2025年將有30%的廠商支持PCIe5.0。
從應(yīng)用市場來看,手機市場在存儲需求上有所平穩(wěn),但AI的發(fā)展為其帶來了新的增長動力。預(yù)計2025年,AI手機將占到30%的市場份額,進一步推動LPDDR5X和未來LPDDR6的應(yīng)用。隨著AI技術(shù)的不斷進步,手機存儲需求不僅體現(xiàn)在更大的內(nèi)存容量,還包括更高的性能要求。隨著智能手機中集成了越來越多的大語言模型,UFS4.1能夠為AI應(yīng)用提供高速的數(shù)據(jù)傳輸,推動手機AI功能的發(fā)展。此技術(shù)支持更大的AI模型和處理能力,滿足用戶日常工作中的影像編輯、生成等多種需求。PC市場也正在快速迎接AI的到來,預(yù)計2025年AI PC將迎來質(zhì)的飛躍,LPDDR5X和DDR5內(nèi)存將成為主流,PCIE5技術(shù)將在PC中得到廣泛應(yīng)用,進一步提升計算能力和性能。智能汽車作為下一個重要的存儲市場,隨著智能駕駛技術(shù)的發(fā)展,存儲在智能汽車中的應(yīng)用將成為核心戰(zhàn)略資源,迎來新的發(fā)展階段。
存儲產(chǎn)業(yè)技術(shù)趨勢,來源:與非研究院整理
邰煒表示,由于AI的崛起,計算平臺逐步從傳統(tǒng)的CPU轉(zhuǎn)向GPU和NPU為核心的架構(gòu),這推動了對高性能內(nèi)存和存儲的需求。AI的需求使得內(nèi)存技術(shù)不斷創(chuàng)新,例如基于低功耗內(nèi)存的LPCAMM和SOCAMM等新型產(chǎn)品應(yīng)運而生。這些新形態(tài)的產(chǎn)品,特別是在數(shù)據(jù)中心領(lǐng)域,強調(diào)低功耗、密度優(yōu)化和高效能,以滿足AI計算平臺的需求。
CXL技術(shù)的逐步發(fā)展,特別是CXL3.0的推出,將為內(nèi)存池化提供強大的技術(shù)支持。內(nèi)存池化是一種通過硬件和軟件協(xié)同工作,將多個內(nèi)存模塊進行統(tǒng)一管理的方式,它可以極大地提升內(nèi)存資源的共享和靈活性。CXL3.0的應(yīng)用將推動內(nèi)存池化進入實際應(yīng)用階段,通過增加內(nèi)存帶寬、減少延遲,并優(yōu)化內(nèi)存配置,支持更大規(guī)模的內(nèi)存系統(tǒng),滿足高性能計算平臺對內(nèi)存的需求。三星XX認為,盡管CXL市場尚未成熟,但它正在成為未來計算架構(gòu)中的關(guān)鍵技術(shù)。CXL允許將大型DRAM通過網(wǎng)絡(luò)共享,使不同的GPU、CPU和計算系統(tǒng)能夠共同訪問高性能存儲資源。隨著CXL生態(tài)系統(tǒng)的建設(shè),存儲和計算資源將更加高效地協(xié)同工作。
AI驅(qū)動下的閃存需求?
“我們認為AI對閃存的需求主要分為這三點:高性能、大容量、低功耗。”——長江存儲市場負責人范增緒
作為國產(chǎn)存儲顆粒的代表,長江存儲近年來通過創(chuàng)新技術(shù)架構(gòu),特別是其“Xtacking”(晶棧)技術(shù),針對AI對閃存的新需求,提出了多項解決方案。
長江存儲市場負責人范增緒對與非網(wǎng)記者介紹,長江存儲自2018年推出Xtacking架構(gòu)以來,一直致力于提升存儲性能、密度與可靠性。Xtacking架構(gòu)通過將存儲陣列與外圍邏輯電路分開設(shè)計并采用混合鍵合技術(shù),這使得存儲產(chǎn)品在提高IO速度和存儲密度的同時,也增強了產(chǎn)品的可靠性。這種架構(gòu)的特點包括:
更高的IO速度:通過優(yōu)化設(shè)計,Xtacking架構(gòu)將NAND閃存的IO接口速度從800Mbps提升至3.6Gbps,大幅提高數(shù)據(jù)處理效率。
更高的存儲密度:該架構(gòu)使得每個存儲芯片的容量得到了顯著提升,從而更好地滿足AI應(yīng)用對大容量存儲的需求。
更強的可靠性:Xtacking架構(gòu)的設(shè)計提升了閃存的耐用性與穩(wěn)定性,適應(yīng)AI算法對數(shù)據(jù)存儲的高要求。
長江存儲的Xtacking4.0產(chǎn)品系列在多個方面做出了顯著改進,以滿足AI領(lǐng)域的需求:
512GB TLC產(chǎn)品:該產(chǎn)品IO速度提升50%,達到了3.6GB/s,存儲密度提升了48%,并且在2024年上半年已經(jīng)量產(chǎn),展示了長江存儲在存儲密度和數(shù)據(jù)吞吐量上的進展。
1TB TLC產(chǎn)品:IO速度同樣提升至3.6GB/s,存儲密度比上一代提升了36%,并且該產(chǎn)品已經(jīng)在2024年下半年規(guī)模上市。
2TB QLC產(chǎn)品:通過提升存儲密度和并行度,Xtacking4.0的QLC產(chǎn)品的吞吐量比上一代提升了147%。此外,這款產(chǎn)品的壽命也比上一代提升了33%,進一步增強了閃存的耐用性,特別是在AI推理和數(shù)據(jù)處理等高強度應(yīng)用場景中的表現(xiàn)。
長江存儲不僅推出了創(chuàng)新的Xtacking產(chǎn)品,還根據(jù)不同應(yīng)用場景提供了全系列的存儲解決方案,滿足云計算、AI、大數(shù)據(jù)等多領(lǐng)域需求:
嵌入式產(chǎn)品線:如UFS4.1、UFS3.1和UFS2.2等嵌入式存儲產(chǎn)品,針對AI手機和物聯(lián)網(wǎng)終端的需求,這些產(chǎn)品提供了高帶寬、低功耗、優(yōu)異的讀寫性能,適用于旗艦級AI手機等終端設(shè)備。
消費級產(chǎn)品線:包括PC550、PC450等PCIe 4.0和PCIe 5.0產(chǎn)品,支持AI PC的高效運算與長時間續(xù)航,滿足高性能計算需求。
企業(yè)級產(chǎn)品線:長江存儲的企業(yè)級SSD產(chǎn)品,如PE511,基于Xtacking4.0架構(gòu),提升了產(chǎn)品的耐用性和容量,適用于數(shù)據(jù)中心、AI推理和大數(shù)據(jù)存儲等應(yīng)用。企業(yè)級SSD相比傳統(tǒng)機械硬盤,具備更低的延遲、更高的性能與更大的存儲密度,能夠顯著提升數(shù)據(jù)處理效率,并降低數(shù)據(jù)中心的能耗和運維成本。
“在AI存儲中選擇SSD模塊請大家選擇這款122TB SSD”——鎧俠電子中國有限公司的董事長兼總裁岡本成之
鎧俠公司通過BiCS閃存技術(shù)的持續(xù)發(fā)展,迎合了AI對存儲速度和容量的嚴格要求。BiCS系列閃存采用了CBA晶圓綁定架構(gòu),這種架構(gòu)實現(xiàn)了存儲單元的高密度整合,為高性能SSD提供了有力的支持。鎧俠的BiCS10、BiCS9和BiCS8等技術(shù)不斷提升閃存的性能和密度,以滿足云計算和AI應(yīng)用的需求。
鎧俠電子中國有限公司的董事長兼總裁岡本成之表示,鎧俠的BiCS10技術(shù)標志著SSD存儲在速度、密度、功耗效率等方面的重大突破。這款產(chǎn)品不僅支持PCIe 6.0接口,還具備更高的切換速度和更低的功耗,預(yù)計在2025年投入市場。此外,BiCS9和BiCS8等產(chǎn)品也緊隨其后,持續(xù)改進性能,尤其在寫入性能、讀取性能和功率效率方面表現(xiàn)卓越。尤其是BiCS8,通過改進后的電源效率,使得其順序?qū)懭胄阅芴岣吡?0%,為用戶提供了更為高效的存儲解決方案。AI應(yīng)用需要處理大量數(shù)據(jù),這使得大容量、低成本的存儲成為關(guān)鍵。鎧俠的QLC(四級單元)閃存技術(shù)在這一需求中表現(xiàn)出色。盡管QLC閃存的性能相較于SLC和TLC略遜一籌,但隨著內(nèi)存技術(shù)的進步,QLC的性能在2025年已經(jīng)顯著提升,能夠滿足AI存儲需求。特別是在GPU服務(wù)器系統(tǒng)中,QLC SSD能夠提供大容量的存儲,支持AI訓練和數(shù)據(jù)存取的高速需求。鎧俠通過減少Q(mào)LC閃存的DWPD(驅(qū)動寫入次數(shù))來提高成本效益。雖然QLC的耐久性較低,但對于大多數(shù)企業(yè)應(yīng)用,尤其是在AI領(lǐng)域,0.3DWPD的QLC SSD足以應(yīng)對需求,同時降低了成本。這一舉措使得QLC SSD能夠在不犧牲過多性能的情況下,提供更具競爭力的價格。
鎧俠還推出了容量達到122TB的QLC SSD,這在AI存儲中具有重要意義。大容量SSD能夠滿足AI應(yīng)用中對存儲的龐大需求,同時通過高密度存儲單元減少物理空間的占用。這一創(chuàng)新為云計算和AI應(yīng)用提供了高性能、大容量的解決方案,進一步推動了數(shù)據(jù)中心基礎(chǔ)設(shè)施的升級?!霸贏I存儲中選擇SSD模塊請大家選擇這款122TB SSD”,岡本成之表示。
此外,鎧俠還通過BiCS閃存的進化,適應(yīng)了從PCIe 5.0到PCIe 7.0的快速發(fā)展。PCIe接口的演變加速了SSD的速度,使得數(shù)據(jù)傳輸更加高效,符合AI服務(wù)器對于存儲性能的要求。鎧俠的BiCS10和BiCS8 SSD可以支持這些最新的接口技術(shù),從而確??蛻粼谖磥韼啄甑募夹g(shù)迭代中依舊能夠獲得優(yōu)異的性能。
“ARM的AI加速器,可以支持每秒2048,并且支持原生加速,可以助力存儲控制器本身變得更智能?!薄?a class="article-link" target="_blank" href="/manufacturer/1001074/">Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健
在AI時代,Arm的戰(zhàn)略不僅集中在計算領(lǐng)域,還延伸到了存儲領(lǐng)域。事實上,隨著后摩爾時代來臨,通過工藝提升算力性能的難度越來越高,除此之外只有兩條路:一條是通過Chiplets架構(gòu)來降低芯片成本,提升性能和能效,另一條就是打破存儲墻,提升存儲效率。
而ARM恰好在這兩方面都有所布局。Arm物聯(lián)網(wǎng)事業(yè)部業(yè)務(wù)拓展副總裁馬健表示,Arm的Neoverse平臺支持Chiplets架構(gòu),可以有效降低成本并提高AI計算性能。例如,AI模型可以通過高效的內(nèi)存互聯(lián)技術(shù),實現(xiàn)CPU和AI加速器之間的數(shù)據(jù)共享,極大地提升了AI計算任務(wù)的吞吐率。此外,。Arm的處理器,如Cortex-R系列和M系列處理器,在實時處理、嵌入式存儲和數(shù)據(jù)中心應(yīng)用中發(fā)揮著重要作用。特別是在閃存控制器中,Arm的處理器能夠提供低延時、高吞吐量的支持,幫助實現(xiàn)高效的數(shù)據(jù)存儲和管理。
Arm還通過與存儲企業(yè)合作,推動AI本地化部署和邊緣計算場景中的存儲創(chuàng)新。例如,Solidigm基于Arm Cortex-R CPU的SSD產(chǎn)品,在數(shù)據(jù)中心中提供了更高效的存儲解決方案,而SiLiconmotion則通過Arm Cortex-R8處理器在AI PC和手機中的閃存應(yīng)用,進一步提升了存儲的性能和能效。
在云基礎(chǔ)設(shè)施中,AI模型的訓練和推理大多發(fā)生在集中式數(shù)據(jù)中心,Arm通過其計算平臺支持這一過程。Arm的CPU采用先進的內(nèi)存技術(shù),減少數(shù)據(jù)延時,同時通過CPU和GPU的NV Link互連,提高數(shù)據(jù)吞吐率,優(yōu)化AI訓練和推理過程的效率。在邊緣計算領(lǐng)域,Arm則通過其Cortex處理器系列為AI提供強大的計算能力,特別是Cortex-A320和Ethos-U85組合,能夠支持大規(guī)模AI模型的運行,尤其適用于物聯(lián)網(wǎng)和消費電子設(shè)備,促進AI技術(shù)在邊緣設(shè)備中的落地。
“AI對大容量、低成本存儲產(chǎn)品的迫切需求,會推動QLC時代的加速來臨”——聯(lián)蕓科技董事長方小玲
隨著AI技術(shù)的持續(xù)進步,AI對存儲的需求將繼續(xù)加大,這對存儲廠商提出了更高的技術(shù)挑戰(zhàn)。聯(lián)蕓科技憑借強大的技術(shù)創(chuàng)新能力和對市場需求的敏銳洞察,已做好充分準備,迎接AI2.0時代帶來的新機遇。
聯(lián)蕓科技董事長方小玲介紹,聯(lián)蕓科技采用統(tǒng)一的架構(gòu)設(shè)計,從芯片到固件再到量產(chǎn)工具,確保了不同接口的存儲主控芯片能夠共享資源,提升開發(fā)效率。通過這種高度集成的開發(fā)平臺,聯(lián)蕓科技可以快速響應(yīng)市場需求,減少研發(fā)周期,同時確保產(chǎn)品的穩(wěn)定性和可靠性。
隨著AI對大容量、低成本存儲產(chǎn)品的需求日益增加,聯(lián)蕓科技加速推動QLC(四級單元)技術(shù)的普及。通過自主研發(fā)的Agile NCC+QLC算法,聯(lián)蕓科技幫助客戶快速實現(xiàn)QLC技術(shù)的量產(chǎn),進一步降低存儲產(chǎn)品的成本。QLC技術(shù)的廣泛應(yīng)用,標志著閃存行業(yè)邁入了一個新的時代,能夠滿足AI應(yīng)用中對大容量存儲的需求。
群聯(lián)科技推出了MAP1802和MAP1806兩款高性能PCle5.0 ESSD主控芯片。這些芯片支持高達16TB的大容量存儲,能夠滿足AI應(yīng)用中對大規(guī)模數(shù)據(jù)存儲和高速數(shù)據(jù)處理的需求。MAP1802主控芯片特別適合低功耗應(yīng)用,如AIPC,能夠有效延長設(shè)備的續(xù)航時間;而MAP1806則提供了更強的存儲性能,適用于對高速大容量有需求的AI場景,如大模型訓練和數(shù)據(jù)處理。
AI終端設(shè)備對功耗有著極高的要求,尤其是在移動設(shè)備中,散熱和電池續(xù)航是設(shè)計的關(guān)鍵。群聯(lián)科技通過改進主控芯片架構(gòu)和采用更先進的制造工藝,不斷提升能效。例如,群聯(lián)的PCle5.0 SSD比上一代產(chǎn)品在單位性能功耗方面下降了30%左右,顯著提高了能效。此外,群聯(lián)還開發(fā)了智能溫控算法,能夠根據(jù)SSD的實際工作狀態(tài)自動調(diào)整功耗,避免過熱問題,提高設(shè)備的穩(wěn)定性和可靠性。
如何應(yīng)對AI算力提升對存儲的挑戰(zhàn)?
“兩大對AI數(shù)據(jù)方面的挑戰(zhàn):一是應(yīng)對大模型純算一體化創(chuàng)新與近場數(shù)據(jù)加速處理技術(shù);二是大量多模態(tài)數(shù)據(jù)的管理與高效率檢索技術(shù)?!薄蹣s科技CAS(終端與車用存儲)業(yè)務(wù)群資深副總裁段喜亭
“2024年年底的時候,提出了兩大對AI數(shù)據(jù)方面的挑戰(zhàn):一是應(yīng)對大模型純算一體化創(chuàng)新與近場數(shù)據(jù)加速處理技術(shù);二是大量多模態(tài)數(shù)據(jù)的管理與高效率檢索技術(shù)。” 慧榮科技CAS(終端與車用存儲)業(yè)務(wù)群資深副總裁段喜亭表示,作為主控廠商,慧榮通過聚焦五個要點來應(yīng)對這兩大挑戰(zhàn)。這個五個要點分別是:1.高吞吐量、2.低延遲;3.低功耗;4.可擴展性;5.高可靠性。
要做到這五點,首先是加速主控技術(shù)的升級創(chuàng)新?;蹣s在主控上的創(chuàng)新之一是自研的Serdes和分布式存儲數(shù)據(jù)管理系統(tǒng),這使得閃存主控能夠更高效地管理和處理海量數(shù)據(jù)。尤其是在大規(guī)模AI訓練和推理任務(wù)中,如何快速有效地將數(shù)據(jù)從存儲裝置傳輸?shù)紾PU等計算設(shè)備成為一大挑戰(zhàn)?;蹣s通過提升主控性能,支持高容量(如2TB QLC NAND)以及低功耗技術(shù),確保數(shù)據(jù)在不同存儲裝置(如企業(yè)級SSD、客戶端SSD、BGASSD等)間的高效流動。
其次,慧榮通過超越傳統(tǒng)存儲主控設(shè)計,著重提升數(shù)據(jù)管理和分類處理能力,使得數(shù)據(jù)可以根據(jù)需求合理分層存儲。這種做法有效降低了存儲系統(tǒng)的延遲,提升了數(shù)據(jù)的讀寫效率,特別是對于多模態(tài)數(shù)據(jù)的處理至關(guān)重要。通過這種方式,AI模型可以更快地讀取所需數(shù)據(jù),避免傳統(tǒng)存儲裝置的瓶頸。
慧榮還提出了FDP技術(shù),這項技術(shù)特別針對大容量SSD的預(yù)鋪路優(yōu)化。FDP可以在寫入和延遲方面顯著提高性能,例如它在WAF(寫放大效應(yīng))上提升3倍,在寫入操作上提升4.5倍,為大容量、高效存儲提供了解決方案。
隨著存儲容量的增加,慧榮開始注重QLC(四級單元閃存)技術(shù)的優(yōu)化,QLC閃存雖然在容量上有優(yōu)勢,但在性能和穩(wěn)定性上面臨挑戰(zhàn)。慧榮通過其專利技術(shù)PerformasShape,對QLC閃存進行雙重調(diào)校,使其在寫入和讀取操作上分別提升了93%和95%的穩(wěn)定性,這對AI應(yīng)用中對高穩(wěn)定性、高一致性要求的數(shù)據(jù)傳輸至關(guān)重要。
隨著閃存容量的增加,尤其是QLC閃存的普及,慧榮進一步加強了糾錯技術(shù)。慧榮的NAND Xtend技術(shù)通過更大的解碼空間(從4KB向16KB推進)和更智能的解碼算法,顯著提升了存儲的可靠性。這項技術(shù)使得即使在高容量存儲設(shè)備中,數(shù)據(jù)的完整性和準確性也能夠得到保證,避免因數(shù)據(jù)損壞導致AI訓練過程中的計算錯誤。
在AI應(yīng)用中,尤其是GPU的高功耗特點下,慧榮還特別注重低功耗設(shè)計。通過先進的制程技術(shù)(如12納米、6納米,未來可能進一步推進到4納米、3納米),以及智能電壓電流調(diào)整,慧榮的存儲主控能夠在高負載運行下仍保持極低的功耗。此外,多模態(tài)操作技術(shù)也使得系統(tǒng)能夠根據(jù)不同應(yīng)用場景動態(tài)調(diào)整功耗和速度,以實現(xiàn)節(jié)能和高效運行的平衡。
“慧榮為客戶不只是提供一個主控而已,我們從上下游幫客戶做一系列的串聯(lián),從GPU、CPU廠商的測試,一直到集成商跟全球的閃存原廠,甚至到全球的模組廠,我們幫各位搭建所有的生態(tài),讓各位可以很輕松的來使用SMI的主控?!倍蜗餐け硎?。
“國內(nèi)很多領(lǐng)先的互聯(lián)網(wǎng)和創(chuàng)新存儲方案提供商已經(jīng)在積極地研究大容量SSD來替換HDD”——Solidigm 亞太區(qū)銷售副總裁倪錦峰
自2018年以來,Solidigm已累計出貨超過100EB的QLC產(chǎn)品,成為AI大模型時代大容量SSD的核心提供者。尤其在2024年,Solidigm將其定義為QLC替代HDD的“元年”,國內(nèi)外主要互聯(lián)網(wǎng)與AI服務(wù)商均在加速部署基于QLC的新一代高密度存儲系統(tǒng)。
Solidigm 亞太區(qū)銷售副總裁倪錦峰表示,AI的發(fā)展推動了存儲架構(gòu)的演進,特別是在模型訓練、推理、數(shù)據(jù)攝取、數(shù)據(jù)準備、checkpoint等典型AI工作負載中,對存儲提出了“高性能 + 高容量 + 高可靠”的三重要求。尤其在訓練階段,高帶寬、低延遲的隨機讀取能力成為關(guān)鍵,否則昂貴的GPU資源將因等待數(shù)據(jù)而空閑,造成資源浪費。與此同時,數(shù)據(jù)中心面臨日益嚴峻的能耗與空間瓶頸。據(jù)預(yù)測,2024年美國數(shù)據(jù)中心用電將占全國4%,2030年將翻倍至8%。隨著百兆瓦甚至千兆瓦級AI數(shù)據(jù)中心的興起,如何節(jié)省電力、提升效率、壓縮空間,成為行業(yè)共同關(guān)注的問題。
針對上述挑戰(zhàn),Solidigm主推基于QLC閃存的大容量SSD,全面替代傳統(tǒng)HDD方案。
倪錦峰介紹,以Solidigm P5336為代表的新一代QLC SSD具備多項優(yōu)勢:
單盤容量高達122TB,為業(yè)界之最,是AI與數(shù)據(jù)密集型工作負載的理想選擇。
相較混合架構(gòu)(TLC SSD + HDD),在相同算力基礎(chǔ)上可節(jié)省70%以上機架空間、降低77%以上功耗。
擁有5年無限隨機寫入耐久度,突破了QLC在企業(yè)級應(yīng)用中的可靠性門檻。
此外,Solidigm不斷優(yōu)化產(chǎn)品架構(gòu)、生產(chǎn)流程與測試驗證,確保超大容量SSD的長期穩(wěn)定性與質(zhì)量控制。
滿足AI全流程多樣化存儲需求。
此外,Solidigm還構(gòu)建了覆蓋不同AI階段的全線SSD產(chǎn)品組合:
PS1010/1030(Gen5 TLC SSD):面向訓練、數(shù)據(jù)準備、推理等高IOPS場景,提供領(lǐng)先的性能與能效比,特別在數(shù)據(jù)準備與checkpoint等關(guān)鍵階段,展現(xiàn)出明顯優(yōu)勢。
P5520/5620(Gen4 PCIe TLC SSD):出貨量大,廣泛部署于互聯(lián)網(wǎng)公司,為AI基礎(chǔ)數(shù)據(jù)處理提供堅實基礎(chǔ)。
P5336/5430(QLC SSD):針對大容量需求,在數(shù)據(jù)攝取、存檔、預(yù)處理等階段提供高密度、高讀性能支持,助力建設(shè)高效數(shù)據(jù)湖。
P5810(SLC SSD):超高性能,適用于對延遲極度敏感的場景。
多個真實案例展示了Solidigm存儲方案的AI適配優(yōu)勢,來源:與非研究院
“FLASH的產(chǎn)業(yè)在何方,在AI那一方,主控現(xiàn)在可能在西方,但是好好投資后,主控會回到我們這一方”——群聯(lián)電子執(zhí)行長潘健成
除了技術(shù)上的挑戰(zhàn),目前支持AI訓練和推理的服務(wù)器成本過高依然是一個問題。群聯(lián)電子執(zhí)行長潘健成表示,群聯(lián)電子通過推陳出新的產(chǎn)品來降低AI計算的成本。例如,群聯(lián)推出了一款基于其閃存技術(shù)的AI訓練與推理一體機,該產(chǎn)品大大降低了AI應(yīng)用的入門門檻,使得一臺PC就能支撐高效的AI計算工作。群聯(lián)的目標是讓更多企業(yè)和個人能夠以更低的成本部署AI服務(wù)器,進行本地微調(diào)與服務(wù)推理,無需依賴昂貴的云服務(wù)。對于一般用戶來說,購買一臺性能強勁的AI訓練機器的成本僅需20多萬元人民幣,而更高配置的8卡機則大約需要100萬元人民幣。通過這種方式,群聯(lián)不僅降低了AI應(yīng)用的硬件成本,還使得普通企業(yè)和個人都能輕松搭建自己的AI系統(tǒng)。
在國內(nèi),群聯(lián)與合作伙伴如銓興、浪潮和Deepseek等共同推動AI硬件解決方案的量產(chǎn),推出了適用于AI訓練的高性能一體機。在AI技術(shù)尚未廣泛普及的背景下,群聯(lián)通過降低AI硬件的成本,使得更多的教育機構(gòu)能夠為學生提供學習AI的機會。例如,群聯(lián)推出的AITPC產(chǎn)品價格僅為2.5萬元人民幣,大大降低了學校部署AI計算機設(shè)備的成本。
在提高效率方面,群聯(lián)還利用AI技術(shù)優(yōu)化了自身的生產(chǎn)與設(shè)計流程。例如,群聯(lián)通過自主開發(fā)的Phison Code Pilot平臺,利用AI對海量數(shù)據(jù)進行智能分析與優(yōu)化,提升了編程效率。群聯(lián)的AI解決方案還大大降低了傳統(tǒng)IT設(shè)計和技術(shù)文檔編寫的費用。例如,群聯(lián)通過使用AI工具進行代碼文檔編寫,可以將原本需要200萬美元的設(shè)備費用壓縮至僅需6萬美元,節(jié)省了大量的研發(fā)成本。群聯(lián)估算,僅在技術(shù)文檔和設(shè)計開發(fā)中,AI就幫助他們每年節(jié)省了1000萬美元的費用,并且在生產(chǎn)效率方面,AI的引入使得團隊能以更少的人員完成更多的工作量,進而提高了整體的業(yè)務(wù)運作效率。最后,潘健成還呼吁更多的行業(yè)合作伙伴,包括軟件公司、系統(tǒng)集成商、硬件公司和經(jīng)銷商,攜手推動地端AI的廣泛應(yīng)用。
“如何把存儲容量提上來,去滿足它的需求,同時又做到成本的平衡,是未來主機廠跟汽車合作的一個非常關(guān)鍵的面臨挑戰(zhàn)的點”——小鵬汽車嵌入式平臺高級總監(jiān)&整車電子電氣首席架構(gòu)師段志飛
除了服務(wù)器、AIPC、AI手機等終端,汽車存儲也成為AI驅(qū)動的重要應(yīng)用領(lǐng)域。智能座艙不僅要求具備豐富的交互界面,還需要支持大量的應(yīng)用功能,如第三方應(yīng)用、地圖導航、智能語音等。所有這些功能的實時性要求決定了運行內(nèi)存(DRAM)的需求迅速增長。而智能駕駛則從傳統(tǒng)的基于規(guī)則的系統(tǒng)轉(zhuǎn)變?yōu)榛诖竽P偷南到y(tǒng),這也對車端的硬件提出了更高的內(nèi)存要求。
過去的智能汽車采用的是分布式的小算力、低存儲的硬件架構(gòu),而現(xiàn)在,隨著中央超算、大算力、高性能和大存儲的硬件平臺的引入,智能汽車逐步轉(zhuǎn)型。這種轉(zhuǎn)變不僅體現(xiàn)在硬件層面,軟件架構(gòu)同樣經(jīng)歷了從分布式小模塊的傳統(tǒng)OS到以AI為核心的整車級操作系統(tǒng)(OS)的演進。
小鵬汽車嵌入式平臺高級總監(jiān)&整車電子電氣首席架構(gòu)師段志飛對與非網(wǎng)記者表示,小鵬汽車率先在汽車行業(yè)提出AI概念,并通過自研的AI芯片、底層架構(gòu)和應(yīng)用軟件,打造具有差異化競爭力的智能汽車產(chǎn)品。小鵬汽車在座艙AI操作系統(tǒng)(AIOS)和智能駕駛系統(tǒng)中,均部署了大量的存儲和計算資源。AIOS不僅支持炫目的交互功能,還通過多模態(tài)交互提升了用戶體驗。在這一過程中,座艙需要配備高性能的存儲系統(tǒng),以保證大屏顯示、地圖導航和語音識別等多個功能的流暢運行。小鵬汽車目前在座艙中采用了高達24GB至90GB的DRAM,并配備了128GB至256GB的存儲內(nèi)存,以滿足實時性和大容量的存儲需求。
在AI智能汽車的應(yīng)用中,存儲技術(shù)面臨著以下幾個挑戰(zhàn):
大容量:由于AI系統(tǒng)需要處理大量的數(shù)據(jù),特別是在智能駕駛中,高容量的存儲系統(tǒng)是必不可少的。
高性能:智能汽車要求存儲系統(tǒng)具有極高的讀寫速率,以支持高速數(shù)據(jù)處理和實時響應(yīng)。
可靠性與安全性:汽車是一個復雜的系統(tǒng),對存儲系統(tǒng)的可靠性和安全性要求極高。尤其是在自動駕駛的場景中,存儲系統(tǒng)必須具備容錯能力,以應(yīng)對可能的硬件故障和數(shù)據(jù)丟失。
段志飛表示,小鵬汽車在解決這些挑戰(zhàn)時,采取了多個技術(shù)措施。首先,采用高性能的DRAM和NAND閃存,以保證系統(tǒng)的高效運行。其次,在智能駕駛領(lǐng)域,通過不斷的OTA(空中升級)更新,不斷優(yōu)化存儲和計算架構(gòu),提升系統(tǒng)的穩(wěn)定性和安全性。此外,隨著技術(shù)的不斷發(fā)展,小鵬汽車還計劃引入更多先進的存儲技術(shù),如量子存儲、非易失性內(nèi)存等,以滿足未來更加復雜和高效的存儲需求。
最后,段志飛從客戶的角度,強調(diào)了車載存儲的可靠性和安全性問題,因為在售后中,存儲問題在各類物料問題中占比為TOP1或TOP2,這是非常嚴峻的問題。加上車規(guī)存儲的成本非常昂貴,占據(jù)超算平臺的30%,因此一旦出問題就非常麻煩。
“AI時代需要一個六邊形戰(zhàn)士,要存力,在所有的領(lǐng)域都全面發(fā)展,這不是一個很容易做到的事情?!薄筋^哥半導體產(chǎn)品總監(jiān)周冠鋒
在2023云棲大會上,阿里巴巴平頭哥發(fā)布旗下首顆SSD主控芯片鎮(zhèn)岳510,基于這一顆SSD芯片,平頭哥開始深入存儲應(yīng)用的各行各業(yè),共同推動存儲技術(shù)的進步。
平頭哥半導體產(chǎn)品總監(jiān)周冠鋒表示,到AI和大模型的發(fā)展對存儲提出了更高的要求,特別是在文件系統(tǒng)、數(shù)據(jù)存取速度和訓練時間等方面。例如,Deepseek通過優(yōu)化螢火蟲文件系統(tǒng),顯著提升了SSD的帶寬利用率和訓練效率,這表明強大的存儲能力對AI的高效運行至關(guān)重要。AI的訓練過程不僅需要強大的計算力,還需要存儲系統(tǒng)支持大容量、低時延、高帶寬和高能效等多項特性。
周冠鋒進一步分析了AI工作流中的各個環(huán)節(jié)對存儲的不同要求。數(shù)據(jù)采集階段需要低成本和大容量的存儲;數(shù)據(jù)清洗階段要求高帶寬的存儲來處理大量無效數(shù)據(jù);在模型訓練階段,存儲需要具備高可靠性、高帶寬和能效,以應(yīng)對反復的模型迭代和數(shù)據(jù)備份恢復;在部署和推理階段,低時延和高效的存儲系統(tǒng)是確保推理速度的關(guān)鍵。
周冠鋒認為,鎮(zhèn)岳510芯片作為AI時代的“六邊形戰(zhàn)士”,它在低時延、高能效、高帶寬、可靠性、低成本等方面具備領(lǐng)先優(yōu)勢。例如,鎮(zhèn)岳510芯片能夠提供420K每瓦特的處理能力,帶寬超過3400K lps,并通過創(chuàng)新算法實現(xiàn)了業(yè)界最高的可靠性指標。此外,它還能支持TLC、QLC等多種存儲技術(shù),具備大于32TB的存儲容量。在芯片架構(gòu)上,平頭哥采用了軟硬件深度融合架構(gòu),靈活結(jié)合硬件化任務(wù)和軟件處理任務(wù),實現(xiàn)高效的任務(wù)處理和靈活性。同時,對于低時延的處理,平頭哥通過硬件化的LO執(zhí)行路徑提升了性能,確保了芯片可以實現(xiàn)4個1秒的低時延。
此外,平頭哥還在算法方面進行了創(chuàng)新,特別是在數(shù)據(jù)糾錯算法(LDPC)和電壓優(yōu)化算法上。LDPC算法是當前存儲行業(yè)最先進的數(shù)據(jù)糾錯技術(shù),平頭哥通過優(yōu)化算法矩陣結(jié)構(gòu)和消除環(huán)狀結(jié)構(gòu),顯著提升了糾錯能力,并降低了錯誤率。通過最優(yōu)電壓搜索算法,平頭哥還能夠優(yōu)化功耗、時延和質(zhì)量控制(QOS)。
值得一提的是,目前平頭哥已經(jīng)與阿里云等大客戶開展了廣泛的合作。在阿里云的分布式存儲平臺上,鎮(zhèn)岳510芯片大幅提升了帶寬和LPS,減少了長尾延時,使得云服務(wù)能夠在不增加硬件投入的情況下,提升性能和用戶體驗。此外,平頭哥還與憶恒創(chuàng)源、DERA和BIWIN等存儲廠商合作,推動了新一代SSD產(chǎn)品的開發(fā),進一步提升了存儲技術(shù)的市場競爭力。
周冠鋒最后強調(diào),存儲產(chǎn)業(yè)在過去依賴數(shù)據(jù)爆炸帶來的需求,但如今AI大潮為存儲產(chǎn)業(yè)帶來了更為強勁的增長動力。AI推動了存儲行業(yè)的再度騰飛,平頭哥作為芯片供應(yīng)商,憑借在芯片架構(gòu)和算法上的技術(shù)優(yōu)勢,致力于與行業(yè)合作,共同構(gòu)建更強大的存儲基礎(chǔ)設(shè)施,為各行各業(yè)賦能。
總結(jié):從“算力”到“存力”,存力決定AI創(chuàng)新上限?
根據(jù)IDC的數(shù)據(jù),2023年全球數(shù)據(jù)產(chǎn)量達129.3 ZB,預(yù)計2028年增至384.6 ZB,不可否認其中存在大量的數(shù)據(jù)垃圾,這里生成式AI功不可沒。在本次采訪交流中,與非網(wǎng)記者頻繁聽到的一個詞就是“存力”。事實上,在傳統(tǒng)架構(gòu)中,算力與存力是分離的,數(shù)據(jù)在計算單元與存儲設(shè)備間頻繁搬運,導致“存儲墻”問題。AI的高并發(fā)數(shù)據(jù)處理需求迫使技術(shù)向存算一體演進,通過減少數(shù)據(jù)移動提升整體效率。
我們可以認為AI發(fā)展的上半場,主要還是堆算力(如GPU、AI加速器),算力成為模型訓練和推理的關(guān)鍵。但是到了下半場,AI大模型需要海量數(shù)據(jù)支撐,例如單次訓練可能涉及PB級數(shù)據(jù)集。而AI大模型的推理也會生成同等量級甚至更高的海量數(shù)據(jù),這使得存儲系統(tǒng)的高效性和擴展性成為瓶頸突破的關(guān)鍵。
另外,單純的遵循摩爾定律提升芯片制程面臨物理極限,且算力利用率受存儲性能制約。例如,AI服務(wù)器中30%-50%的能耗來自數(shù)據(jù)搬運。這也是為什么NVDAH200的發(fā)布揭示了算力下一步提升路徑,H200證明HBM比臺積電更重要;英偉達證明了就算不添加更多CUDA核或超頻,只增加更多的HBM和更快的IO,即便保持現(xiàn)有Hopper架構(gòu)不便,依然可以實現(xiàn)相當于架構(gòu)代際升級的性能提升。
最后,總結(jié)前面各位大佬的觀點,筆者認為:算力與存力從“單一主導”轉(zhuǎn)向“雙輪驅(qū)動”,存力成為支撐AI規(guī)?;瘧?yīng)用的基礎(chǔ)設(shè)施。這一轉(zhuǎn)變不僅是技術(shù)迭代的結(jié)果,更是數(shù)字經(jīng)濟從“計算優(yōu)先”邁向“數(shù)據(jù)優(yōu)先”的戰(zhàn)略選擇。未來,存力的發(fā)展將決定AI創(chuàng)新的上限,而算力則更多扮演效率優(yōu)化的角色。兩者的協(xié)同進化,將共同定義下一代數(shù)字經(jīng)濟的競爭格局。