• 正文
  • 推薦器件
  • 相關(guān)推薦
申請入駐 產(chǎn)業(yè)圖譜

數(shù)智QA|AI服務(wù)器必備技能大起底,哪些因素不可或缺?

2024/01/26
1750
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

只需幾個關(guān)鍵詞,一張靜態(tài)照片也能跟著音樂節(jié)奏跳科目三;投喂幾段文章之后,可根據(jù)要求生成文筆優(yōu)美、邏輯嚴(yán)密的佳作;只需要10秒鐘的聲音,就能逼真地實(shí)現(xiàn)音色克隆,讓跑調(diào)大王的歌聲媲美專業(yè)歌手,讓相聲演員開口飆英語......

在過去,提及這些應(yīng)用場景,人們或許會認(rèn)為它們是遙不可及的幻想。然而,AI時代,得益于人工智能的三駕馬車——數(shù)據(jù)、算法、算力的強(qiáng)力支撐,這些曾經(jīng)的幻想已經(jīng)逐一變?yōu)楝F(xiàn)實(shí)。

在這三大支柱中,算力扮演著尤為關(guān)鍵的角色。它不僅是數(shù)據(jù)和算法能夠發(fā)揮效用的基礎(chǔ)底座,更是推動人工智能高質(zhì)量發(fā)展的核心驅(qū)動力??梢哉f,沒有強(qiáng)大的算力作為支撐,人工智能的進(jìn)步和發(fā)展將受到極大的限制。

隨著生成式AI等人工智能應(yīng)用的興起,以及大模型訓(xùn)練等新需求的不斷涌現(xiàn),算力規(guī)模正在經(jīng)歷前所未有的快速增長。在這一背景下,AI服務(wù)器已然成為智能算力的核心載體。相較于傳統(tǒng)服務(wù)器,AI服務(wù)器在計算、存儲及網(wǎng)絡(luò)傳輸能力上均展現(xiàn)出顯著優(yōu)勢,能夠滿足日益增長的智能算力需求。

然而,智能算力需求的指數(shù)級增長,導(dǎo)致IT基礎(chǔ)設(shè)施支出也在不斷攀升。如何在確保企業(yè)業(yè)務(wù)連續(xù)性和穩(wěn)定性的同時,最大限度地提高服務(wù)器利用率以實(shí)現(xiàn)成本優(yōu)化和效益最大化,已成為眾多企業(yè)面臨的共同挑戰(zhàn)。

本期的《數(shù)智QA》,我們將通過問答的形式,從硬件配置、軟件優(yōu)化、產(chǎn)品設(shè)計等多個維度,深入探討構(gòu)建高效、穩(wěn)定、可靠的AI服務(wù)器所需的關(guān)鍵能力。

Q、AI浪潮之下,算力發(fā)展呈現(xiàn)哪些趨勢?

未來算力發(fā)展將呈現(xiàn)以下趨勢:

異構(gòu)計算成為主流:傳統(tǒng)堆CPU的模式已無法滿足日益增長的AI計算需求。搭載GPU、NPU、ASIC等芯片的異構(gòu)計算正逐漸成為主流。異構(gòu)模式能夠大幅提升AI計算效率,滿足各種復(fù)雜應(yīng)用場景的需求。

邊緣計算成為重要補(bǔ)充:邊緣計算將算力資源部署在離終端設(shè)備更近的位置,滿足AI應(yīng)用實(shí)時性、安全性等業(yè)務(wù)需求。

機(jī)架密度不斷提高:鑒于數(shù)據(jù)中心的空間限制,提高機(jī)架密度成為數(shù)據(jù)中心設(shè)計的一個重要趨勢。

智能算力重要性日益凸顯:為了適應(yīng)這一趨勢,智算中心的建設(shè)已經(jīng)轉(zhuǎn)向混合架構(gòu)模式,成為行業(yè)發(fā)展的必然趨勢。

Q、AI服務(wù)器和普通服務(wù)器有何不同?

AI服務(wù)器,是專門為人工智能應(yīng)用場景設(shè)計的服務(wù)器。AI服務(wù)器主要用于處理大規(guī)模、復(fù)雜計算任務(wù),如AI深度學(xué)習(xí)訓(xùn)練、推理等,以滿足各種AI應(yīng)用的需求。

AI服務(wù)器與普通服務(wù)器的不同之處主要表現(xiàn)在

處理能力:得益于高性能處理器和專用加速器加持,AI服務(wù)器的處理能力更高,可滿足AI大模型訓(xùn)練等需要大量算力計算的應(yīng)用場合。而普通服務(wù)器則主要針對一般性的網(wǎng)絡(luò)應(yīng)用進(jìn)行優(yōu)化,對于處理大規(guī)模數(shù)據(jù)和復(fù)雜計算任務(wù)會有一定的瓶頸。

存儲容量:AI服務(wù)器通常擁有龐大的存儲集群配合,以滿足處理大規(guī)模數(shù)據(jù)需求。而普通服務(wù)器則根據(jù)應(yīng)用場景進(jìn)行不同的存儲配置,存儲容量相對有限。

高速網(wǎng)絡(luò):AI服務(wù)器對網(wǎng)絡(luò)帶寬、時延、抖動、丟包等有更高的要求。通常,AI服務(wù)器需要采用InfiniBand、RoCE等形式的高速網(wǎng)絡(luò),以滿足AI大規(guī)模并行計算要求。而普通服務(wù)器一般采用TCP/IP網(wǎng)絡(luò)即可滿足業(yè)務(wù)需求。

能源消耗:由于AI服務(wù)器需要處理大量的計算任務(wù),因此其能源消耗相對較高,目前主流AI服務(wù)器滿載時功耗甚至可達(dá)10kW。而普通服務(wù)器在處理一般網(wǎng)絡(luò)應(yīng)用時,能源消耗相對較低,功耗大約只有0.5kW左右。

應(yīng)用場景:AI服務(wù)器主要用于處理人工智能應(yīng)用場景下的計算任務(wù),如深度學(xué)習(xí)訓(xùn)練、推理等。而普通服務(wù)器則廣泛應(yīng)用于各種網(wǎng)絡(luò)應(yīng)用,如Web應(yīng)用、數(shù)據(jù)庫應(yīng)用等。

Q、適配不同場景,AI服務(wù)器有哪些類型?

AI應(yīng)用可分為AI訓(xùn)練和AI推理兩大應(yīng)用場景。針對這兩大應(yīng)用場景對算力的不同需求,AI服務(wù)器分為訓(xùn)練服務(wù)器、訓(xùn)推一體服務(wù)器、推理服務(wù)器和邊緣服務(wù)器等。

AI訓(xùn)練服務(wù)器:主要用于訓(xùn)練機(jī)器學(xué)習(xí)模型,需要提供強(qiáng)大的智能算力來滿足大模型的訓(xùn)練需求。

AI推理服務(wù)器:主要用于運(yùn)行已經(jīng)訓(xùn)練好的AI模型,對新的輸入數(shù)據(jù)進(jìn)行預(yù)測或分類等任務(wù)。聯(lián)想ThinkSystem SR645 V3服務(wù)器就是其中的典型代表。該服務(wù)器可承接復(fù)雜的AI推理負(fù)載,兩顆4代AMD EPYC處理器提供最多256核。多個PCIE4.0及PCIE5.0插槽使得用戶可根據(jù)業(yè)務(wù)需求靈活擴(kuò)展配置。設(shè)備支持最多4個單寬GPU,充分滿足用戶AI推理應(yīng)用需求。

AI訓(xùn)推一體服務(wù)器:結(jié)合了訓(xùn)練和推理的功能,旨在提供一站式的AI智能算力解決方案。以聯(lián)想問天WA5480 G3 AI訓(xùn)推一體服務(wù)器為例,該服務(wù)器可支持多元算力,豐富的PCIE5.0接口至多可支持10張雙寬GPU,支持推理,訓(xùn)練,渲染,科學(xué)計算等多種場景以及多種拓?fù)?,進(jìn)一步拓展了在不同應(yīng)用中的適用性。

AI邊緣服務(wù)器:主要用于在邊緣計算場景中進(jìn)行推理任務(wù),即在離用戶更近的地方進(jìn)行計算,以減少數(shù)據(jù)傳輸延遲和提高響應(yīng)速度。邊緣服務(wù)器通常具有較小的體積和功耗,以適應(yīng)邊緣環(huán)境的限制。最近,聯(lián)想推出了全新的ThinkEdge SE455 V3邊緣服務(wù)器,進(jìn)一步豐富了聯(lián)想AI邊緣服務(wù)器產(chǎn)品線。該產(chǎn)品搭載AMD EPYC 8004系列系列處理器,性能提升34%,可大幅提升多任務(wù)處理效率。得益于聯(lián)想技術(shù)創(chuàng)新和設(shè)計優(yōu)化,SE455 V3至高可節(jié)省50%能源。豐富的擴(kuò)展特性可滿足存儲、網(wǎng)絡(luò)及GPU擴(kuò)展需求。

Q、如何保證AI服務(wù)器高效、穩(wěn)定和可靠?

通過合理的硬件配置、優(yōu)秀的散熱和能源管理、系統(tǒng)優(yōu)化和調(diào)優(yōu)、高可用性和容錯設(shè)計、高標(biāo)準(zhǔn)的品控等措施,可以有效地保證AI服務(wù)器的高效、穩(wěn)定和可靠運(yùn)行。

合理的硬件配置:通過選擇高性能的處理器及GPU等加速設(shè)備、內(nèi)存和存儲設(shè)備,可滿足AI應(yīng)用的高計算量、高內(nèi)存和高存儲需求,顯著提升AI大模型訓(xùn)練及推理效率。比如,聯(lián)想問天WR5220 G3服務(wù)器就采用了英特爾最新發(fā)布的第五代至強(qiáng)?可擴(kuò)展處理器,最多可支持兩顆64核、385W TDP熱功耗設(shè)計。新一代平臺搭載5600MT/s高性能DDR5內(nèi)存、低延遲高帶寬的NVMe和PCIe 5.0擴(kuò)展插槽、最新的GPU性能,可充分發(fā)揮系統(tǒng)性能。

優(yōu)秀的散熱和能源管理:設(shè)計合理的散熱系統(tǒng),保證服務(wù)器在高負(fù)載運(yùn)行時也能保持高效性能輸出。同時,有效的能源管理策略,可顯著降低能耗并提高能源利用效率。面對不斷提升的CPU、GPU TDP熱功耗值,液冷被認(rèn)為是突破風(fēng)冷散熱瓶頸的關(guān)鍵技術(shù)。廣受贊譽(yù)的聯(lián)想海神(Neptune?)溫水水冷技術(shù)可實(shí)現(xiàn)整機(jī)柜全水冷無風(fēng)扇設(shè)計,服務(wù)器散熱效率可達(dá)98%,并支持余熱回收,能耗降低42%,數(shù)據(jù)中心PUE可降至1.1。同時,并行水路設(shè)計可降低CPU等設(shè)備的性能抖動,Linpack性能相比風(fēng)冷散熱方式提升5-10%。聯(lián)想海神溫水水冷技術(shù)全球部署已經(jīng)超過7萬套,再次夯實(shí)服務(wù)器水冷技術(shù)領(lǐng)域領(lǐng)跑者地位,持續(xù)助力企業(yè)綠色可持續(xù)發(fā)展。在能源管理方面,聯(lián)想LiCO管理平臺可以監(jiān)控集群的能耗情況,并提供能源管理策略。LiCO能夠動態(tài)調(diào)整CPU的運(yùn)行頻率,并根據(jù)系統(tǒng)運(yùn)行情況,動態(tài)調(diào)整風(fēng)扇的運(yùn)行速度,進(jìn)而降低整個集群的能耗。

系統(tǒng)優(yōu)化和調(diào)優(yōu):對操作系統(tǒng)、AI框架和算法庫等進(jìn)行優(yōu)化和調(diào)優(yōu),以提高服務(wù)器的整體性能和穩(wěn)定性。比如,在作業(yè)調(diào)度優(yōu)化方面,聯(lián)想LiCO可以通過智能作業(yè)調(diào)度算法以及集群管理軟件的使用,將并行計算任務(wù)合理地分配到計算節(jié)點(diǎn)上,減少任務(wù)之間的資源競爭和排隊等待時間,提高集群的效率并降低能耗。

高標(biāo)準(zhǔn)品控:為了追求更高品質(zhì),提高服務(wù)器的可靠性和穩(wěn)定性,每一臺服務(wù)器都應(yīng)該執(zhí)行嚴(yán)苛的品控標(biāo)準(zhǔn)。嚴(yán)格的品控措施貫穿了聯(lián)想服務(wù)器從設(shè)計、研發(fā)、生產(chǎn)和測試的每一個階段。比如在出廠前,聯(lián)想服務(wù)器會做百分百1000V DC Hipot測試(高電壓耐壓測試),保證每一片板卡的超高耐壓質(zhì)量均超越業(yè)界的測試標(biāo)準(zhǔn)。截止2023年12月14日,聯(lián)想服務(wù)器共斬獲536項性能測試世界紀(jì)錄,通過87項NCTC檢測認(rèn)證。

Q、怎樣提高服務(wù)器運(yùn)維效率,保證業(yè)務(wù)連續(xù)性?

一個易于維護(hù)的服務(wù)器能夠顯著降低企業(yè)的運(yùn)維成本、縮短停機(jī)時間,并確保IT系統(tǒng)的持續(xù)穩(wěn)定運(yùn)行,幫助企業(yè)告別運(yùn)維煩惱。

以聯(lián)想AI服務(wù)器為例。聯(lián)想在服務(wù)器中采用了創(chuàng)新的無工具安裝設(shè)計,能夠快速、輕松更換故障組件,使得內(nèi)部核心部件的安裝部署更加便捷。同時,服務(wù)器內(nèi)部的可更換組件統(tǒng)一使用藍(lán)色標(biāo)識,運(yùn)維人員可以快速準(zhǔn)確分辨,自行更換組件,從而降低因操作不當(dāng)導(dǎo)致?lián)p壞的風(fēng)險。得益于采用通用部件,聯(lián)想服務(wù)器簡化了對所有架構(gòu)平臺的支持,極大方便了后期維護(hù)。

此外,聯(lián)想服務(wù)器還提供了其他易于維護(hù)的設(shè)計。例如光通路診斷,使用LED標(biāo)識出現(xiàn)故障的內(nèi)存插槽及硬盤,可顯著縮短維護(hù)和停機(jī)時間。依賴于熱插拔部件,在不切斷電源的情況下即可輕松更換服務(wù)器部件,從而縮短了停機(jī)時間,并避免因更換硬件設(shè)備可能導(dǎo)致的數(shù)據(jù)丟失或損壞風(fēng)險。

聯(lián)想服務(wù)器還支持一鍵秒維護(hù)功能。比如,通過專利設(shè)計的兩個塑膠部件,即可將Internal Raid卡一鍵固定在服務(wù)器主板上,代替以往需要通過鎖螺絲的繁瑣方式,降低了操作難度。此外,一鍵式固定方式極大提升了部件裝配效率,開啟秒級維護(hù)。

機(jī)構(gòu)預(yù)測,2024年全球AI服務(wù)器有望突破160萬臺,年增長率達(dá)40%,業(yè)界對包括AI服務(wù)器在內(nèi)的智能基礎(chǔ)設(shè)施爆發(fā)出強(qiáng)勁的需求。作為全球領(lǐng)先的算力基礎(chǔ)設(shè)施和服務(wù)提供商,聯(lián)想將依托全棧智能的產(chǎn)品、方案及服務(wù),推動AI技術(shù)的持續(xù)發(fā)展和應(yīng)用,賦能千行百業(yè)加速智能化轉(zhuǎn)型,共同把握AI時代新機(jī)遇。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATXMEGA32A4U-MHR 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44VQFN
$2.99 查看
MC9S12XEP100MAG 1 Freescale Semiconductor 16-bit MCU, S12X core, 1MB Flash, 50MHz, -40/+125degC, QFP 144

ECAD模型

下載ECAD模型
$29.4 查看
MPC5554MZP132 1 Freescale Semiconductor 32-BIT, FLASH, 132MHz, MICROCONTROLLER, PBGA416, 27 X 27 MM, 1 MM PITCH, PLASTIC, MS-034AAL-1, TEBGA-416
$80.8 查看

相關(guān)推薦