• 正文
    • 云上HPC成為未來趨勢
    • 自研芯片的進階之路
    • 自研Graviton3E處理器,為HPC打造高性價比
    • 解決云上HPC的“兩難”問題
    • 寫在最后
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

從“芯”出發(fā),高性能計算的云上普及之路

原創(chuàng)
2022/12/20
1330
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

“云的規(guī)模正在重新定義HPC(高性能計算),它帶來的應用和創(chuàng)新改變了游戲規(guī)則。如果沒有針對每個特定工作負載優(yōu)化的一系列實例,就無法為HPC創(chuàng)建具有成本效益的性能基礎,而HPC的極端規(guī)模意味著即使看似很小的資源差異也可能對性能、成本和運行速度產生重大影響”,亞馬遜云科技CEO Adam Selipsky在2022 re:Invent全球大會發(fā)表演講時說道。

HPC可以說是科技領域最"硬核"的行業(yè)之一,代表著計算技術的頂尖水平。長期以來,HPC一直在科研等高精尖領域發(fā)揮著重要價值,例如天氣預報、基因組測序、地理分析、計算流體動力學 (CFD) 等工作負載方面。在普遍性的行業(yè)應用中,HPC通常很難發(fā)揮價值,除了應用需求使然,一個重要原因是HPC需要高昂的成本,普通行業(yè)的成本投入難以支持。

不過,隨著數(shù)字化轉型在各行各業(yè)的深入,隨著數(shù)據(jù)量的快速增長,算力逐漸成為企業(yè)的戰(zhàn)略性資源,而云端近乎無限的集群算力,使越來越多的行業(yè)與場景創(chuàng)新可以通過云端HPC來完成。在可預見的未來,云上HPC的規(guī)模擴張成為必然,也正如Adam Selipsky所言——即使是很小的差異也會產生巨大影響。

云上HPC成為未來趨勢

在本地構建基礎設施來運行HPC工作負載,需要高昂的前期投資,包括冗長的采購周期、監(jiān)控軟硬件更新等持續(xù)的管理開銷,而當基礎設施需要升級時,又面臨靈活性受限的挑戰(zhàn)。因此,一些行業(yè)用戶轉向在云中運行其HPC工作負載,能夠充分利用云提供的安全性、可擴展性和彈性。

從產業(yè)效率來看,盡管多數(shù)HPC任務目前仍然依賴超算中心和本地硬件,但是,在云端實現(xiàn)高性能、高安全且極具經濟效益的高性能計算,可以說是產業(yè)創(chuàng)新的大勢所趨。根據(jù)Hyperion Research數(shù)據(jù),2022年底將有18.8%的HPC在云端運行,而2021年,這一數(shù)據(jù)是12.3%。

看好云上HPC的發(fā)展前景,多年來,亞馬遜云科技通過持續(xù)的投入,目前在HPC領域已經形成了兩大核心差異點:芯片、云、存儲、軟件AI等領域的技術經驗的高度融合;以及面向行業(yè)需求與用戶痛點,進行了大量高度產業(yè)指向的軟硬件生態(tài)。通過高度可定制的 HPC 計算平臺,為用戶帶來多樣化的異構計算資源、定制化的計算實例,以及大量低成本的軟件,幫助用戶解決管理與調度等領域的問題。

自研芯片的進階之路

自研芯片對亞馬遜云科技的云上進階具有非常關鍵的作用。自2013年推出Amazon Nitro系統(tǒng)以來,亞馬遜云科技已經開發(fā)了多個自研芯片,包括五代Nitro系統(tǒng)、致力于為各種工作負載提升性能和優(yōu)化成本的三代Graviton芯片、用于加速機器學習推理的兩代Inferentia芯片,以及用于加速機器學習訓練的Trainium芯片。

實踐證明,亞馬遜云科技更現(xiàn)代化、更節(jié)能的半導體處理確保了芯片的快速迭代及交付。每推出一款新的芯片,亞馬遜云科技都進一步提升了這些芯片支持的Amazon EC2實例的性能、效率以及更優(yōu)化的成本。并且,這些實例都針對工作負載需求進行了優(yōu)化,包括更快的處理速度、更高的內存容量、更快的存儲輸入/輸出(I/O)和更高的網絡帶寬等。

在2022 re:Invent全球大會上,亞馬遜云科技宣布推出三款由自研芯片支持的Amazon Elastic Compute Cloud(Amazon EC2)實例,能夠為廣泛的工作負載提供更高性價比。三款最新的Amazon EC2新實例分別是:

第一,Amazon EC2 Hpc7g實例采用最新款的Amazon Graviton3E處理器,為HPC工作負載提供極佳的性價比;
第二,Amazon EC2 C7gn配備新一代Amazon Nitro,具有增強的網絡處理能力,是目前Amazon EC2網絡優(yōu)化型實例中,提供最高網絡帶寬和數(shù)據(jù)包轉發(fā)性能的實例;
第三,Amazon EC2 Inf2實例,采用最新款的Amazon Inferentia2機器學習加速推理芯片,在Amazon EC2上以最低的延遲與成本,大規(guī)模地運行大型的深度學習模型。

亞馬遜云科技Amazon EC2副總裁David Brown表示:“從Graviton到Trainium、Inferentia再到Nitro,亞馬遜云科技每一代自研芯片都為客戶的各種工作負載提供更高的性能、更優(yōu)化的成本和更高的能效。我們不斷推陳出新讓客戶獲得卓越的性價比,這也一直驅動著我們的持續(xù)創(chuàng)新。最新推出的Amazon EC2實例為高性能計算、網絡密集型工作負載和機器學習推理工作負載提供了顯著的性能提升,客戶有了更多的實例選擇來滿足他們的特定需求。”

自研Graviton3E處理器,為HPC打造高性價比

在HPC算力層,亞馬遜云科技可提供包括CPU、GPU、Arm芯片在內的多樣化異構計算支持,以及定制化的彈性計算實例,滿足用戶在AI等HPC高發(fā)任務中的計算資源需求。除已有的基于 AMD Milan 處理器的 Hpc6a 實例以外,亞馬遜云科技推出了基于最新Graviton3E的Hpc7g實例、以及基于Intel處理器的Hpc6id實例,為高性能計算場景提供多種選擇。

其中,自研的Arm芯片在打造高性能、高性價比方向,帶來了足夠的差異化優(yōu)勢。以最新配備了Graviton3E處理器的Hpc7g實例來看,它提供了更多的網絡功能,擁有更高的內存帶寬和200Gbps的EFA彈性結構適配器網絡;與當前一代C6gn實例相比,浮點性能提高了2倍;與當前一代Hpc6a實例相比性能提高了20%,為亞馬遜云科技上的高性能計算工作負載提供了超高性價比。

據(jù)了解,基于Arm架構的Graviton3E系列芯片,專為支持高性能計算工作負載而設計。相比現(xiàn)有的Graviton系列,有著更高的性能提升,對依賴矢量指令的工作負載的性能提高了35%。

HPC7g 適用于天氣預報、生命科學、工程計算等高性能計算場景,這種新的實例類型有多種大小,最多具有64個 vCPU 和 128GiB 內存,這些實例有望在2023年初正式投入商用。

為了適配更多網絡密集型工作負載需求,亞馬遜云科技還推出了新的 Graviton 3E 實例類型 C7gn,由Graviton3E 處理器提供支持,可支持200Gbps 網絡帶寬,并提高50%的數(shù)據(jù)包處理性能。相比于 C7g 實例,C7gn 實例為要求更為嚴苛的網絡密集型工作負載而設計:包含網絡虛擬設備(防火墻、虛擬路由器、負載均衡器等)、數(shù)據(jù)分析和緊密耦合的集群計算作業(yè)場景。

此外還有EC2 Hpc6id實例,它基于Amazon Nitro系統(tǒng)構建,Hpc6id 實例旨在為數(shù)據(jù)和內存密集型HPC工作負載提供領先的性價比,具有更高的每核內存帶寬、更快的本地 SSD 存儲以及帶有彈性結構適配器的增強網絡。Hpc6id實例提供 200Gbps 彈性結構適配器網絡,用于高吞吐量節(jié)點間通信,使客戶 HPC 工作負載能夠大規(guī)模運行。

解決云上HPC的“兩難”問題

工程師、研究人員和科學家在使用Amazon EC2 網絡優(yōu)化型實例(如 C5n、R5n、M5n 和 C6gn)運行HPC工作負載,這些實例提供了極致的計算能力和服務器之間的高網絡帶寬,以實現(xiàn)數(shù)千個內核處理和交換數(shù)據(jù)。

雖然這些實例的性能足以滿足目前大多數(shù)HPC場景,人工智能自動駕駛汽車等新興應用仍需要HPC優(yōu)化實例,以擴展到數(shù)萬個甚至更多的內核,進一步解決難度系數(shù)持續(xù)增加的問題,并降低HPC工作負載的成本。

針對高性能計算的模擬仿真應用場景,亞馬遜云科技在re:Invent2022全球大會還推出了完全托管的計算服務Amazon SimSpace Weaver,基于亞馬遜云科技的高性能算力,可以幫助用戶構建、操作和運行大規(guī)模的空間模擬仿真系統(tǒng)。借助Amazon SimSpace Weaver,用戶可以部署空間模擬應用,對具有多個數(shù)據(jù)點的動態(tài)系統(tǒng)進行建模(例如整個城市的交通、場館內流動的人群或工廠車間的布局),模擬可視化的物理空間,運行沉浸式的訓練模型,獲得不同情景下的關鍵指標并做出明智的決策。

基于Amazon SimSpace Weaver,用戶可模擬出100萬個以上、實時交互的仿真對象,創(chuàng)建比以往更加復雜的環(huán)境,同時將模擬仿真系統(tǒng)部署的時間從數(shù)年縮短至數(shù)月。

寫在最后

亞馬遜云科技在re:Invent2022全球大會上新發(fā)布的芯片,再一次展示了其自研芯片為不同工作負載所能帶來的優(yōu)化空間。特別是在HPC領域的重大突破,能夠幫助HPC用戶應對不同的工作負載需求:如計算密集型負載、計算和網絡密集型負載、數(shù)據(jù)和內存密集型負載等。最重要的是,這些實例所能提供超高的性價比,有助于進一步推動HPC的普及,這對于未來的算力規(guī)?;蛢?yōu)化具有重大意義。

 

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
STM32H743VIT6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
暫無數(shù)據(jù) 查看
ATXMEGA128A1U-AUR 1 Atmel Corporation RISC Microcontroller, 16-Bit, FLASH, AVR RISC CPU, 32MHz, CMOS, PQFP100, TQFP-100
$73.57 查看
ATXMEGA32A4U-MH 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 44VQFN
$3.4 查看

相關推薦