• 正文
    • 新一代GPU架構Blackwell發(fā)布,云廠商和生成式AI巨頭繼續(xù)跟進
    • GB200算力“大殺器“
    • 面向萬億參數(shù)級的生成式AI超級計算DGX SuperPOD
    • 8顆B200 GPU+2顆第五代英特爾至強,DGX B200推進行業(yè)AI超級計算
    • 推理微服務驅動英偉達未來重要方向
    • DRIVE Thor集中式車載計算平臺,為生成式AI而打造
    • 專為人形機器人打造——通用基礎模型和全新的計算平臺
    • 以API形式提供Omniverse Cloud
    • 寫在最后
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

英偉達GTC全場“王炸”,推理新布局暗藏未來“野心”

原創(chuàng)
2024/03/19
4736
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

【與非網報道】暌違五年,英偉達GTC大會終于重回線下,于太平洋時間3月18日至21日在美國圣何塞會議中心舉行。當前,正值生成式AI席卷全球科技領域,英偉達GTC也已然成為全球矚目的AI盛宴,它不僅是AI領域的風向標,也是AI生態(tài)力量的一次盛大集結。

在這場科技狂歡中,下一代GPU架構、AI大模型趨勢、人形機器人、自動駕駛等前沿技術,無疑是最受關注的焦點。它們不僅代表著AI技術的最新進展,也預示著未來計算平臺和開發(fā)模式的新挑戰(zhàn)與新機遇。

GTC 2024期間,<與非網>在圣何塞見證這些AI變革力量的誕生和發(fā)布,這篇文章抓取了最重磅的消息和趨勢。

新一代GPU架構Blackwell發(fā)布,云廠商和生成式AI巨頭繼續(xù)跟進

當前,企業(yè)級用戶正在重新審視AI基礎設施的投入和部署,而對云廠商來說,如何高效支持先進的加速工作負載會是未來采用GPU的巨大動力。不僅如此,在科學計算、數(shù)據(jù)分析、機器學習等眾多領域,對強大GPU的需求遠遠沒有見頂。

GTC 2024上,英偉達宣布推出Blackwell平臺,通過全新的Blackwell GPU、NVLink和彈性技術,可以支持萬億參數(shù)規(guī)模的AI模型,新的Tensor核心和TensorRT-LLM 編譯器,可將LLM推理運營成本和能源降低高達25倍,有助于實現(xiàn)數(shù)據(jù)處理、工程仿真、電子設計自動化、計算機輔助藥物設計和量子計算方面的突破。

在新一代Blackwell宣布的同時,AWS、Dell、Google、Meta、Microsoft、OpenAI、Oracle、Tesla和xAI等紛紛站臺,表示支持和看好。

前不久傳出7萬億造芯的OpenAI 首席執(zhí)行官 Sam Altman表示:“Blackwell 實現(xiàn)了巨大的性能飛躍,并將加快我們交付領先模型的能力,我們很高興繼續(xù)與英偉達合作來增強 AI 計算?!?/p>

Tesla 和 xAI 首席執(zhí)行官埃隆·馬斯克 (Elon Musk)更是直言:“目前沒有什么比英偉達硬件更好的AI硬件了?!?/p>

Blackwell具有六項革命性的技術突破:

第一,采用Blackwell架構的新一代GPU內含2080億個晶體管,采用臺積電定制的4NP工藝制造。將兩個GPU die通過10 TB/秒的芯片到芯片鏈路,連接成一個GPU。

第二,內置第二代Transformer引擎——由新的micro-tensor驅動。Blackwell憑借擴展支持以及集成了NVIDIA TensorRT-LLM和NeMo Megatron框架中的先進動態(tài)范圍管理算法,能夠通過新的4位浮點AI推理功能支持雙倍的計算和模型大小。

第三,第五代NVLink為每個GPU提供了突破性的1.8TB/s 雙向吞吐量,能夠支持最復雜的LLM所需的576個GPU之間的無縫高速通信,從而可以加速數(shù)萬億參數(shù)和混合專家AI模型的性能。

第四,基于Blackwell的GPU包含一個專用的RAS引擎,可實現(xiàn)可靠性、可用性和可服務性。此外,Blackwell 架構還增加了芯片級功能,利用基于AI的預防性維護來運行診斷和預測可靠性問題。這可以最大限度地延長系統(tǒng)正常運行時間并提高大規(guī)模AI部署的彈性,使其能夠連續(xù)運行數(shù)周甚至數(shù)月,并降低運營成本。

第五,安全AI。通過先進的機密計算功能,可在不影響性能的情況下保護AI模型和客戶數(shù)據(jù),并支持新的本機接口加密協(xié)議,這對于醫(yī)療保健和金融服務等隱私敏感行業(yè)至關重要。

第六,解壓縮引擎。通過專用的解壓縮引擎來支持最新格式,加速數(shù)據(jù)庫查詢,以提供數(shù)據(jù)分析和數(shù)據(jù)科學的最高性能。預測未來幾年,企業(yè)每年花費數(shù)百億美元的數(shù)據(jù)處理將越來越多地由GPU加速。

上述六大革命性技術共同支持AI訓練和實時LLM推理,模型可擴展至10萬億參數(shù),繼續(xù)推動加速計算和生成式AI的發(fā)展。

沿襲歷代GPU架構的命名規(guī)則,Blackwell新架構繼續(xù)致敬了一位重要學者——專門研究博弈論和統(tǒng)計學的數(shù)學家David Harold Blackwell,他也是第一位入選美國國家科學院的黑人學者。

GB200算力“大殺器“

GB200超級芯片由兩個B200 Tensor Core GPU和一個Grace CPU組成,采用900GB/s超低功耗NVLink芯片互連技術,通過這樣強大的系統(tǒng)設計,實現(xiàn)了一款算力“大殺器”。

隨著GB200的發(fā)布,英偉達還宣布了一款多節(jié)點、具備液冷和機架規(guī)模的系統(tǒng)NVIDIA GB200 NVL72,適用于計算最密集的工作負載。它結合了36個Grace Blackwell超級芯片,包括通過第五代NVLink互連的72個Blackwell GPU和36個Grace CPU。

此外,GB200 NVL72 還包括BlueField-3 數(shù)據(jù)處理單元,可在超大規(guī)模AI云中實現(xiàn)云網絡加速、可組合存儲、零信任安全性和GPU計算彈性。

與含有相同數(shù)量的H100 Tensor Core GPU系統(tǒng)相比,GB200 NVL72對于LLM推理工作負載的性能提升高達30倍,并將成本和能耗降低高達25倍。

面向萬億參數(shù)級的生成式AI超級計算DGX SuperPOD

新一代AI超級計算機DGX SuperPOD,搭載了GB200 Grace Blackwell超級芯片,可處理萬億參數(shù)模型,用于超大規(guī)模AI訓練和推理工作負載。該計算機采用高效液冷架構,由DGX GB200系統(tǒng)構建,在FP4精度下可提供11.5 exaflops的AI超級計算性能和240 TB的快速顯存,且可通過增加機架來擴展性能。

每個DGX GB200系統(tǒng)搭載有36個GB200超級芯片,共包含36顆Grace CPU和72顆Blackwell GPU。這些超級芯片通過第五代NVLink連接成一臺超級計算機。與NVIDIA H100 Tensor Core GPU 相比,GB200 超級芯片在大語言模型推理工作負載方面的性能提升了高達30倍。

Grace Blackwell 架構的 DGX SuperPOD 由 8 個或以上的 DGX GB200 系統(tǒng)構建而成,這些系統(tǒng)通過 NVIDIA Quantum InfiniBand 網絡連接,可擴展到數(shù)萬個 GB200 超級芯片。用戶可通過 NVLink 連接 8 個 DGX GB200 系統(tǒng)中的 576 顆 Blackwell GPU,從而獲得海量共享顯存空間,來賦能下一代 AI 模型。

此外,DGX SuperPOD具有智能預測管理功能,能夠持續(xù)監(jiān)控軟硬件中的數(shù)千個數(shù)據(jù)點,通過預測并攔截導致停機和低效的根源以節(jié)省時間、能耗和計算成本。即使沒有系統(tǒng)管理員在場,該軟件也能識別需要重點關注的領域并制定維護計劃,靈活調整計算資源,通過自動保存和恢復作業(yè)來防止停機。

預計英偉達全球合作伙伴將在今年晚些時候提供基于DGX GB200和DGX B200系統(tǒng)構建而成的 NVIDIA DGX SuperPOD。

8顆B200 GPU+2顆第五代英特爾至強,DGX B200推進行業(yè)AI超級計算

英偉達還發(fā)布了用于AI模型訓練、調優(yōu)和推理的通用AI超級計算平臺NVIDIA DGX B200 系統(tǒng),這是DGX系列的第六代產品。

采用Blackwell架構的全新 DGX B200系統(tǒng),包含8顆 NVIDIA B200 Tensor Core GPU和2顆第五代英特爾至強處理器。此外,還包含帶有8個NVIDIA ConnectX-7網卡和2顆BlueField-3 DPU的高性能網絡,每個連接的帶寬高達400 Gb/s,可通過Quantum-2 InfiniBand和Spectrum-X以太網網絡平臺支持更高的 AI 性能。

憑借全新 Blackwell架構中的FP4精度特性,DGX B200系統(tǒng)可提供高達144 petaflops的 AI性能、1.4TB 海量的GPU顯存和64TB/s的顯存帶寬,從而使得該系統(tǒng)的萬億參數(shù)模型實時推理速度比上一代產品提升了15倍。

推理微服務驅動英偉達未來重要方向

生成式AI的采用率在顯著上升,當它下一步重點轉向全面的生產部署時,就涉及到要把AI模型連接到現(xiàn)有的企業(yè)基礎設施中。這條路其實是復雜又耗時的,因為需要專門的技能、平臺和流程,特別是大規(guī)模生產中。

黃仁勛顯然早已洞察了這一趨勢。此次GTC宣布推出了推理微服務NIM,能夠為開發(fā)AI驅動的企業(yè)應用程序和在生產中部署AI模型提供簡化路徑。

NIM 微服務提供基于NVIDIA 推理軟件的預構建容器,包括 Triton 推理服務器和 TensorRT-LLM,使開發(fā)者能夠將部署時間從幾周縮短至幾分鐘。它們?yōu)檎Z言、語音和藥物發(fā)現(xiàn)等領域提供行業(yè)標準 API,使開發(fā)者能夠使用安全托管在自己的基礎設施中的專有數(shù)據(jù),來快速構建 AI 應用。這些應用可按需擴展,從而為在 NVIDIA 加速計算平臺上運行生產級生成式 AI 提供靈活性和性能。

事實上,這其實相當于給無數(shù)想要部署生成式AI的企業(yè)打開了一個入口,使得他們能夠通過易于使用的界面,體驗各種AI模型和應用,并在企業(yè)平臺上創(chuàng)建和部署自定義應用。

隨著AI逐漸從訓練走向大規(guī)模推理應用時,英偉達今天的這一項業(yè)務可能是通往未來坦途的關鍵一步。就像黃仁勛所說: “成熟的企業(yè)平臺坐擁數(shù)據(jù)金礦,這些數(shù)據(jù)可以轉化為生成式AI的助手。我們與合作伙伴生態(tài)系統(tǒng)一起創(chuàng)建的這些容器化 AI 微服務,是各行業(yè)企業(yè)成為 AI 公司的基石?!?/p>

DRIVE Thor集中式車載計算平臺,為生成式AI而打造

DRIVE Thor 是英偉達專為汽車行業(yè)中日益重要的生成式AI應用而打造的車載計算平臺。作為DRIVE Orin 的后續(xù)產品,DRIVE Thor可提供豐富的座艙功能,以及安全可靠的高度自動化駕駛和無人駕駛功能,并將所有功能整合至同一個集中式平臺上。

黃仁勛宣布,這款新一代自動駕駛汽車(AV)處理器基于全新的Blackwell架構,專為Transformer、大語言模型(LLM)和生成式AI工作負載而打造。交通運輸領域的領先企業(yè)已采用DRIVE Thor為其下一代乘用車和商用車提供助力,其中包括新能源汽車(NEV)、卡車、自動駕駛出租車、自動駕駛公交車和為“最后一公里”而生的自動駕駛配送車等。

NVIDIA汽車事業(yè)部副總裁吳新宙表示:“加速計算為生成式AI等領域帶來了變革性突破,而生成式AI則正在重新定義自動駕駛和全球交通運輸業(yè)。DRIVE Orin仍然是當今智能車型首選的AI車載計算平臺,同時,我們看到移動出行領域的領先企業(yè)富有遠見地將NVIDIA DRIVE Thor納入其下一代AI汽車產品路線圖中?!?/p>

DRIVE Thor被認為將徹底改變汽車行業(yè)的格局,開創(chuàng)生成式AI定義駕駛體驗的時代。多家頭部電動汽車制造商都在GTC上展示了搭載DRIVE Thor的下一代AI車型:

比亞迪正在將與英偉達的長期協(xié)作從車端延伸到云端。除了在 DRIVE Thor上構建下一代電動車型外,比亞迪還計劃將英偉達的AI基礎設施用于云端AI開發(fā)和訓練,并使用NVIDIA Isaac與Omniverse平臺來開發(fā)用于虛擬工廠規(guī)劃和零售配置器的工具與應用。

廣汽埃安旗下高端豪華品牌昊鉑宣布其下一代電動汽車將采用DRIVE Thor平臺,新車型將于 2025 年開始量產。昊鉑目前的旗艦車型昊鉑GT搭載了DRIVE Orin,該車型具備先進的 L2+級高速自動駕駛能力。

小鵬宣布將把NVIDIA DRIVE Thor平臺作為其下一代電動汽車的“AI大腦”。這款新一代車載計算平臺將助力該電動汽車制造商自研的 XNGP智能輔助駕駛系統(tǒng),實現(xiàn)自動駕駛和泊車、駕乘人員監(jiān)控等功能。

此前,理想汽車和極氪也均已宣布將在DRIVE Thor上構建其未來的汽車產品。

除乘用車外,DRIVE Thor還能夠滿足卡車、自動駕駛出租車、配送車等其他細分領域的不同需求。在這些領域中,高性能計算和AI對于確保安全、可靠的駕駛操作至關重要。

Nuro致力于開發(fā)用于商用車和乘用車的L4級自動駕駛技術,該公司選擇DRIVE Thor為Nuro Driver提供助力。

自動駕駛軟件解決方案提供商Plus宣布其L4級解決方案SuperDrive的下一代產品將在DRIVE Thor車規(guī)級集中式計算平臺上運行,Plus的自動駕駛系統(tǒng)將充分利用DRIVE Thor 的計算性能,以了解卡車周圍的環(huán)境并做出安全的駕駛決策。

文遠知行正在與聯(lián)想車計算一同基于DRIVE Thor來創(chuàng)建多個商用L4級自動駕駛解決方案。該解決方案集成在聯(lián)想首款自動駕駛域控制器 AD1中,將被用于各種以城市為中心的用例,具備功能安全、冗余安全設計、融合可擴展等技術特點。

據(jù)介紹,DRIVE Thor預計最早將于明年開始量產,并且將使用具有生成式AI引擎等前沿功能的全新NVIDIA Blackwell架構。DRIVE Thor的性能高達1000 TFLOPS,有助于保證自動駕駛汽車的安全可靠。

專為人形機器人打造——通用基礎模型和全新的計算平臺

黃仁勛將通用人形機器人基礎模型視作當今AI領域中最令人興奮的課題之一,在GTC上發(fā)布了人形機器人通用基礎模型 Project GR00T,旨在進一步推動其在機器人和具身智能方面的突破。GR00T 驅動的機器人將能夠理解自然語言,并通過觀察人類行為來模仿動作——快速學習協(xié)調、靈活性和其它技能,以便導航、適應現(xiàn)實世界并與之互動。

同時發(fā)布的還有基于Thor SoC芯片的新型人形機器人計算機 Jetson Thor,它是一個全新的計算平臺,能夠執(zhí)行復雜的任務并安全、自然地與人和機器交互,具有針對性能、功耗和尺寸優(yōu)化的模塊化架構。

該SoC包括一個帶有 transformer engine的GPU,采用 NVIDIA Blackwell 架構,可提供每秒 800 萬億次8位浮點運算AI性能,以運行GR00T等多模態(tài)生成式AI模型。憑借集成的功能安全處理器、高性能CPU集群和100GB以太網帶寬,大大簡化了設計和集成工作。

此外,英偉達對Isaac機器人平臺進行了重大升級,包括生成式 AI 基礎模型和仿真工具,以及 AI 工作流基礎設施。GR00T 使用的Isaac工具還能夠為在任何環(huán)境中的任何機器人創(chuàng)建新的基礎模型。這些工具包括用于強化學習的Isaac Lab 和用于計算編排服務的 OSMO。
由于訓練具身智能模型需要海量的真實數(shù)據(jù)和合成數(shù)據(jù),新的Isaac Lab作為一個 GPU 加速、性能優(yōu)化的輕量級應用,基于 Isaac Sim 而構建,可專門用于運行數(shù)千個用于機器人學習的并行仿真。

英偉達還發(fā)布了Isaac Manipulator 和 Isaac Perceptor 等一系列機器人預訓練模型、庫和參考硬件。Isaac Manipulator為機械臂提供了卓越的靈活性和模塊化 AI 功能,并提供了一系列強大的基礎模型和 GPU 加速庫。它提供了高達 80 倍的路徑規(guī)劃加速,零樣本感知提高了效率和吞吐量,使開發(fā)者能夠實現(xiàn)更多新的機器人任務的自動化。Isaac Perceptor提供了多攝像頭和 3D 環(huán)繞視覺功能,這些功能正越來越多地被制造業(yè)和物流業(yè)中的自主移動機器人所采用,以提高效率和更好地保護工人,同時降低錯誤率和成本。ArcBest、比亞迪和凱傲集團等公司是這些全新高級視覺 AI 功能的早期行業(yè)合作伙伴,為物料搬運等操作帶來了新的自主化水平。

以API形式提供Omniverse Cloud

黃仁勛一直對制造業(yè)的數(shù)字孿生寄予厚望,而Omniverse就是一個可以構建并操作物理真實的數(shù)字孿生的操作系統(tǒng)。他認為,Omniverse和生成式AI都是將價值高達50萬億美元的重工業(yè)市場,進行數(shù)字化所需的基礎技術。

英偉達宣布將以API形式提供Omniverse Cloud,從而將工業(yè)數(shù)字孿生應用和工作流創(chuàng)建平臺的覆蓋范圍擴展至整個軟件制造商生態(tài)系統(tǒng)。

借助五個全新Omniverse Cloud應用編程接口(API),開發(fā)者能夠輕松地將Omniverse的核心技術直接集成到現(xiàn)有的數(shù)字孿生設計與自動化軟件應用中,或是集成到用于測試和驗證機器人或自動駕駛汽車等自主機器的仿真工作流中。

這五個Omniverse Cloud API既可單獨使用,也可組合使用。它們分別是:

USD Render:生成OpenUSD數(shù)據(jù)的全光線追蹤RTX?渲染
USD Write:讓用戶能夠修改OpenUSD數(shù)據(jù)并與之交互
USD Query:支持場景查詢和交互式場景
USD Notify:追蹤USD變化并提供更新信息
Omniverse Channel:連接用戶、工具和世界,實現(xiàn)跨場景協(xié)作

一些全球大型工業(yè)軟件制造商正在將Omniverse Cloud API加入到其軟件組合中,包括 Ansys、Cadence、達索系統(tǒng)旗下3DEXCITE品牌、Hexagon、微軟、羅克韋爾自動化、西門子和Trimble等。

西門子就在Xcelerator平臺中采用了Omniverse Cloud API,首先采用的是領先的云端產品生命周期管理(PLM)軟件Teamcenter X。黃仁勛現(xiàn)場展示了Teamcenter X與Omniverse API的連接,這能打通設計數(shù)據(jù)到NVIDIA生成式AI API之間的通路,且允許在該應用內直接使用Omniverse RTX渲染。

西門子總裁兼首席執(zhí)行官Roland Busch表示:“通過NVIDIA Omniverse API,西門子能夠利用生成式AI賦能客戶,使其符合物理學的數(shù)字孿生變得更具沉浸感。這將幫助所有人在實際建造前,對下一代產品、制造流程和工廠進行虛擬設計、建造和測試。通過將現(xiàn)實世界與數(shù)字世界相結合,西門子數(shù)字孿生技術正在幫助全球企業(yè)提高競爭力、彈性和可持續(xù)發(fā)展能力。"

寫在最后

“加速計算已經達到了臨界點——通用計算已經失去了動力”,黃仁勛在演講中說道。他強調,“我們需要更大的GPU,Blackwell平臺就是為了應對這一挑戰(zhàn)而構建的。”黃仁勛左手舉起H100,右手是最新的Blackwell GPU。H100“最強GPU”的王座瞬間失去,不過這不就是英偉達一路劈荊斬棘、右拳打左拳的進化動力?代代更迭,一路向前。

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風險等級 參考價格 更多信息
STM32F207IGH6TR 1 STMicroelectronics High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet

ECAD模型

下載ECAD模型
$69.82 查看
AT91SAM7X512B-AUR 1 Microchip Technology Inc IC MCU 32BIT 512KB FLASH 100LQFP

ECAD模型

下載ECAD模型
$15.51 查看
MC9S12A128CPVE 1 Rochester Electronics LLC 16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LEAD FREE, LQFP-112
$22.47 查看
英偉達

英偉達

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。

NVIDIA(中國大陸譯名:英偉達,港臺譯名:輝達),成立于1993年,是一家美國跨國科技公司,總部位于加利福尼亞州圣克拉拉市,由黃仁勛、克里斯·馬拉科夫斯基(Chris Malachowsky)和柯蒂斯·普里姆(Curtis Priem)共同創(chuàng)立。公司早期專注于圖形芯片設計業(yè)務,隨著公司技術與業(yè)務發(fā)展,已成長為一家提供全棧計算的人工智能公司,致力于開發(fā)CPU、DPU、GPU和AI軟件,為建筑工程、金融服務、科學研究、制造業(yè)、汽車等領域的計算解決方案提供支持。收起

查看更多

相關推薦