作者:鵬程
明日,英偉達創(chuàng)始人CEO黃仁勛將迎來重振該公司股價的重要契機。在英偉達年度技術(shù)峰會GTC上,黃仁勛將闡述他如何帶領(lǐng)英偉達探索AI下一個前沿的方向。
據(jù)摩根大通此前預(yù)計,英偉達將在大會上推出Blackwell Ultra芯片(GB300),并可能披露Rubin平臺的部分細節(jié)。此次大會還將聚焦AI硬件的全面升級,包括更高性能的GPU、HBM內(nèi)存、更強的散熱和電源管理,以及CPO(共封裝光學)技術(shù)路線圖。
在黃仁勛的演講到來前,我們來看看這些年中英偉達推出的系列架構(gòu),和他們背后的故事。
1999年底,英偉達推出了第一款GPU(Graphic Process Unit,圖形處理單元)Geforce 256,將完整的渲染管線集成進硬件,提供了不錯的加速效果。但這款產(chǎn)品還很難稱之為處理器,因為它尚不具備任何可編程能力。2001年隨著DX8引入可編程頂點著色器的概念,英偉達才在Geforce 3中添加了Vertex Processor,使GPU可以編程了。隨后,越來越多的可編程著色器被DX和OpenGL引入,以滿足渲染開發(fā)者的算法需求。
在GPU設(shè)計之初,并非針對深度學習,而是圖形加速,在英偉達推出CUDA架構(gòu)之前,GPU并無太強對深度學習運算能力的支持。真正用來作為人工智能算力支持的GPU,不是普通的顯卡,而是GPGPU(General-Purpose Computing on Graphics Processing Units)即通用計算圖形處理器,這是一種用于處理非特定需求(通用類型)計算目的的算力單元(芯片)。
?01革命的開始,CUDA架構(gòu)的誕生
隨著GPU具備了可編程能力,其用于并行計算的天賦被發(fā)掘出來。當時,很多大學和研究機構(gòu)都在嘗試用GPU做一些科學計算。
2003年的SIGGRAPH大會上,許多業(yè)界泰斗級人物發(fā)表了關(guān)于利用GPU進行各種運算的設(shè)想和實驗?zāi)P?。SIGGRAPH會議還特地安排了時間進行GPGPU的研討交流。但當時的開發(fā)者只能利用著色器編程語言開發(fā)程序,必須將計算資源映射為渲染概念才能使用,非常麻煩。因此亟需一種針對GPU并行計算的編程語言。此時,正在斯坦福讀博的Ian Bark看到這一需求,投身到Brook(一套用于并行計算的編程語言,后被AMD收購)的研發(fā)中,成為GPU并行計算軟件棧的先行者。2004年,他以實習生的身份加入英偉達,并于兩年后開發(fā)出CUDA。
渲染需求變得越來越多樣化,并行計算業(yè)務(wù)正含苞待放,Tesla G80架構(gòu)正是在這樣的歷史背景下被設(shè)計出來,成為英偉達改變自身命運的重要轉(zhuǎn)折點。
2006年,英偉達推出了Tesla架構(gòu)的第一代(G80),開啟了GPU通用計算探索。Tesla架構(gòu)之前的顯卡也經(jīng)歷了幾代的發(fā)展,但基本上是圖形顯卡。而它采用全新的CUDA架構(gòu),支持使用C語言進行GPU編程,可以用于通用數(shù)據(jù)并行計算。這成為英偉達改變自身命運的重要轉(zhuǎn)折點。
Tesla G80是第一款實現(xiàn)CUDA架構(gòu)的GPGPU,開啟了一個并行加速的時代。G80是有史以來最偉大的GPU變革產(chǎn)物之一,首批產(chǎn)品GeForce 8800 GTX/GTS于2006年11月發(fā)布。之后,英偉達又在第一代基礎(chǔ)上推出了Tesla架構(gòu)的第二代(GT200),其雙精度的FMA運算速度30FMA ops/ clock,提升了8倍多。就在G80-G200這兩代產(chǎn)品上,英偉達花了大約三年時間積累了大量的用戶體驗反饋,招募了Bill Dally作為首席科學家,最終推出了Fermi這個劃時代的產(chǎn)品,這是第一款帶有L1 Cache、ECC糾錯,面向超級計算機的架構(gòu),從這一代開始,英偉達涉足超級計算機的野心開始暴露無遺,在發(fā)布的時候拉來了多位超級計算機行業(yè)的重要人物站臺。
2010年,英偉達公司正式推出了Fermi全新架構(gòu)。這款架構(gòu)不僅僅是一個簡單的硬件更新,而是被英偉達定義為首款專門為計算任務(wù)而設(shè)計的GPU。換句話說,英偉達通過Fermi架構(gòu)重新定義了GPU的概念,旨在加速并行計算的性能。與此同時,這款架構(gòu)還具備了強大的圖形渲染能力,使其在圖形處理方面同樣表現(xiàn)出色。而GF100是第一款基于Fermi架構(gòu)的GPU,集成32億個晶體管,專為下一代游戲與通用計算應(yīng)用程序而優(yōu)化的全新架構(gòu),實現(xiàn)了所有DirectX 11硬件功能,包括曲面細分和計算著色器等。
G80是對統(tǒng)一圖形與計算處理器應(yīng)有面貌的最初愿景。隨后的GT200擴展了G80的性能與功能。而GF100,這是一個專為下一代游戲與通用計算應(yīng)用程序而優(yōu)化的全新架構(gòu)的GPU。Fermi這一代架構(gòu)展現(xiàn)了英偉達全力押注通用并行計算的決心。倘若說Tesla G80僅僅是小試身手,那么Fermi則正式吹響了全面進軍計算產(chǎn)業(yè)的號角。
?02英偉達布局高性能計算
之后,英偉達大致保持了兩年更新一次架構(gòu)的頻率,不斷推陳出新。
2012年,英偉達推出Kepler架構(gòu)。這是首個支持超級計算和雙精度計算的GPU架構(gòu)。得益于28nm的先進制程技術(shù),Kepler在性能和功耗方面實現(xiàn)了質(zhì)的提升。Kepler GK110具有2880個流處理器和高達288GB/s的帶寬,計算能力比Fermi架構(gòu)提高3-4倍。Kepler架構(gòu)的出現(xiàn)使GPU開始成為高性能計算的關(guān)注點。
2014年,英偉達發(fā)布的Maxwell架構(gòu)是先前Kepler架構(gòu)的升級版,采用臺積電28nm工藝制程。彼時移動設(shè)備興起,對低功耗、高性能GPU需求大增,同時需要優(yōu)化GPU在不同應(yīng)用場景的適應(yīng)性,Maxwell架構(gòu)應(yīng)運而生。首款基于Maxwell架構(gòu)的GPU為GM107,專為筆記本和小型(SFF)PC等功率受限的使用場合而設(shè)計,采用臺積電28nm工藝制程,芯片尺寸148平方毫米,集成18.7億個晶體管。針對流式多處理器采用全新設(shè)計稱為SMM,GM107核心的每核心效能提升了35%,每瓦功耗比提升了一倍,支持DirectX 12。首款基于GM107GPU的顯卡是GeForce GTX750Ti。
2016年,Pascal架構(gòu)推出,用于接替上一代的Maxwell架構(gòu)?;赑ascal架構(gòu)的GPU使用16nm FinFET工藝、HBM2、NVLink等新技術(shù)。這是首個為了深度學習而設(shè)計的GPU,支持所有主流的深度學習計算框架。Pascal架構(gòu)核心陣容強大,包括GP100(3840個CUDA Core和60組SM單元)和GP102(3584個CUDA Core和28組SM單元)兩大核心。Pascal GP100具有3840個CUDA核心和732GB/s的顯存帶寬,但功耗只有300W,比Maxwell架構(gòu)提高50%以上。Pascal架構(gòu)剛剛推出之際,深度學習正發(fā)展的如火如荼。業(yè)界出現(xiàn)了很多針對神經(jīng)網(wǎng)絡(luò)的專用加速器,無論在能效和面效上都碾壓GPU,這讓英偉達倍感壓力。為了應(yīng)對競爭,英偉達一反之前兩年一代架構(gòu)的迭代節(jié)奏,次年就推出了專門針對神經(jīng)網(wǎng)絡(luò)加速的GPU架構(gòu)Volta。
Volta架構(gòu)引入了Tensor Core(張量核心)專門加速矩陣運算,提升深度學習計算效率;支持NVlink 2.0,提高了數(shù)據(jù)傳輸速度,增強了多GPU協(xié)作能力,提升系統(tǒng)整體性能。Volta GV100具有5120個CUDA 核心和900GB/s的帶寬,加上640個張量核心,AI計算能力達到112 TFLOPS,比Pascal架構(gòu)提高了近3倍。Volta的出現(xiàn)標志著AI成為GPU發(fā)展的新方向。緊隨其后,在一年后的2018年,英偉達發(fā)布了Turing架構(gòu),進一步增強了Tensor Core的功能。Turing架構(gòu)不僅延續(xù)了對浮點運算的優(yōu)化,還新增了對INT8、INT4、甚至是Binary(INT1)等整數(shù)格式的支持。這一舉措不僅使大范圍混合精度訓練成為可能,更將GPU的性能吞吐量推向了新的高度,較Pascal GPU提升了驚人的32倍。
此外,Turing架構(gòu)還引入了先進的光線追蹤技術(shù),新增了Ray Tracing核心(RT Core)。Turing TU102具有4608個CUDA核心、576個張量核心和72個RT核心,支持GPU光線追蹤,代表了圖形技術(shù)的新突破。2020年,Ampere架構(gòu)的推出再次刷新了人們對Tensor Core的認知。Ampere架構(gòu)新增了對TF32和BF16兩種數(shù)據(jù)格式的支持,進一步提高了深度學習訓練和推理的效率。
同時,Ampere架構(gòu)引入了對稀疏矩陣計算的支持,在處理深度學習等現(xiàn)代計算任務(wù)時,稀疏矩陣是一種常見的數(shù)據(jù)類型,其特點是矩陣中包含大量零值元素。傳統(tǒng)的計算方法在處理這類數(shù)據(jù)時往往效率低下,而Ampere架構(gòu)通過專門的稀疏矩陣計算優(yōu)化,實現(xiàn)了對這類數(shù)據(jù)的高效處理,從而大幅提升了計算效率并降低了能耗。Ampere GA100 GPU具有6912個CUDA核心、108個張量核心和hr個RT核心,比Turing架構(gòu)提高約50%。Ampere架構(gòu)在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升。
?03英偉達全面引領(lǐng)AI時代
2016年,黃仁勛親手將第一臺DGX-1超級計算機送給了OpenAI。而在2022年年底,OpenAI發(fā)布了ChatGPT生成式大語言模型,其驚艷的自然語言處理能力成為深度學習發(fā)展歷程中劃時代的里程碑。而在這波AI革命中,英偉達作為“賣鏟人”,發(fā)布了H100 GPU,憑借著最新的Hopper架構(gòu),H100成為地表最強并行處理器。
H100是英偉達第九代數(shù)據(jù)中心GPU,集成了800億個晶體管,專為大規(guī)模AI和HPC計算而生。Hopper架構(gòu)標志性的變化是新一代流式多處理器的FP8張量核心(Tensor Core),這一創(chuàng)新進一步加速了AI訓練和推理過程。值得注意的是,Hopper架構(gòu)去除了RT Core,以便為深度學習計算騰出更多空間。此外,Hopper架構(gòu)還引入了Transformer引擎,這使得它在處理如今廣泛應(yīng)用的Transformer模型時表現(xiàn)出色,進一步鞏固了英偉達在深度學習硬件領(lǐng)域的領(lǐng)導地位。
同時,NVIDIA Grace Hopper超級芯片將NVIDIA Hopper GPU的突破性性能與NVIDIA Grace CPU的多功能性結(jié)合在一起,在單個超級芯片中與高帶寬和內(nèi)存一致的NVIDIA NVLink Chip-2-Chip(C2C)互連,并且支持新的NVIDIA NVLink切換系統(tǒng),CPU和GPU、GPU和GPU之間通過NVLink進行連接,數(shù)據(jù)的傳輸速率高達900 GB/s,解決了CPU和GPU之間數(shù)據(jù)的時延問題,跨機之間通過PCIe 5.0進行連接。
NVIDIA Grace Hopper超級芯片架構(gòu)是高性能計算(HPC)和AI工作負載的第一個真正的異構(gòu)加速平臺。2024年,英偉達推出的Blackwell架構(gòu)為生成式AI帶來了顯著的飛躍。相較于H100 GPU,GB200超級芯片在處理LLM推理任務(wù)時,性能實現(xiàn)了高達30倍的驚人提升,同時在能耗方面也實現(xiàn)了高達25倍的優(yōu)化。其中GB200超級芯片能夠組合兩個Blackwell GPU,并與英偉達的Grace中央處理單元配對,支持NVLink-C2C互聯(lián)。Blackwell還引入了第二代Transformer引擎,增強了對FP4和FP6精度的兼容性,顯著降低了模型運行時的內(nèi)存占用和帶寬需求。
此外,還引入了第五代NVLink技術(shù),使每個GPU的帶寬從900 GB/s增加到1800 GB/s。英偉達的GPU架構(gòu)經(jīng)歷了一系列針對深度學習優(yōu)化的重大創(chuàng)新和升級,每一次進步都在推動深度學習技術(shù)的邊界。這些架構(gòu)的發(fā)展不僅體現(xiàn)了英偉達在硬件設(shè)計方面的前瞻性,也為深度學習的研究和應(yīng)用提供了強大的計算支持,促進了AI技術(shù)的快速發(fā)展。值得注意的是,去年英偉達CEO黃仁勛在接受采訪時表示,英偉達工程師正在開發(fā)接下來的兩代產(chǎn)品,“將按照一年一代的節(jié)奏完成”。此前,英偉達按照平均兩年一次的更新頻率升級GPU架構(gòu),對產(chǎn)品性能進行大幅提升。
明日,英偉達會如何刷新人們的想象,令人期待。