狠狠爱亚洲五月婷婷av,丰满少妇中文字幕无码

作者：鵬程

明日，英偉達創(chuàng)始人CEO黃仁勛將迎來重振該公司股價的重要契機。在英偉達年度技術(shù)峰會GTC上，黃仁勛將闡述他如何帶領(lǐng)英偉達探索AI下一個前沿的方向。

據(jù)摩根大通此前預(yù)計，英偉達將在大會上推出Blackwell Ultra芯片（GB300），并可能披露Rubin平臺的部分細節(jié)。此次大會還將聚焦AI硬件的全面升級，包括更高性能的GPU、HBM內(nèi)存、更強的散熱和電源管理，以及CPO（共封裝光學）技術(shù)路線圖。

在黃仁勛的演講到來前，我們來看看這些年中英偉達推出的系列架構(gòu)，和他們背后的故事。

1999年底，英偉達推出了第一款GPU（Graphic Process Unit，圖形處理單元）Geforce 256，將完整的渲染管線集成進硬件，提供了不錯的加速效果。但這款產(chǎn)品還很難稱之為處理器，因為它尚不具備任何可編程能力。2001年隨著DX8引入可編程頂點著色器的概念，英偉達才在Geforce 3中添加了Vertex Processor，使GPU可以編程了。隨后，越來越多的可編程著色器被DX和OpenGL引入，以滿足渲染開發(fā)者的算法需求。

在GPU設(shè)計之初，并非針對深度學習，而是圖形加速，在英偉達推出CUDA架構(gòu)之前，GPU并無太強對深度學習運算能力的支持。真正用來作為人工智能算力支持的GPU，不是普通的顯卡，而是GPGPU（General-Purpose Computing on Graphics Processing Units）即通用計算圖形處理器，這是一種用于處理非特定需求（通用類型）計算目的的算力單元（芯片）。

?01革命的開始，CUDA架構(gòu)的誕生

隨著GPU具備了可編程能力，其用于并行計算的天賦被發(fā)掘出來。當時，很多大學和研究機構(gòu)都在嘗試用GPU做一些科學計算。

2003年的SIGGRAPH大會上，許多業(yè)界泰斗級人物發(fā)表了關(guān)于利用GPU進行各種運算的設(shè)想和實驗?zāi)Ｐ?。SIGGRAPH會議還特地安排了時間進行GPGPU的研討交流。但當時的開發(fā)者只能利用著色器編程語言開發(fā)程序，必須將計算資源映射為渲染概念才能使用，非常麻煩。因此亟需一種針對GPU并行計算的編程語言。此時，正在斯坦福讀博的Ian Bark看到這一需求，投身到Brook（一套用于并行計算的編程語言，后被AMD收購）的研發(fā)中，成為GPU并行計算軟件棧的先行者。2004年，他以實習生的身份加入英偉達，并于兩年后開發(fā)出CUDA。

渲染需求變得越來越多樣化，并行計算業(yè)務(wù)正含苞待放，Tesla G80架構(gòu)正是在這樣的歷史背景下被設(shè)計出來，成為英偉達改變自身命運的重要轉(zhuǎn)折點。

2006年，英偉達推出了Tesla架構(gòu)的第一代（G80），開啟了GPU通用計算探索。Tesla架構(gòu)之前的顯卡也經(jīng)歷了幾代的發(fā)展，但基本上是圖形顯卡。而它采用全新的CUDA架構(gòu)，支持使用C語言進行GPU編程，可以用于通用數(shù)據(jù)并行計算。這成為英偉達改變自身命運的重要轉(zhuǎn)折點。

Tesla G80是第一款實現(xiàn)CUDA架構(gòu)的GPGPU，開啟了一個并行加速的時代。G80是有史以來最偉大的GPU變革產(chǎn)物之一，首批產(chǎn)品GeForce 8800 GTX/GTS于2006年11月發(fā)布。之后，英偉達又在第一代基礎(chǔ)上推出了Tesla架構(gòu)的第二代（GT200），其雙精度的FMA運算速度30FMA ops/ clock，提升了8倍多。就在G80-G200這兩代產(chǎn)品上，英偉達花了大約三年時間積累了大量的用戶體驗反饋，招募了Bill Dally作為首席科學家，最終推出了Fermi這個劃時代的產(chǎn)品，這是第一款帶有L1 Cache、ECC糾錯，面向超級計算機的架構(gòu)，從這一代開始，英偉達涉足超級計算機的野心開始暴露無遺，在發(fā)布的時候拉來了多位超級計算機行業(yè)的重要人物站臺。

2010年，英偉達公司正式推出了Fermi全新架構(gòu)。這款架構(gòu)不僅僅是一個簡單的硬件更新，而是被英偉達定義為首款專門為計算任務(wù)而設(shè)計的GPU。換句話說，英偉達通過Fermi架構(gòu)重新定義了GPU的概念，旨在加速并行計算的性能。與此同時，這款架構(gòu)還具備了強大的圖形渲染能力，使其在圖形處理方面同樣表現(xiàn)出色。而GF100是第一款基于Fermi架構(gòu)的GPU，集成32億個晶體管，專為下一代游戲與通用計算應(yīng)用程序而優(yōu)化的全新架構(gòu)，實現(xiàn)了所有DirectX 11硬件功能，包括曲面細分和計算著色器等。

G80是對統(tǒng)一圖形與計算處理器應(yīng)有面貌的最初愿景。隨后的GT200擴展了G80的性能與功能。而GF100，這是一個專為下一代游戲與通用計算應(yīng)用程序而優(yōu)化的全新架構(gòu)的GPU。Fermi這一代架構(gòu)展現(xiàn)了英偉達全力押注通用并行計算的決心。倘若說Tesla G80僅僅是小試身手，那么Fermi則正式吹響了全面進軍計算產(chǎn)業(yè)的號角。

?02英偉達布局高性能計算

之后，英偉達大致保持了兩年更新一次架構(gòu)的頻率，不斷推陳出新。

2012年，英偉達推出Kepler架構(gòu)。這是首個支持超級計算和雙精度計算的GPU架構(gòu)。得益于28nm的先進制程技術(shù)，Kepler在性能和功耗方面實現(xiàn)了質(zhì)的提升。Kepler GK110具有2880個流處理器和高達288GB/s的帶寬，計算能力比Fermi架構(gòu)提高3-4倍。Kepler架構(gòu)的出現(xiàn)使GPU開始成為高性能計算的關(guān)注點。

2014年，英偉達發(fā)布的Maxwell架構(gòu)是先前Kepler架構(gòu)的升級版，采用臺積電28nm工藝制程。彼時移動設(shè)備興起，對低功耗、高性能GPU需求大增，同時需要優(yōu)化GPU在不同應(yīng)用場景的適應(yīng)性，Maxwell架構(gòu)應(yīng)運而生。首款基于Maxwell架構(gòu)的GPU為GM107，專為筆記本和小型（SFF）PC等功率受限的使用場合而設(shè)計，采用臺積電28nm工藝制程，芯片尺寸148平方毫米，集成18.7億個晶體管。針對流式多處理器采用全新設(shè)計稱為SMM，GM107核心的每核心效能提升了35%，每瓦功耗比提升了一倍，支持DirectX 12。首款基于GM107GPU的顯卡是GeForce GTX750Ti。

2016年，Pascal架構(gòu)推出，用于接替上一代的Maxwell架構(gòu)?；赑ascal架構(gòu)的GPU使用16nm FinFET工藝、HBM2、NVLink等新技術(shù)。這是首個為了深度學習而設(shè)計的GPU，支持所有主流的深度學習計算框架。Pascal架構(gòu)核心陣容強大，包括GP100（3840個CUDA Core和60組SM單元）和GP102（3584個CUDA Core和28組SM單元）兩大核心。Pascal GP100具有3840個CUDA核心和732GB/s的顯存帶寬，但功耗只有300W，比Maxwell架構(gòu)提高50%以上。Pascal架構(gòu)剛剛推出之際，深度學習正發(fā)展的如火如荼。業(yè)界出現(xiàn)了很多針對神經(jīng)網(wǎng)絡(luò)的專用加速器，無論在能效和面效上都碾壓GPU，這讓英偉達倍感壓力。為了應(yīng)對競爭，英偉達一反之前兩年一代架構(gòu)的迭代節(jié)奏，次年就推出了專門針對神經(jīng)網(wǎng)絡(luò)加速的GPU架構(gòu)Volta。

Volta架構(gòu)引入了Tensor Core（張量核心）專門加速矩陣運算，提升深度學習計算效率；支持NVlink 2.0，提高了數(shù)據(jù)傳輸速度，增強了多GPU協(xié)作能力，提升系統(tǒng)整體性能。Volta GV100具有5120個CUDA 核心和900GB/s的帶寬，加上640個張量核心，AI計算能力達到112 TFLOPS，比Pascal架構(gòu)提高了近3倍。Volta的出現(xiàn)標志著AI成為GPU發(fā)展的新方向。緊隨其后，在一年后的2018年，英偉達發(fā)布了Turing架構(gòu)，進一步增強了Tensor Core的功能。Turing架構(gòu)不僅延續(xù)了對浮點運算的優(yōu)化，還新增了對INT8、INT4、甚至是Binary（INT1）等整數(shù)格式的支持。這一舉措不僅使大范圍混合精度訓練成為可能，更將GPU的性能吞吐量推向了新的高度，較Pascal GPU提升了驚人的32倍。

此外，Turing架構(gòu)還引入了先進的光線追蹤技術(shù)，新增了Ray Tracing核心（RT Core）。Turing TU102具有4608個CUDA核心、576個張量核心和72個RT核心，支持GPU光線追蹤，代表了圖形技術(shù)的新突破。2020年，Ampere架構(gòu)的推出再次刷新了人們對Tensor Core的認知。Ampere架構(gòu)新增了對TF32和BF16兩種數(shù)據(jù)格式的支持，進一步提高了深度學習訓練和推理的效率。

同時，Ampere架構(gòu)引入了對稀疏矩陣計算的支持，在處理深度學習等現(xiàn)代計算任務(wù)時，稀疏矩陣是一種常見的數(shù)據(jù)類型，其特點是矩陣中包含大量零值元素。傳統(tǒng)的計算方法在處理這類數(shù)據(jù)時往往效率低下，而Ampere架構(gòu)通過專門的稀疏矩陣計算優(yōu)化，實現(xiàn)了對這類數(shù)據(jù)的高效處理，從而大幅提升了計算效率并降低了能耗。Ampere GA100 GPU具有6912個CUDA核心、108個張量核心和hr個RT核心,比Turing架構(gòu)提高約50%。Ampere架構(gòu)在人工智能、光線追蹤和圖形渲染等方面性能大幅躍升。

?03英偉達全面引領(lǐng)AI時代

2016年，黃仁勛親手將第一臺DGX-1超級計算機送給了OpenAI。而在2022年年底，OpenAI發(fā)布了ChatGPT生成式大語言模型，其驚艷的自然語言處理能力成為深度學習發(fā)展歷程中劃時代的里程碑。而在這波AI革命中，英偉達作為“賣鏟人”，發(fā)布了H100 GPU，憑借著最新的Hopper架構(gòu)，H100成為地表最強并行處理器。

H100是英偉達第九代數(shù)據(jù)中心GPU，集成了800億個晶體管，專為大規(guī)模AI和HPC計算而生。Hopper架構(gòu)標志性的變化是新一代流式多處理器的FP8張量核心（Tensor Core），這一創(chuàng)新進一步加速了AI訓練和推理過程。值得注意的是，Hopper架構(gòu)去除了RT Core，以便為深度學習計算騰出更多空間。此外，Hopper架構(gòu)還引入了Transformer引擎，這使得它在處理如今廣泛應(yīng)用的Transformer模型時表現(xiàn)出色，進一步鞏固了英偉達在深度學習硬件領(lǐng)域的領(lǐng)導地位。

同時，NVIDIA Grace Hopper超級芯片將NVIDIA Hopper GPU的突破性性能與NVIDIA Grace CPU的多功能性結(jié)合在一起，在單個超級芯片中與高帶寬和內(nèi)存一致的NVIDIA NVLink Chip-2-Chip（C2C）互連，并且支持新的NVIDIA NVLink切換系統(tǒng)，CPU和GPU、GPU和GPU之間通過NVLink進行連接，數(shù)據(jù)的傳輸速率高達900 GB/s，解決了CPU和GPU之間數(shù)據(jù)的時延問題，跨機之間通過PCIe 5.0進行連接。

NVIDIA Grace Hopper超級芯片架構(gòu)是高性能計算（HPC）和AI工作負載的第一個真正的異構(gòu)加速平臺。2024年，英偉達推出的Blackwell架構(gòu)為生成式AI帶來了顯著的飛躍。相較于H100 GPU，GB200超級芯片在處理LLM推理任務(wù)時，性能實現(xiàn)了高達30倍的驚人提升，同時在能耗方面也實現(xiàn)了高達25倍的優(yōu)化。其中GB200超級芯片能夠組合兩個Blackwell GPU，并與英偉達的Grace中央處理單元配對，支持NVLink-C2C互聯(lián)。Blackwell還引入了第二代Transformer引擎，增強了對FP4和FP6精度的兼容性，顯著降低了模型運行時的內(nèi)存占用和帶寬需求。

此外，還引入了第五代NVLink技術(shù)，使每個GPU的帶寬從900 GB/s增加到1800 GB/s。英偉達的GPU架構(gòu)經(jīng)歷了一系列針對深度學習優(yōu)化的重大創(chuàng)新和升級，每一次進步都在推動深度學習技術(shù)的邊界。這些架構(gòu)的發(fā)展不僅體現(xiàn)了英偉達在硬件設(shè)計方面的前瞻性，也為深度學習的研究和應(yīng)用提供了強大的計算支持，促進了AI技術(shù)的快速發(fā)展。值得注意的是，去年英偉達CEO黃仁勛在接受采訪時表示，英偉達工程師正在開發(fā)接下來的兩代產(chǎn)品，“將按照一年一代的節(jié)奏完成”。此前，英偉達按照平均兩年一次的更新頻率升級GPU架構(gòu)，對產(chǎn)品性能進行大幅提升。

明日，英偉達會如何刷新人們的想象，令人期待。