• 正文
    • 面向未來十年的新一代計算架構
    • 1.1 復雜計算場景,需要更多的靈活性
    • 1.2 靈活性,代表了宏觀的規(guī)模
    • 1.3 性能和靈活性,魚和熊掌,必須全都要
    • 2.1 性能/算力的渴求無止境
    • 2.2 極致性能需要盡可能采用DSA
    • 3.1 架構設計概述
    • 3.2 復雜系統(tǒng),必須要軟硬件融合
    • 3.3 系統(tǒng)持續(xù)復雜,量變引起質變,從同構到異構再到超異構
    • 4.1 從硬件定義軟件到軟件定義硬件
    • 4.2 案例:Intel OneAPI,支持跨平臺的開發(fā)框架
    • 4.3 開放融合,更好地實現(xiàn)跨平臺
  • 相關推薦
申請入駐 產業(yè)圖譜

預見·第四代算力革命(三):面向未來十年的新一代計算架構

2022/02/21
1662
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

編者按

新華社北京2022年2月17日電,記者了解到,國家發(fā)展改革委、中央網(wǎng)信辦、工業(yè)和信息化部、國家能源局近日聯(lián)合印發(fā)文件,同意在京津冀、長三角、粵港澳大灣區(qū)、成渝、內蒙古、貴州、甘肅、寧夏啟動建設國家算力樞紐節(jié)點,并規(guī)劃了張家口集群等10個國家數(shù)據(jù)中心集群。至此,全國一體化大數(shù)據(jù)中心體系完成總體布局設計,“東數(shù)西算”工程正式全面啟動。

當前,算力已成為全球戰(zhàn)略競爭新焦點,是國民經濟發(fā)展的重要引擎,全球各國的算力水平與經濟發(fā)展水平呈現(xiàn)顯著的正相關。在2020年全球算力中,美國占36%,中國占31%,歐洲和日本分別占11%及6%。近年來,美國、歐洲、日本紛紛制定行動計劃,不斷運用算力助推經濟增長。

“數(shù)據(jù)、算法、算力”是數(shù)字經濟時代核心的三個要素,其中算力是數(shù)字經濟的物理承載。這里,我們通過“預見·第四代算力革命”系列文章(共四篇),從微觀到宏觀,詳細分析跟性能和算力相關的各個因素以及主流的算力平臺,盡可能地直面當前算力提升面臨的諸多挑戰(zhàn)和困難,展望面向未來的算力發(fā)展趨勢。這四篇文章為:

預見·第四代算力革命(一):算力綜述;

預見·第四代算力革命(二):三大主流計算平臺CPU、GPU和DSA;

預見·第四代算力革命(三):面向未來十年的新一代計算架構;

預見·第四代算力革命(四):宏觀算力建設。

本文為第三篇,歡迎關注公眾號,閱讀歷史以及后續(xù)精彩文章。

面向未來十年的新一代計算架構

算力,成為整個數(shù)字信息社會發(fā)展的關鍵。通過“東數(shù)西算”能緩解一些問題,但沒有根本解決問題:當前要想提升算力,更多的是靠“攤大餅”的方式構建更加規(guī)模龐大的現(xiàn)代化數(shù)據(jù)中心。

這是算力提升的Scale out(增大規(guī)模),那么,我們如何能夠做到算力的Scale up(提升單個計算節(jié)點的性能)?或者說,我們如何顯著(數(shù)量級)的提高單個處理器的性能?

1 性能,以靈活性為前提

1.1 復雜計算場景,需要更多的靈活性

云計算,是從IaaS、PaaS到SaaS的豐富多彩的分層服務體系。云計算具有很多本質的、顯著的特點,這些特點決定了云計算的內在發(fā)展規(guī)律:

超大的規(guī)模。AWS擁有超過400萬臺服務器,分布在全球22個地理區(qū)域和69個可用區(qū)。受規(guī)模的影響,數(shù)據(jù)中心需要自動化運維;因為VM/容器高可用,軟件實體需要在硬件平臺無縫遷移。這些需求,都需要軟硬件具有非常好的交互接口一致性。同樣,受規(guī)模的影響,任何一點細微的性能/成本優(yōu)化,在百萬級服務器的加持下,都會起到非常顯著的效果。例如,單個服務器系統(tǒng)優(yōu)化減少一個CPU核的消耗,對AWS來說,就意味著400萬個CPU核的成本降低,這會直接轉換成AWS的凈利潤。

大量的數(shù)據(jù)。2025年全球數(shù)據(jù)量175ZB,復合增長率27%,云端數(shù)據(jù)存儲占比超過50%。數(shù)據(jù)量爆炸式的增長,這么多數(shù)據(jù)的產生、傳輸、處理、存儲、分析、安全等等,都將對硬件的性能、帶寬、延時、空間、功耗、成本等構成龐大的挑戰(zhàn)。

復雜的網(wǎng)絡。網(wǎng)絡最關鍵的參數(shù)是帶寬和延遲,但在超大規(guī)模的加持下,集中管理的快速網(wǎng)絡變更成為一個關鍵的需求。并且,域間隔離和跨域訪問等網(wǎng)絡處理,都對網(wǎng)絡處理的性能提出了更高的要求。

虛擬化和可遷移性。虛擬化是云計算的基礎,虛擬化包括主機虛擬化、容器虛擬化以及函數(shù)虛擬化。虛擬化的本質目的是為了更好地資源隔離,以及提高資源利用率。目前,處理器平臺只有CPU做到了足夠好的硬件虛擬化支持,GPU和DSA的虛擬化能力還比較弱。為了實現(xiàn)VM/容器/函數(shù)的高可用,系統(tǒng)需要支持可遷移性,軟件運行實體和硬件運行環(huán)境解耦。在性能要求極高的同時,要求硬件IO設備和加速器等的接口一致性。需要“抽象層”硬件加速技術來屏蔽硬件差異,使得VM高性能的同時,可在不同服務器間平滑遷移。

可擴展性和復雜系統(tǒng)解構。受限于單臺服務器的處理能力,云計算通常通過橫向擴展來提升系統(tǒng)的服務能力;并且各種云服務的架構逐漸微服務化,這些因素,都促使數(shù)據(jù)中心的東西向流量激增。云計算場景,是復雜系統(tǒng)解構的同時,多租戶的更多系統(tǒng)共存。這些服務之間、租戶之間、系統(tǒng)之間需要非常安全的隔離,避免相互干擾以及數(shù)據(jù)訪問泄露等風險。

上面列出的云計算的鮮明特點,可以明顯看出,云計算場景對軟件系統(tǒng)運行的硬件平臺,提出了非常多的高標準要求??偨Y來說,就是:越是復雜的場景,對靈活性的要求越高。而當前,只有CPU能夠提供云場景所需的靈活性。CPU提供了靈活的軟件可編程能力、硬件級別的通用性、更好的虛擬化支持以及更好的軟硬件交互接口一致性等,這使得CPU成為了云計算等復雜計算場景的主力算力平臺。

然而,很不幸的是,算力需求依然在提升,而CPU卻遇到了摩爾定律失效。隨著CPU的性能瓶頸,我們不得不采用GPU、DSA等計算平臺,在這些計算平臺,如何提供如CPU一樣的軟件靈活性,是軟件和硬件的設計者需要核心關注的事情。

1.2 靈活性,代表了宏觀的規(guī)模

CPU是完全通用的處理器,通過最基本細分的簡單指令組成的程序,可以完成幾乎所有領域的任務處理。GPU,由于其并行計算的鮮明特點,在科學計算、圖形圖形處理、AI等領域具有非常大的優(yōu)勢。而DSA,則是要針對性能敏感場景,去定制處理器,只能覆蓋單一的領域。這樣,靈活性越高的處理器,其可以覆蓋的領域也就越多。而覆蓋的領域越多,也就意味著其可以實現(xiàn)更大規(guī)模的使用。

另一方面,即使在同一領域,不同用戶的差異化(橫向差異)以及用戶系統(tǒng)的長期快速迭代(縱向差異),都對硬件的靈活性提出了很高的要求。而芯片的研發(fā)周期2-3年,生命周期4-5年。在長達6-8年的周期里,要想覆蓋這么多的橫向和縱向的差異化功能需求,就必然需要相對靈活可編程的平臺。反過來說,要是提供了相對靈活可編程的平臺,就可以覆蓋盡可能多的用戶需求和用戶的長期迭代,這也就意味著處理芯片可以被更多的用戶使用,從而形成更大的規(guī)模。

因此,靈活性和規(guī)模是基本正比的關系。越高的靈活性,就意味著處理芯片可以得到更大規(guī)模的商業(yè)化落地。

1.3 性能和靈活性,魚和熊掌,必須全都要

 

從“指令”復雜度的觀點,我們可以得到:CPU最靈活但性能差,DSA相對固定但性能最好,GPU則位于兩者之間。單個處理引擎,其性能和靈活性是矛盾的兩面。獲得了性能就會失去靈活性,獲得了靈活性,就不得不損失性能。如上圖,我們進行詳細的說明:

需要特別強調的是,這里說的性能指的是同等資源規(guī)模情況下的相對性能。

Baseline,最低要求。Baseline的兩條虛線代表了復雜計算場景對性能和靈活性的最低要求。這意味著,CPU能滿足靈活性的要求,但無法滿足性能的要求。而DSA/ASIC能夠滿足性能的要求,但無法滿足靈活性的要求。GPU,相對均衡的設計,其性能和靈活性都無法滿足復雜計算場景的需要。

Ideal,理想化的(可以接近,但難以完全達到)要求。最理想的結果是魚和熊掌我們都要,既要CPU般極致的靈活性,又要DSA/ASIC般極致的性能。

CASH(Converged Architecture of Software and Hardware,軟硬件融合架構)。這里我們定義軟硬件融合架構CASH,其目標是實現(xiàn)接近于CPU一樣靈活性的同時,又能夠實現(xiàn)DSA/ASIC一樣極致的性能。其基本原理是“物盡其用”,通過把CPU、GPU、FPGA、DSA、ASIC等多種計算引擎混合集成在一起,讓“專業(yè)的人做專業(yè)的事”,分工協(xié)作,從而實現(xiàn)性能和靈活性的統(tǒng)一。

2 沿著摩爾定律的指引,持續(xù)不斷的提升性能

2.1 性能/算力的渴求無止境

算力,是數(shù)字經濟時代的核心生產力,是支撐數(shù)字經濟發(fā)展的堅實基礎。算力對推動科技進步、促進行業(yè)數(shù)字化轉型以及支撐經濟社會發(fā)展發(fā)揮重要的作用。算力與國家經濟發(fā)展緊密相關,《2020全球計算力指數(shù)評估報告》中指出,算力指數(shù)平均提高1個點,數(shù)字經濟和GDP將分布增長0.33%和0.18%。

根據(jù)IDC的報告,2018年中國產生的數(shù)據(jù)占全球23%,美國占21%。根據(jù)OpenAI的報告,全球AI訓練對算力的需求擴大了30萬倍。大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、區(qū)塊鏈、元宇宙等新興技術應用,是未來算力發(fā)展的核心推動力。正是因為數(shù)字經濟時代,上層越來越豐富的應用場景,對算力源源不斷的渴求,這樣就需要:

持續(xù)不斷的增加單個計算芯片/設備的性能(Scale up);

持續(xù)不斷地增加云計算、邊緣計算自動駕駛車輛、智能終端等多層次計算設備的部署規(guī)模(Scale out和算力分層體系Hierarchy)。

2.2 極致性能需要盡可能采用DSA

前面我們提到,DSA的性能最好,雖然其靈活性差一些。但為了極致的性能,就不得不盡可能地選擇DSA架構處理引擎。當然,為了確保靈活性,我們需要針對性地把系統(tǒng)進行拆解。

復雜的系統(tǒng)通常是個分層的體系。其底層工作任務相對固定,上層工作任務相對靈活??梢园训讓拥墓ぷ魅蝿毡M可能的運行在DSA,然后把上層的工作任務運行在CPU/GPU。

不過,把一些底層任務放在DSA,需要針對性地設計DSA引擎或芯片。而數(shù)據(jù)中心等場景超大的規(guī)模,使得任何一點細微的優(yōu)化,在規(guī)模的影響下,都會產生非常大的效益。因此,這種針對性的DSA設計是值得的。

比較理想的狀況,就是通過系統(tǒng)軟硬件架構的優(yōu)化設計,把90%以上(算力占比)的基礎層工作任務都運行在DSA(DSA負責性能敏感但功能確定的任務),而把應用層少于10%的工作任務運行在CPU/GPU(CPU負責更高價值,性能不那么敏感,但需要更多靈活可編程性的任務)。這樣,整個系統(tǒng)就可以很好地實現(xiàn)性能和靈活性的兼顧。

3 系統(tǒng)架構,整合各類性能優(yōu)化措施

3.1 架構設計概述

在《預見·第四代算力革命》的第一篇的時候,我們就已經提到了跟性能相關的四個因素(“指令復雜度”、運行頻率、并行度和I/O),也講到了通過工藝、存算一體、以及架構創(chuàng)新三類主要的手段來提升性能。三類手段和四個因素是垂直交叉的關系,通過多個不同視角,綜合地闡述如何提升芯片的性能。

站在架構設計的角度:

我們要考慮整個系統(tǒng)的輸入和輸出,通過什么樣的硬件接口,接口傳輸什么樣的內容,以及通過什么樣的上層接口協(xié)議;

還要考慮整個系統(tǒng)的分層分塊,以及每個任務/模塊間的交互;

還要考慮每個任務/模塊的軟硬件劃分以及這些任務的運行平臺;

并且要考慮內部總線互聯(lián)和軟件之間的接口調用。

業(yè)務需求、系統(tǒng)架構設計和半導體工藝/封裝進步是相互驅動和影響的:

半導體工藝進步的價值,需要通過架構設計來“變現(xiàn)”。以CPU多核設計為例,一開始,多核只有2/4個,通過(相對)簡單的Crossbar總線即可連接。當工藝進步,可以有很多的晶體管資源可以使用時,我們可以集成16甚至32核的時候,這個時候,CPU芯片的內部互聯(lián)就通過Ring或者Mesh總線。

為了滿足業(yè)務場景更高的要求,我們需要構建更大規(guī)模的系統(tǒng)架構設計;Chiplet封裝技術的進步,這也使得我們有能力構建更大規(guī)模的系統(tǒng)架構設計。我們不但要定義Chiplet之間的互聯(lián)總線,如何更好地實現(xiàn)把多個Chiplet芯粒連接成一個更大的芯片系統(tǒng),還需要重新定義全新的系統(tǒng)架構。

因為存儲分層體系越來越冗繁,訪問數(shù)據(jù)的代價越來越高。不得不對存儲分層進行優(yōu)化,從而產生了存算一體化,存算一體化通過工藝、封裝、架構設計等方式全方位的優(yōu)化處理的性能以及處理和I/O的匹配。

等等。

總結一下,我們有很多性能優(yōu)化的手段,但大多只能優(yōu)化性能相關的部分因素。并且這些優(yōu)化手段跟我們提供給軟件開發(fā)者所可以用的更高性能的計算平臺還有很大的距離。而系統(tǒng)架構則處于兩者之間,負責統(tǒng)籌這些措施,把各種各樣的性能優(yōu)化措施,整合成用戶可以方便使用的計算平臺,從而實現(xiàn)計算平臺的大規(guī)?;涞?。

3.2 復雜系統(tǒng),必須要軟硬件融合

計算機發(fā)展到現(xiàn)在,其架構已經是非常的成熟。軟件和硬件基本上是完全解耦,甚至形成了清晰而穩(wěn)定的交互邊界:

  • CPU是通過ISA來解耦軟件和硬件,并且把軟硬件之間的“接口”ISA標準化,所以才有x86、ARM和RISC-v三大架構之說;GPU通過CUDA解耦了GPU軟件開發(fā)和硬件設計,并且GPU和CUDA能夠實現(xiàn)向前兼容。因為GPU CUDA的強大生態(tài),NVIDIA才有了AI時代全球市值最高IC公司的成就。而ASIC則幾乎是一個純硬件的設計,只是通過控制面實現(xiàn)簡單的控制,并且這個控制面的接口還難以形成標準??梢哉J為ASIC設計沒有做到軟硬件劃分的標準化。

有了先進工藝和先進封裝,有了AI對算力的極度渴求,有了元宇宙整合虛擬和現(xiàn)實的各種先進的技術,等等。隨著技術和需求的發(fā)展,使得整個系統(tǒng)變得更加的復雜,以元宇宙為例,其系統(tǒng)復雜度會是當前系統(tǒng)的千倍萬倍。量變引起質變,如此高復雜度的系統(tǒng),當前已有的軟硬件體系肯定難以滿足要求。要做的,就是打破已有的體系和邊界,重新定義系統(tǒng)軟硬件,通過再一次的軟硬件相互“博弈”,形成新的架構和軟硬件劃分。并且,形成的新的架構和軟硬件劃分,依然有可能會快速地演進。

這個新的系統(tǒng),一定是由很多個子系統(tǒng)構成的宏系統(tǒng),一定是多種處理引擎混合共存。軟件里有硬件,硬件里有軟件,軟硬件組成的子系統(tǒng)再整合成一個更大的宏系統(tǒng)。我們把這種情況定義為軟硬件“融合”。

軟硬件融合,不改變系統(tǒng)層次結構和組件交互關系,但打破軟硬件的界限,通過系統(tǒng)級的協(xié)同,達到整體最優(yōu)。

復雜的系統(tǒng)分層,越上層越靈活軟件成分越多,越下層越固定硬件成分越多。為了持續(xù)的提升性能,則需要把系統(tǒng)中的任務盡可能的從CPU軟件運行,轉移到基于DSA更高效的硬件加速方式運行。復雜系統(tǒng)的底層任務逐漸穩(wěn)定,并且宏觀的超大規(guī)模,使得系統(tǒng)底層的任務適合逐步轉移到硬件DSA。通過軟硬件融合的優(yōu)化設計,可以使得“硬件”更加靈活,功能也更加強大,可以讓更多的層次功能加速向底層“硬件”轉移。

3.3 系統(tǒng)持續(xù)復雜,量變引起質變,從同構到異構再到超異構

(a) CPU組成的同構并行

(b) CPU + GPU/FPGA/DSA的異構并行

當前,并行計算的主流架構上圖所示,上圖(a)為CPU同構并行:

常見的多核CPU和多路CPU通過板級互聯(lián)組成的服務器,即是同構并行計算。CPU由于其靈活通用性好,是最常見的并行計算架構。但由于單個CPU核的性能已經到達瓶頸,并且單顆芯片所能容納的CPU核數(shù)也逐漸到頭。CPU同構并行已經沒有多少性能挖潛的空間。

上圖(b)為CPU+xPU的異構加速并行架構。一般情況下,GPU、FPGA及DSA加速器都是作為CPU的協(xié)處理加速器的形態(tài)存在,不是圖靈完備的。因此,這些加速器都需要CPU的控制,CPU+xPU成為了典型架構。

芯片工藝帶來的資源規(guī)模越來越大,所能支撐的設計規(guī)模也越來越大,這給架構創(chuàng)新提供了非常堅實的基礎。我們可以采用多種處理引擎共存,“專業(yè)的人做專業(yè)的事情”,來共同協(xié)作的完成復雜系統(tǒng)的計算任務。并且,CPU、GPU、FPGA、一些特定的算法引擎,都可以作為IP,被集成到更大的系統(tǒng)中。這樣,構建一個更大規(guī)模的芯片設計成為了可能。這里,我們稱之為“超異構計算”。如上圖所示,超異構指的是由CPU、GPU、FPGA、DSA、ASIC以及其他各種形態(tài)的處理器引擎共同組成的超大規(guī)模的復雜芯片系統(tǒng)。

超異構計算本質上是系統(tǒng)芯片SOC(System on Chip),但準確的定義應該是宏系統(tǒng)芯片MSOC(Macro-System on Chip)。站在系統(tǒng)的角度,傳統(tǒng)SOC是單系統(tǒng),而超異構宏系統(tǒng),即多個系統(tǒng)整合到一起的大系統(tǒng)。傳統(tǒng)SOC和超異構系統(tǒng)芯片的區(qū)別和聯(lián)系:

單系統(tǒng)還是多系統(tǒng)。傳統(tǒng)的SOC,有一個基于CPU的核心控制程序,來驅動CPU、GPU、外圍其他模塊以及接口數(shù)據(jù)IO等的工作,整個系統(tǒng)的運行是集中式管理和控制的。而超異構DPU由于其規(guī)模和復雜度,每個子系統(tǒng)其實就是一個傳統(tǒng)SOC級別的系統(tǒng),整個系統(tǒng)呈現(xiàn)出分布式的特點。

以計算為中心還是以數(shù)據(jù)為中心。傳統(tǒng)SOC是計算為中心,CPU是由指令流(程序)來驅動運行的,然后CPU作為一切的“主管”再驅動外圍的GPU、其他加速模塊、IO模塊運行。而在超異構芯片系統(tǒng)中,由于數(shù)據(jù)處理帶寬性能的影響,必須是以數(shù)據(jù)為中心,靠數(shù)據(jù)驅動計算。

4 需要形成開放融合的軟件生態(tài)

4.1 從硬件定義軟件到軟件定義硬件

GPU和CUDA都是硬件定義軟件時代的產物。GPU平臺,硬件的GPGPU提供接口給CUDA,CUDA再提供接口給應用。CUDA框架有特定的驅動和HAL屏蔽不同GPU的實現(xiàn)細節(jié);并且CUDA為了向前兼容和維護生態(tài),最終映射到標準的庫。這些標準的庫,提供了標準的接口給上層的CUDA應用程序。

 

當前,進入了軟件定義硬件的時代。以云計算場景為例,許多用戶場景的服務已經存在,只是這些服務以軟件的形式運行在CPU。受限于CPU的性能瓶頸,使得軟件的性能無法進一步提升,因此需要通過硬件加速的方式來繼續(xù)提升性能。

但是,服務已經穩(wěn)定運行很久的時間,并且已經服務成千上萬的上層用戶。云計算提供商肯定很難把整個服務從CPU遷移到DSA等加速處理引擎。另外一方面,不同廠家的DSA呈現(xiàn)的都是不同的訪問接口,如果遷移,這也會導致對芯片供應商的依賴。因此,需要硬件通過軟件(或者硬件)的方式,給云計算提供商提供一致的標準訪問接口。

4.2 案例:Intel OneAPI,支持跨平臺的開發(fā)框架

 

英特爾oneAPI是一個開放、可訪問且基于標準的編程系統(tǒng),支持開發(fā)人員跨多種硬件架構參與和創(chuàng)新,包括 CPU、GPU、FPGA、AI 加速器等。這些處理引擎具有非常不同的屬性,因此用于各種不同的處理——oneAPI試圖通過將它們統(tǒng)一在同一個模型下來簡化這些操作。

即使在今天,開發(fā)人員面臨的一個持續(xù)問題是我們日益數(shù)字化的世界提供的編程環(huán)境的數(shù)量。不同的編程環(huán)境使代碼重用等節(jié)省時間的策略失效,并成為軟件開發(fā)人員的真正障礙。作為其軟件優(yōu)先戰(zhàn)略的一部分,英特爾在 2019 年的超級計算活動中推出了oneAPI。該模型標志著英特爾的雄心是擁有統(tǒng)一的編程框架作為限制專有編程平臺的解決方案。oneAPI 使開發(fā)人員能夠在不厭倦使用不同語言、工具、庫和不同硬件的情況下工作。

Intel oneAPI可以實現(xiàn):設計一套應用,根據(jù)需要,非常方便地把程序映射到CPU、GPU、FPGA或者AI-DSA/其他DSA等不同的處理器平臺。

4.3 開放融合,更好地實現(xiàn)跨平臺

 

我們把oneAPI模型框架再增強一下,如上圖所示。這樣,跨平臺,不僅僅是在CPU、GPU、FPGA和DSA的跨平臺,更在于是不同Vendor的不同處理器的跨平臺。

在終端場景,軟件通常附著在硬件之上,兩者是綁定的。我們可以通過如HAL一樣的抽象層來實現(xiàn)平臺的標準化,然后再部署操作系統(tǒng)和應用軟件。而在云端,VM、容器和函數(shù)都是一個個軟件運行實體,可以在不同的硬件上遷移,這就使得軟件和硬件是完全分開的。這也就需要硬件提供非常好的平臺一致性。

不同廠家,不同處理引擎,給軟件抽象出一致的接口,使得軟件可以非常方便地在不同處理引擎之間遷移。從而,大家合作,共建出標準的、開放的一整套軟硬件生態(tài)。

5 新一代算力革命的目標

在《預見·第四代算力革命》的第二篇里,我們從性能、資源效率、靈活性和軟件生態(tài)四個方面,分析總結了CPU、GPU和DSA的優(yōu)劣勢。在本篇里,我們經過上述各種分析之后,我們給出面向未來十年的新一代計算架構的一些設計目標——基于軟硬件融合架構(CASH,Converged Architecture of Software and Hardware)的超異構計算:

性能。讓摩爾定律繼續(xù),性能持續(xù)不斷地提升。相比GPGPU,性能再提升100+倍;相比DSA,性能再提升10+倍。

資源效率。實現(xiàn)單位晶體管資源消耗下的最極致的性能,極限接近于DSA/ASIC架構的資源效率。

靈活性。給開發(fā)者呈現(xiàn)出的,是極限接近于CPU的靈活性、通用性及軟件可編程性。

設計規(guī)模。通過軟硬件融合的設計理念和系統(tǒng)架構,駕馭10+倍并且仍持續(xù)擴大的更大規(guī)模設計。

架構?;谲浻布诤系某悩嬘嬎悖篊PU + GPU + DSA + 其他各類可能的處理引擎。

生態(tài)。開放的平臺及生態(tài),開放、標準的編程模型和訪問接口,融合主流開源軟件。

6 總結:第四代計算架構,基于軟硬件融合的超異構計算

計算

范式

核心

器件

算力

比較

通用性

比較

優(yōu)勢

問題

第一代

CPU

x1

100

極度靈活可編程。

效率最低,性能已經瓶頸。

第二代

GPU

x10+

10

相比CPU的性能優(yōu)勢,相比DSA/ASIC的通用靈活性,應用領域更加廣泛。

效率相比DSA/ASIC不高,性能即將到頂。

——

ASIC

x100+

1

極致性能

靈活性最低,完全定制的方案,用戶難以差異化,難以大規(guī)模。

第三代

DSA

x100+

5

接近于ASIC的極致性能,并且具有一定的可編程能力。

同一領域,應用的算法依然多種多樣,并且快速迭代,應用層(如AI)DSA難以大規(guī)模落地。

第四代

CASH

x1000+

100

l超異構:CPU+GPU+DSA+其他;更大規(guī)模,更大算力

l軟硬件融合架構:CPU軟件一樣靈活可編程,DSA/ASIC硬件一樣極致的性能。

l開放的平臺及生態(tài):開放、標準的編程模型和訪問接口,融合主流開源軟件。

(正文完)

參考文獻:

http://www.xinhuanet.com/tech/20220218/ca65a9090bb64c1a8ab9b004f290b17d/c.html,正式啟動!“東數(shù)西算”工程全面實施

  1. 《2020全球計算力指數(shù)評估報告》,IDC & 浪潮

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

公眾號:軟硬件融合;CPU靈活性好但性能較差,ASIC性能極致但靈活性差,魚和熊掌如何兼得,同時兼顧性能和靈活性,我給出的方案是“軟硬件融合”。軟硬件融合不是說要軟硬件緊耦合,相反,是要權衡在不同層次和粒度解耦之后,再更加充分的協(xié)同。