作者:豐寧
在AI領(lǐng)域,GPU的主要應(yīng)用場景有兩個,第一個是訓練場景,即利用GPU加速AI算法的訓練。第二個場景是推理場景,即利用GPU加速AI算法推理。目前,國內(nèi)高端AI場景中的GPU應(yīng)用基本上都由英偉達的A800覆蓋。
A800被視為是A100的“閹割版”。去年由于美國政府收緊對華出口管制,英偉達迅速推出數(shù)據(jù)傳輸速度相對較慢的A800,用來代替A100向中國出口,與此類似的還有更高端的英偉達H100和H800。
由于中國暫時沒有能力提供用于云端AI訓練的高性能GPU,因此A800迎來中國互聯(lián)網(wǎng)巨頭的青睞。
?01全球芯片巨頭,囤積GPU
據(jù)報道,中國的互聯(lián)網(wǎng)巨頭百度、騰訊、阿里巴巴以及字節(jié)跳動公司今年向英偉達下達的交付訂單金額達到10億美元,總共采購約10萬張A800芯片;明年交付的AI芯片價值更是達到40億美元。
可見,中國大型科技公司對于GPU采購非常急迫。不止國內(nèi)企業(yè),國外大客戶對英偉達的A100/H100芯片需求同樣非常強烈。
近來,社區(qū)廣為流傳的一張圖“我們需要多少張GPU”,引發(fā)了眾多網(wǎng)友的討論。
根據(jù)圖中內(nèi)容所示:GPT-4可能在大約10000—25000張A100上進行訓練;Meta大約需要21000張A100;Tesla大約需要7000張A100;Stability AI大約需要5000張A100;Falcon-40B在384張A100上進行了訓練;Inflection使用了3500張H100,來訓練與GPT-3.5能力相當?shù)哪P?。另外,根?jù)馬斯克的說法,GPT-5可能需要30000—50000張H100。
面對如此強大的需求,英偉達的GPU陷入極度短缺。據(jù)外媒報道,供應(yīng)鏈消息顯示,在生成式人工智能需求高漲以及國際形勢變化等因素影響下,英偉達專供中國市場的A800和H800 GPU價格持續(xù)攀升。7月中旬,英偉達代理商反饋,英偉達的A800 GPU單價漲至12萬元,H800和H100報價也都超過20萬。目前英偉達訂單能見度已至2024年,以現(xiàn)在的排產(chǎn)進度,就連A800/H800都要到今年底或明年才能交貨。
?02產(chǎn)量瓶頸在哪里?
據(jù)tomshardware報道,英偉達DGX系統(tǒng)副總裁兼總經(jīng)理Charlie Boyle出面澄清了該公司GPU產(chǎn)量問題的具體所在。Charlie Boyle表示,問題并非來自英偉達錯誤計算需求,或其制造合作伙伴臺積電的晶圓產(chǎn)量問題。相反,制造足夠的GPU來滿足消費者和專業(yè)工作負載(比如AI)的瓶頸在于隨后的芯片封裝步驟。
英偉達的H系列GPU采用臺積電的2.5D CoWoS封裝技術(shù),這是一種多步驟、高精度的工程流程,其復雜性降低了在給定時間內(nèi)可以組裝的GPU數(shù)量,這可能會不成比例地影響供應(yīng)。馬斯克也表示“GPU超級難得”。
因此,當人們使用“GPU短缺”這個詞時,他們實際上是在談?wù)撝靼迳夏承┙M件的短缺或積壓,而不是GPU本身。
在芯片成為可用的GPU之前,需要執(zhí)行從芯片設(shè)計到制造的多個步驟。芯片設(shè)計階段的問題可能會因設(shè)計疏忽而造成制造瓶頸,從而降低設(shè)計的良率。稀土金屬或其他材料(例如最近受到限制的鎵)的缺乏將影響長物流鏈中的其他步驟;材料污染、能源中斷和許多其他因素也會造成影響。
但CoWoS的瓶頸問題可能比預想的更嚴重。臺積電也表示,預計需要一年半(以及完成額外晶圓廠和擴建現(xiàn)有設(shè)施)才能使封裝訂單積壓恢復正常。這可能意味著英偉達將不得不決定將哪些封裝能力分配給哪些產(chǎn)品,因為它沒有足夠的時間和能力來封裝所有產(chǎn)品。
不僅如此,為限制中國AI產(chǎn)業(yè)的發(fā)展,美國總統(tǒng)拜登在今年8月正式簽署行政命令,限制美國企業(yè)未來在敏感技術(shù)的對華投資,涵蓋半導體、量子計算和人工智能三大領(lǐng)域,預計將于明年實施。
產(chǎn)量不足尚且可破,倘若切斷供應(yīng),極有可能使這些正在進行云端AI訓練的大廠陷入困局,也正因此,這些科技巨頭開始競相囤積 A800 芯片。仍需重視的是,倘若A800/H800當真受到美國禁令的影響,中國本土芯片公司以及那些正在自研芯片的科技大廠是否有能力擔此重任?
?03運行大模型,國產(chǎn)GPGPU有哪些可選標的?
如今,美國實施新的許可要求,限制中國利用高端GPU獲取先進計算能力,由于被限制的是近兩年商用領(lǐng)域最先進的GPU產(chǎn)品,暫時沒有可以全面替代的選擇。因此,美國政府認為,切斷中國從美國公司獲取這些芯片的直接渠道,可以為中國人工智能的發(fā)展制造障礙,遲滯中國人工智能的發(fā)展,希望中國人工智能領(lǐng)域由此一蹶不振。
然而事實呢?事實是禁令一出美國企業(yè)的股票遇冷下行,生產(chǎn)類似芯片的中國企業(yè)的股票卻呈現(xiàn)相反的上行態(tài)勢。這也意味著作為美國企業(yè)戰(zhàn)略競爭者的中國企業(yè)或許能夠獲得更大的發(fā)展空間。
其實從2019年開始,應(yīng)用于超算領(lǐng)域的高端GPU售至中國就受到嚴格管制,但當時只是AMD產(chǎn)品受限,英偉達的產(chǎn)品并未受到影響,因此企業(yè)和消費者在產(chǎn)品端的感知也并不強。而這一次范圍擴大之后,其主要應(yīng)用場景除了超算中心之外,還包括云計算服務(wù)器、數(shù)據(jù)中心、AI訓練等場景,許多互聯(lián)網(wǎng)大廠也就受到了影響。
正因為有了前車之鑒,隨著國內(nèi)云計算以及互聯(lián)網(wǎng)企業(yè)在云端存儲、數(shù)據(jù)處理等方面需要的數(shù)據(jù)量越來越多,各大互聯(lián)網(wǎng)公司、云廠商也在AI芯片領(lǐng)域進行布局。
2019年阿里推出人工智能芯片“含光800”,“含光800”是一款面向數(shù)據(jù)中心AI應(yīng)用的人工處理推理芯片,采用臺積電12nm 制程,這是一顆為AI場景深度定制的芯片,進一步提升了AI場景計算的效率。阿里曾表示,“含光800”是當時全球最強的AI芯片,性能和能效比均為第一,1顆“含光800”的算力相當于10顆GPU。目前已應(yīng)用在阿里云的云服務(wù)器中,它能夠優(yōu)化電商智能搜索、智能營銷等場景。阿里“含光800”雖然不對外售賣,但阿里云智能總裁張建峰也提到“含光800”將通過阿里云對外輸出 AI 算力,未來企業(yè)可以通過阿里云獲取“含光800”的算力。
百度也在2020年量產(chǎn)了第一代AI芯片——昆侖。百度昆侖1采用三星14nm制程工藝,目前量產(chǎn)超過2萬片,在百度搜索引擎和百度智能云生態(tài)伙伴等場景廣泛部署。百度昆侖2于2021年下半年實現(xiàn)量產(chǎn),采用7nm先進工藝,其性能比百度昆侖1再提升3倍。據(jù)悉,百度正在做第三款昆侖芯片,將于明年的年初上市。
稍微慢一點的騰訊也在2021年發(fā)布了視頻處理芯片“滄?!焙虯I芯片“紫霄”。字節(jié)在“2022 火山引擎原動力大會”上也正式確認了其在自主造芯方面的布局。目前,字節(jié)的自研芯片已經(jīng)涉足視頻平臺、信息和娛樂應(yīng)用等。
目前為止,國內(nèi)互聯(lián)網(wǎng)大廠的芯片研發(fā)方向都集中在云計算、視頻圖像處理等方面的專用或者通用芯片上。除了互聯(lián)網(wǎng)大廠,國內(nèi)也已經(jīng)有一些GPU廠商源源不斷的發(fā)布一些性能優(yōu)異的產(chǎn)品。
目前全球AI計算芯片主要分為GPGPU、ASIC、FPGA三種架構(gòu)。而被限制的A800和H800芯片就屬于GPGPU架構(gòu)芯片。目前能運行大模型訓練的也只有GPGPU架構(gòu)。
當前國內(nèi)AI芯片主要廠商包括華為、寒武紀、海光信息、遂原、壁仞、天數(shù)智芯等,此外龍芯也在布局。其中,發(fā)力GPGPU芯片的包括海光、壁仞科技、沐曦科技、龍芯等等。
海光的深算一號采用的就是GPGPU架構(gòu),是公司DCU 系列的主要在售產(chǎn)品。
國內(nèi)的廠商中海光信息從實際量產(chǎn)的技術(shù)上來講是第一梯隊,其深算一號可以用來運行大模型,在2022 年度實現(xiàn)了在大數(shù)據(jù)處理、人工智能、商業(yè)計算等領(lǐng)域的商業(yè)化應(yīng)用。不過其整體性能只相當于英偉達P100的水平,大約是英偉達2014年的技術(shù)水平。不過,其深算二號、三號也處于研發(fā)階段,海光稱其產(chǎn)品性能在國內(nèi)處于領(lǐng)先地位。
壁仞科技在2022年發(fā)布了首款GPGPU芯片BR100系列,性能方面超越英偉達A100。BR100 系列通用 GPU 芯片支持云端訓練和推理,目前已經(jīng)到了收尾階段,正準備流片。壁仞科技的第二款芯片也已經(jīng)開始啟動架構(gòu)設(shè)計,之后壁仞科技還將逐步推出面向智算中心、云游戲、邊緣計算的GPU芯片。至于未來量產(chǎn)應(yīng)用情況暫時存疑。還需重視的是,對于國內(nèi)初創(chuàng)GPGPU公司而言,軟件生態(tài)更為重要。目前國內(nèi)的初創(chuàng)公司雖然在細分領(lǐng)域上有一定的落地,而真正在大模型訓練上能有實際應(yīng)用的還非常欠缺。倘若未來BR100的實際應(yīng)用效果還不錯,那么在軟件生態(tài)上還需加把勁。
沐曦也是國內(nèi)GPGPU的選手之一。沐曦公司旗下主要有曦思和曦云兩款AI芯片,其中曦云MXC系列是該公司研發(fā)的用于AI訓練及通用計算的GPU芯片。MXC500是沐曦對標A100/A800的算力芯片,F(xiàn)P32浮點性能可達15TFlops,作為對比的是A100顯卡FP32 性能19.5 TFLOPS。除了性能接近之外,MXC500的完整軟件棧(MXMACA)還兼容CUDA,預計年底規(guī)模出貨。
龍芯目前暫無產(chǎn)品發(fā)布,目前進展為已經(jīng)完成相關(guān)IP的設(shè)計,正在驗證優(yōu)化過程中,第一個集成自研GPGPU核的SOC芯片計劃于2024年Q1流片。從流片到量產(chǎn),如果按最快6—12個月來算,龍芯的GPGPU產(chǎn)品至少也要在2024年Q3以后才能發(fā)布,量產(chǎn)估計需要在2025年了。
另外,華為昇騰也十分被看好。華為的昇騰910也能拿來當訓練芯片,其算力強悍,超英偉達的Tesla V100一倍。但是由于昇騰910依賴華為自身軟件生態(tài)、需要華為深度優(yōu)化及代碼移植,通用性相對要差一些,且其采用臺積電的7nm制程,在制造上也受到限制,因此暫不做過多討論。
?04英偉達是最優(yōu)選,但不能視為唯一選
如今GPU缺口還在加速擴大,倘若A800/H800也受到供應(yīng)限制,那么中國的云服務(wù)器廠商一定要提前謀劃一條自主的發(fā)展路徑。
中國AI芯片廠商正從原來強調(diào)算力和獨特技術(shù)的傾向逐漸向針對特定應(yīng)用場景而優(yōu)化的方向轉(zhuǎn)變。雖然微軟、谷歌以及百度現(xiàn)在將AI拿來聊天畫畫,但不代表他們的AI不能做其他事情。當下讓AI落地在民用市場不但能使廠商利用AI獲得更多的收入,特別是微軟、谷歌和百度都有不小的廣告業(yè)務(wù),另一方面讓用戶更直觀的體驗到AI,在民用市場采集更多的數(shù)據(jù)進行訓練亦能反哺云端場景的應(yīng)用。這個過程可能會長一點,慢一點,但是這也是一定要做的事情。
同樣,倘若無法與中國進行貿(mào)易,美國企業(yè)也要承受巨大損失。A800和H800這些GPU就是英偉達為了繞過美國對中國施行的出口禁令所開發(fā),以此維持其在中國市場的地位。英偉達此前透露,下半年他們能夠供應(yīng)更多的GPU,但是沒有提供任何定量的信息。英偉達首席財務(wù)官Colette Kress此前在2023年2月至4月的財報電話會議上透露:“我們正在處理本季度的供應(yīng),但我們也為下半年采購了大量生產(chǎn)材料。我們相信下半年的供應(yīng)量將大大高于上半年?!?/p>
對于中國的市場現(xiàn)狀來說,英偉達GPU確是最優(yōu)選,但長久來看并不能將其視為唯一選。