微軟如何將大規(guī)模AI訓(xùn)練鑲在云計算的DNA里?
為了向人工智能(AI)初創(chuàng)公司OpenAI的前沿研究提供支持,微軟三年前為OpenAI打造了一臺由數(shù)萬個A100 GPU組成的大型AI超級計算機,成本或超過數(shù)億美元。微軟還在60多個數(shù)據(jù)中心總共部署了幾十萬個推理GPU。
據(jù)微軟Azure云業(yè)務(wù)的高管透露,爆火的OpenAI聊天機器人ChatGPT正是由這個AI超級計算機提供支持。當前微軟正在打造更大、更復(fù)雜的超級計算機,為新模型訓(xùn)練和運行提供支持。
微軟還在本周一宣布基于NVIDIA最新旗艦芯片H100 GPU和NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)互連技術(shù),推出Azure最強大、可大規(guī)模擴展的AI虛擬機系列,以顯著加速AI模型的開發(fā)。
微軟對AI基礎(chǔ)設(shè)施的芯片及前沿技術(shù)布局,對于應(yīng)對大模型與生成式AI應(yīng)用熱潮、為更大規(guī)模的模型訓(xùn)練與部署提供算力支撐頗具參考價值。
ChatGPT成功背后的算力功臣:成本或超數(shù)億美元
微軟在2019年向OpenAI投資10億美元時,同意為OpenAI建造一臺大型頂尖超級計算機。當時,微軟并不確定在其Azure云服務(wù)中構(gòu)建這么大的東西,會不會對Azure本身造成影響。
OpenAI試圖訓(xùn)練更多需要學(xué)習(xí)海量數(shù)據(jù)、擁有超大參數(shù)規(guī)模的AI模型,需要長期訪問強大的云計算服務(wù)。為了應(yīng)對這一挑戰(zhàn),微軟必須想方設(shè)法將數(shù)萬個NVIDIA A100 GPU串在一起,并改變其在機架上放置服務(wù)器的方式,以防止斷電。
負責(zé)云計算和人工智能的微軟執(zhí)行副總裁Scott Guthrie不愿透露該項目的具體成本,但表示“可能大于”數(shù)億美元。
訓(xùn)練大型AI模型需要在一個地方連接大量連接的GPU,就像微軟組裝的AI超級計算機一樣。
據(jù)微軟Azure AI基礎(chǔ)設(shè)施總經(jīng)理Nidhi Chappell介紹,微軟構(gòu)建了一個可在非常大的范圍內(nèi)運行且可靠的系統(tǒng)架構(gòu),這就是讓ChatGPT成為可能的原因。OpenAI總裁兼聯(lián)合創(chuàng)始人說,與Azure共同設(shè)計超級計算機對于擴展苛刻的AI訓(xùn)練需求至關(guān)重要,使得OpenAI能在ChatGPT等系統(tǒng)上開展研究和調(diào)整工作。
現(xiàn)在,微軟使用它為OpenAI構(gòu)建的同一組資源來訓(xùn)練和運行自己的大型AI模型,包括上個月發(fā)布的新版Bing搜索機器人。
微軟還將系統(tǒng)出售給其他客戶,并已經(jīng)在開發(fā)下一代AI超級計算機,這是它與OpenAI擴大交易、追加數(shù)十億美元投資的一部分。
值得注意的是,AI超級計算機雖然是專為OpenAI打造的,但微軟并沒有把它設(shè)計成只能供一家企業(yè)使用的定制化設(shè)施。
“我們并沒有將它們構(gòu)建成定制的東西——它最初是作為定制的東西,但我們總是以一種通用化的方式來構(gòu)建它,這樣任何想要訓(xùn)練大型語言模型的人都可以利用同樣的改進。”Guthrie在接受采訪時說,“這確實幫助我們成為更廣泛的AI云?!?/p>
除此之外,微軟還部署了用于推理的GPU,這些處理器共有數(shù)十萬個,分布在其60多個數(shù)據(jù)中心區(qū)域。
H100 GPU+先進網(wǎng)絡(luò)互連為生成式AI做好準備
微軟周一宣布推出Azure最強大、可大規(guī)模擴展的AI虛擬機系列ND H100 v5 VM,支持從8到數(shù)千個NVIDIA H100 GPU,這些GPU通過NVIDIA Quantum-2 InfiniBand網(wǎng)絡(luò)互連,能夠顯著提高AI模型計算速度。一些創(chuàng)新技術(shù)包括:
生成式AI應(yīng)用正在迅速發(fā)展,微軟對自己的AI基礎(chǔ)設(shè)施非常有信心。微軟Azure HPC+AI首席產(chǎn)品經(jīng)理Matt Vegas說,大規(guī)模AI內(nèi)置于Azure的DNA里,微軟最初投資Turing等大型語言模型研究,并實現(xiàn)了在云上構(gòu)建第一臺AI超級計算機等工程里程碑,為生成式AI成為可能做好了準備。
在AI超級計算機的支撐下,微軟一方面可以通過Azure服務(wù)直接為客戶提供訓(xùn)練模型所需的資源,也可以通過Azure OpenAI服務(wù)讓更廣泛的客戶用到大規(guī)模生成式AI模型的能力。也就是說,中小型公司可以通過獲取云服務(wù)來解決算力資源不足的問題,不需要進行大量物理硬件或軟件投資。
算力是一場持久仗。新版Bing仍處于預(yù)覽階段,微軟逐漸從候補名單中添加更多用戶。Guthrie的團隊每天與大約20名隨時準備修補bug的員工召開會議。該小組的工作是弄清楚如何使更多的計算能力快速上線,以及解決突然出現(xiàn)的問題。
當OpenAI或微軟訓(xùn)練大型AI模型時,工作是一次性完成的。它分布在所有GPU上,在某些時候,這些單元需要在高吞吐量、低延遲網(wǎng)絡(luò)中相互通信和共享工作。
對于AI超級計算機,微軟已確保處理所有芯片之間通信的網(wǎng)絡(luò)設(shè)備能夠處理該負載,并且它必須開發(fā)能夠充分利用GPU和網(wǎng)絡(luò)設(shè)備的軟件。微軟已開發(fā)出可訓(xùn)練具有數(shù)萬億參數(shù)的模型的軟件。
由于所有機器同時啟動,微軟不得不考慮它們?nèi)绾畏胖靡约?a class="article-link" target="_blank" href="/tag/%E7%94%B5%E6%BA%90/">電源的位置。Guthrie打了個比方,如果不做這些權(quán)衡,你在數(shù)據(jù)中心遇到的情況就好比你在廚房同時打開微波爐、烤面包機和真空吸塵器時會遇到的狀況。
Azure全球基礎(chǔ)設(shè)施總監(jiān)Alistair Speirs談道,微軟還必須確保它能夠冷卻所有機器和芯片。Guthrie說,微軟將繼續(xù)致力于定制服務(wù)器和芯片設(shè)計以及優(yōu)化其供應(yīng)鏈的方法,以盡可能地提高速度、效率和成本。
云服務(wù)依賴于數(shù)以千計的不同部件和項目,任何一個組件的延遲或供應(yīng)短缺,都可能導(dǎo)致一切失敗。最近,維修人員不得不應(yīng)對電纜托盤短缺的問題。這種類似籃子的裝置用來固定從機器上掉下來的電纜。因此他們設(shè)計了一種新的電纜橋架,微軟可以自行制造或從某處購買。Guthrie說,他們還研究了如何壓縮全球現(xiàn)有數(shù)據(jù)中心中盡可能多的服務(wù)器,這樣就不必等待新建筑。
結(jié)語:正在打造下一代超級計算機
微軟正通過應(yīng)用十年的超級計算經(jīng)驗和支持最大的AI訓(xùn)練工作負載,來應(yīng)對模型規(guī)模和復(fù)雜性呈指數(shù)級增長的趨勢,為生成式AI進步奠定基礎(chǔ)。
“現(xiàn)在讓世界驚嘆的模型是構(gòu)建于我們幾年前開始建造的超級計算機上的。新模型將構(gòu)建于我們現(xiàn)在正在訓(xùn)練的新超級計算機上,這臺計算機要大得多,而且會更加復(fù)雜?!盙uthrie說。
編譯 | ZeR0
編輯 | 漠影