• 正文
    • 01.天翼云萬卡方案破解三大挑戰(zhàn)可訓萬億參數基礎模型
    • 02.一站式智算服務行業(yè)大模型訓推三步走
    • 03.結語:國家隊出手智算云助力產業(yè)數智升級
  • 推薦器件
  • 相關推薦
申請入駐 產業(yè)圖譜

越過智算云發(fā)展拐點!解讀天翼云智算服務,用“組合拳”突圍大模型訓推難題

2024/07/10
1092
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

作者?|??香草

編輯?|??漠影

天翼云萬卡方案驅動萬億參數大模型訓練

在大模型熱潮的推動下,AI算力呈現出爆炸式的增長,為云計算行業(yè)帶來新的機遇。但同時,如何滿足巨大的算力需求,提供高性能、強穩(wěn)定的解決方案等,也為云廠商帶來新的挑戰(zhàn)。云計算廠商如何在智能云賽道中突圍?智東西7月9日報道,在2024世界人工智能大會(WAIC 2024)期間,天翼云科技有限公司董事長、總經理胡志強帶來主題演講,深入解讀了天翼云在智算資源供給、智算服務能力、模型應用生態(tài)三個方面的能力。

具體來說,天翼云自建了豐富的智算資源,并匯集了大量社會智算資源;基于一體化計算加速平臺云驍、一站式智算服務平臺慧聚,能承載萬億參數規(guī)模的基礎大模型訓練及行業(yè)大模型訓練推理;推出AI云電腦,構建紅云大模型開發(fā)者社區(qū),打造開放的模型生態(tài)。

其中在智算服務方面,天翼云聚焦基礎大模型、行業(yè)大模型兩大場景,分別提供模型開發(fā)訓練、訓練推理等服務,通過云驍、慧聚兩大平臺打造了萬卡集群的平臺化能力和解決方案能力,為客戶提供高效、便捷、穩(wěn)定的智算服務。天翼云智算服務具體能解決哪些行業(yè)痛點?是否已經在企業(yè)中落地并取得一定成效?帶著這些疑問,我們試圖尋找答案。

01.天翼云萬卡方案破解三大挑戰(zhàn)可訓萬億參數基礎模型

現階段,大模型的參數量在Scaling Law的推動下持續(xù)增長。以OpenAI等第一梯隊的大模型公司為例,其一直在擴充訓練數據、加大算力投入、堆積模型參數等方向上前進,尤其是基礎大模型,呈現出參數越來越大的趨勢。

而隨著模型參數的增加,對計算資源、存儲能力和網絡帶寬等需求也隨之增加,這對AI基礎設施提出高要求。胡志強談道,天翼云在支撐中國電信星辰大模型訓練過程中,遇到的挑戰(zhàn)主要集中在三個方面:算力、性能和穩(wěn)定性

算力方面,要訓練一個萬億參數大模型,至少需要單集群6000卡,甚至萬卡以上規(guī)模,并通過同等規(guī)模的亞毫秒延時級RDMA(遠程直接數據存?。┚W絡,才能支撐訓練過程中PB級的數據存取。

性能方面,大規(guī)模的分布式訓練對算力、存儲、網絡協同難度大,模型訓練中生成的Checkpoint文件大、讀寫速度慢等諸多性能問題,導致大模型訓練綜合效率低下。

穩(wěn)定性方面,AI基礎設施軟硬件技術棧復雜,任何中斷或錯誤都可能導致訓練失敗,重新開始不僅浪費時間,也增加了成本。例如,硬件故障率高,且故障難以發(fā)現、恢復速度慢,嚴重影響大模型訓練效率。針對這些痛點,云計算廠商應如何破解?

天翼云交出的答卷,是面向超大規(guī)模參數基礎大模型開發(fā)訓練的萬卡解決方案。具體來說,天翼云基于單集群萬卡智算中心,結合一體化計算加速平臺云驍一站式智算服務平臺慧聚,從基礎設施到平臺,構建了基礎大模型訓練解決方案。

算力層面,天翼云以可橫向擴展的PB級并行文件存儲服務(HPFS),提供高性能、亞毫秒級時延的并行文件存儲能力;以超大規(guī)模二層RDMA網絡,滿足基礎算力的需求;同時,通過對計算、內存、通信等方面的多維優(yōu)化,提升了綜合算效。

性能層面,天翼云對AI框架進行升級,使編譯效率翻倍;通過拓撲感知調度,大幅提升集合通信效率;基于存儲異步加速,實現Checkpoint文件快速保存及加載。

穩(wěn)定性層面,基于對200多項指標的實時監(jiān)控,模型訓練單次不中斷運行可達近一周時間;且一旦發(fā)生故障,可迅速斷點續(xù)訓,實現高穩(wěn)定可用運行?;趪a萬卡智算集群和自研智算平臺,天翼云智算服務已經具備支撐萬億參數基礎大模型訓練的能力

從系統(tǒng)工程上來看,要構建國產萬卡集群,并不只是堆疊一萬張卡這么簡單,還涉及到硬件設計、軟件架構、網絡通信、能源管理以及系統(tǒng)穩(wěn)定性等多個方面的綜合考量,包括超大規(guī)模的組網互聯、高效率的集群計算、長期穩(wěn)定性和高可用性等技術難題。

天翼云提供的萬卡解決方案,展示了國產算力如何通過技術創(chuàng)新來應對這些挑戰(zhàn),這不僅對天翼云自身是巨大的技術突破,也為整個行業(yè)提供了啟示。

02.一站式智算服務行業(yè)大模型訓推三步走

在本屆WAIC上,除了眾多基礎大模型的迭代更新引人注目外,行業(yè)大模型如何推動技術落地,也成為備受關注的話題。不同于基礎大模型注重通用性和廣泛適用性,行業(yè)大模型更側重于特定行業(yè)的定制化需求。

在落地層面,尤其是面向企業(yè)場景,行業(yè)大模型發(fā)揮了至關重要的作用。

而在技術層面,基礎大模型的開發(fā)重點在于模型的訓練過程,包括模型架構的設計、大規(guī)模數據集的構建等;行業(yè)大模型則更側重于訓練推理過程,即如何對訓練好的模型面向不同場景進行微調,并應用到實際場景中,解決具體問題。行業(yè)大模型的訓推服務同樣面臨三大挑戰(zhàn):訓練部署工程化復雜、訓推效率低、訓練中斷頻繁

基于云驍、慧聚兩大平臺,天翼云面向行業(yè)大模型訓推場景提供一站式的智算服務,針對性地破解這三個難題。

訓練部署工程方面,行業(yè)大模型通常需要處理特定領域的復雜數據,這要求模型訓練和部署過程中必須考慮數據的多樣性和特定性,這帶來數據的清洗、標注,模型的適配、訓練、調優(yōu)、量化及部署等7個環(huán)節(jié)的難題,因此,自動化流程的建立對于簡化訓練部署至關重要。

針對這些復雜環(huán)節(jié),慧聚平臺提供全棧工具鏈,通過預置行業(yè)數據集、支持國內外主流AI加速硬件、預置多個基礎大模型等能力,實現大模型訓推三步走??蛻糁恍枰涍^選數據、選硬件、選模型三個步驟,就可以實現大模型精調。

訓練效率方面,大模型的訓推過程需要大量計算資源,如何高效利用這些資源、避免資源浪費,是提高訓推效率的關鍵。例如,在訓推過程中,數據需要在不同的處理單元之間傳輸,數據傳輸的效率直接影響到整體的訓推速度。

針對模型參數量大、算子運行效率低、模型開箱性能低等因素,天翼云通過自研AI框架、3D并行加速、自研訓練加速庫、容器調度優(yōu)化等核心技術,大幅提升訓練效率。為了進一步優(yōu)化模型結構和算法、節(jié)省算力成本、提高模型運行速度,天翼云使用了模型量化壓縮、自研推理加速算子庫、自硏AI推理加速框架等核心技術,讓模型推理效率得到顯著提升。

訓練連續(xù)性方面,特別是在大規(guī)模訓練過程中,硬件故障是導致訓練中斷的常見原因;同時,軟件或配置錯誤、數據輸入錯誤、運行環(huán)境不穩(wěn)定等問題也常常導致訓練的中斷。如何在全鏈路感知故障并準確定位,成為解決訓練頻繁中斷難題的重要挑戰(zhàn)。

天翼云通過全鏈路故障分鐘級檢測、定位、告警,全鏈路日志監(jiān)控與可視化、斷點續(xù)訓快速恢復等核心技術,實現訓推過程全鏈路監(jiān)控。基于一站式的智算服務能力,天翼云為國內領先的AI公司提供AI基礎設施層服務,縮短其語音識別模型訓練時間周期并降低算力成本;在科研、制造業(yè)等領域,天翼云智算服務也已經落地,幫助客戶進行大模型訓練和微調,降低科研、科技創(chuàng)新成本。

隨著AI技術落地的需求增長,行業(yè)大模型也將迎來更廣闊的應用前景。天翼云提供的一站式智算服務能力不僅能幫助企業(yè)客戶突破瓶頸,也能在實踐過程中不斷汲取經驗再進化,推動技術迭代創(chuàng)新。

03.結語:國家隊出手智算云助力產業(yè)數智升級

在WAIC 2024現場,天翼云以最新的智算成果亮相,展出了單體萬卡液冷智算池,息壤、云驍、慧聚三大智算平臺,AI云電腦以及基于天翼云智算云底座的星辰大模型等技術成果。

作為云服務國家隊,天翼云沒有拘泥于現有的技術和市場格局,而是以開放的心態(tài)和前瞻的視野,積極探索和引領云計算和AI領域的新趨勢?;谪S富的智算資源儲備、強大的智算服務能力以及開放的模型應用社區(qū),天翼云正在加速布局全新的智算云生態(tài),為千行百業(yè)向智、向新發(fā)展注入國云力量。

推薦器件

更多器件
器件型號 數量 器件廠商 器件描述 數據手冊 ECAD模型 風險等級 參考價格 更多信息
STM32H743XIH6TR 1 STMicroelectronics High-performance and DSP with DP-FPU, Arm Cortex-M7 MCU with 2MBytes of Flash memory, 1MB RAM, 480 MHz CPU, Art Accelerator, L1 cache, external memory interface, large set of peripherals

ECAD模型

下載ECAD模型
暫無數據 查看
ATXMEGA128D4-CU 1 Microchip Technology Inc IC MCU 8BIT 128KB FLASH 49VFBGA
$16.33 查看
FT232RL-REEL 1 FTDI Chip USB Bus Controller, CMOS, PDSO28, 10.20 X 5.30 MM, GREEN, SSOP-28

ECAD模型

下載ECAD模型
$4.79 查看

相關推薦