• 正文
    • 01、DeepSeek?引發(fā)的算力需求嬗變
    • 02、昇騰助力伙伴迎來爆發(fā)式增長
    • 03、昇騰為何成為DeepSeek部署“最優(yōu)解”?
    • 筆者觀察:昇騰的不可替代性從何而來?
  • 相關推薦
申請入駐 產業(yè)圖譜

千行百業(yè)深度擁抱DeepSeek,誰是DeepSeek部署“最優(yōu)解”?

02/18 11:35
1268
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

2025年2月,當DeepSeek以“小專家”架構和強化學習技術引爆全球AI產業(yè)時,一場關于算力底座價值的重新定義正在悄然發(fā)生。

DeepSeek不僅以訓練效率提升2-3倍、推理效率提升5倍-7倍的技術突破,引發(fā)千里之外的巴黎AI峰會熱議,更在商業(yè)落地層面創(chuàng)造了現(xiàn)象級紀錄——上線20天即吸引160余家企業(yè)接入,日均調用量突破3000萬次,還登陸Apple Store免費應用榜首。

以后,我們看到千行百業(yè)深度擁抱DeepSeek。根據相關數(shù)據統(tǒng)計,在DeepSeek R1發(fā)布后的20天內,國內外已有160多家企業(yè)集體接入DeepSeek,覆蓋互聯(lián)網、金融、運營商、政務、教育等行業(yè)。

在這場AI普惠化浪潮中,一個關鍵問題浮出水面:當千行百業(yè)爭相部署DeepSeek時,什么樣的算力底座,才能真正承載這場變革?

01、DeepSeek?引發(fā)的算力需求嬗變

在過去的十年時間,生成式AI經歷了從技術突破到大規(guī)模應用的跨越。

早在2014年,Google Brain團隊用GAN生成的人臉雖模糊卻震撼了學界;而后2017年Transformer架構的誕生,讓機器真正掌握了語言序列的奧秘;最為世人皆知的是,2020年GPT-3以1750億參數(shù)震驚世界,其生成的哲學散文甚至騙過專業(yè)期刊評審。

而近日DeepSeek R1的迅速走紅,其主要通過MoE架構與工程優(yōu)化,將千億模型的預訓練成本降低至557.6萬美元,僅是OpenAI GPT-4o模型訓練成本的十分之一,徹底打破了以往“暴力堆料”的路徑依賴,成為大家心目中的“國產之光”。

大家都很關心,DeepSeek作為生成式AI的又一里程碑事件,將帶來哪些影響?

一是技術路徑轉變。以往大模型頭部玩家主張“技術摸高”,堅定投入預訓練基礎模型創(chuàng)新,追逐Scaling Law(擴展定律,即模型性能隨著數(shù)據量和模型大小等因素增加而提升)。

例如Meta將AI投資從400億加碼至650億美元,Google的TPUv5集群規(guī)模突破萬卡,都是為了實現(xiàn)“更大模型→更強性能”的線性突破。

但DeepSeek以“手術刀式”的工程創(chuàng)新,開辟出第二條進化路徑。DeepSeek在高濃度的技術專家創(chuàng)新下,通過模型結構、計算通信、后訓練等領域的極致工程優(yōu)化,使得訓練成本降低60%,模型性能提升20%,大幅提升算力利用效率。

同時,DeepSeek徹底打破了傳統(tǒng)“預訓練主導”的算力分配格局,推動產業(yè)進入預訓練、后訓練、推理“三足鼎立”新階段,因此長期穩(wěn)定可靠的算力底座仍是模型創(chuàng)新的關鍵。

02、昇騰助力伙伴迎來爆發(fā)式增長

千行百業(yè)深度擁抱DeepSeek,掀起了DeepSeek的接入浪潮,加速牽引算力需求增長。

那金融、交通、教育、制造等各大行業(yè)企業(yè)和政府機構,應該如何去接入DeepSeek呢?對于大模型所需要的智算基礎設施問題,選擇云服務,還是自建還是一體機?哪種模式更好,誰家的服務更強?

要知道,DeepSeek的部署需求將AI硬件競爭推向深水區(qū),與傳統(tǒng)大模型不同,其“小專家”架構帶來兩個核心挑戰(zhàn):跨節(jié)點通信效率與動態(tài)負載均衡。

挑戰(zhàn)一:跨節(jié)點通信效率。在傳統(tǒng)大模型中,計算主要在單個節(jié)點內完成,通信壓力集中于模型并行的參數(shù)同步。而DeepSeek的MoE架構中,每個輸入token需動態(tài)路由至多個專家模塊,這些專家往往分布在不同的計算節(jié)點上,這就對帶寬和時延提出高要求。

挑戰(zhàn)二:動態(tài)負載均衡。在MoE架構中,專家模塊的調用頻次高度依賴輸入數(shù)據分布。其中,高負載專家所在節(jié)點成為性能瓶頸,而低利用率專家占用內存和算力卻貢獻有限。

筆者梳理整個市場的情況發(fā)現(xiàn),部署DeepSeek一體機的模式,被認為是最快速、最安全、最穩(wěn)定的模式。

而在眾多一體機服務提供商中,昇騰展現(xiàn)出令人矚目的“中國速度”。

2024年12月26日,DeepSeek AI發(fā)布的大型語言模型DeepSeek V3,發(fā)布即支持昇騰,目前各行業(yè)已有超過80家的客戶,基于昇騰快速上線DeepSeek系列模型,并對外提供服務,占據國內70%的份額。

更值得關注的是,昇騰生態(tài)伙伴迎來的爆發(fā)式成長。例如,昇騰助力超過20個省份、25座城市的AICC啟動部署DeepSeek,全國超過70%的區(qū)域可獲取本地支持。

當巨量用戶涌入,DeepSeek忙到癱瘓時,相信有不少人和筆者一樣,通過昇騰生態(tài)的硅基流動平臺,使用DeepSeek?;跁N騰底座的DeepSeek上線僅一周時間,用戶增長率達到數(shù)倍。

同樣火熱的還有魔樂社區(qū),其聯(lián)合昇騰社區(qū)同步上線DeepSeek系列模型,下載量超過10000次,一躍成為國內最受歡迎的模型社區(qū)。

03、昇騰為何成為DeepSeek部署“最優(yōu)解”?

從眾多行業(yè)企業(yè)的選擇可以看出,昇騰成為DeepSeek部署的“最優(yōu)解”。昇騰脫穎而出,為什么呢?

我們認為,一方面,昇騰與其他廠商相比,展現(xiàn)出獨特的差異化優(yōu)勢。

其一,在軟件生態(tài)方面,昇騰擁有硬件+框架+云的完整體系,工具鏈十分完善,而同領域國產廠商軟件生態(tài)較弱,國外廠商雖然生態(tài)成熟,但存在被封鎖風險。

其二,在行業(yè)解決方案方面,昇騰與華為行業(yè)軍團緊密合作,特別是在政務、交通等領域。國產廠商行業(yè)覆蓋有限,國際廠商主要依賴代理商,本地化支持不足。

其三,在端邊云協(xié)同方面,昇騰的架構能夠覆蓋云、邊、端,可做到無縫部署,而國產廠商則專注于單一場景,國際廠商邊緣端依賴海外廠商生態(tài),需額外適配。

當行業(yè)聚焦于應對MoE架構的深水區(qū)挑戰(zhàn)時,昇騰展現(xiàn)出的不僅是橫向生態(tài)優(yōu)勢,其技術縱深的突破性創(chuàng)新,更成為支撐DeepSeek規(guī)?;涞氐暮诵牧α?。

首先,在訓練能力層面,昇騰是業(yè)界首個適配完成DeepSeek核心算法,支持DeepSeek全系模型從預訓練到微調全流程均適配的AI訓練平臺。同時,昇騰還提供“行業(yè)強化微調解決方案”,支撐行業(yè)快速將DeepSeek強化學習技術應用到模型訓練,提升模型效果。

其次,在推理能力層面,昇騰并行推理DeepSeek V3和R1,高效跨機互聯(lián)和MoE專家通信優(yōu)化,將通信時延降低30%。此外,昇騰通過偽EP混合并行算法和稀疏路由稠密化算法,從而降低專家不均衡度,使得推理吞吐性能提升20%~35%。

最后,在AI框架支持層面,昇思MindSpore Transformers大模型使能套件提供了端到端的全流程支持,模塊化賦能DeepSeek V3開發(fā),實現(xiàn)天級快速復現(xiàn)。而且,該套件為所有開發(fā)者提供了即取即用的模型資源,加速了模型創(chuàng)新及在行業(yè)落地應用。

以備受追捧的昇騰一體機為例,其融合昇騰高性能算力底座與DeepSeek全系列大模型能力,具備高吞吐、低時延、多并發(fā)、靈活部署四大優(yōu)勢,覆蓋語言理解、圖像分析等全場景需求,擁有服務器、推理卡、加速模組等產品形態(tài),為企業(yè)提供一站式AI解決方案。

筆者觀察:昇騰的不可替代性從何而來?

DeepSeek的成功實踐,成為昇騰生態(tài)價值的典型例證。歷經多年發(fā)展,昇騰構建起完善的技術和商業(yè)生態(tài),這對企業(yè)快速部署DeepSeek及產業(yè)落地有著天然的吸引力。

以技術生態(tài)舉例,昇騰的推理硬件覆蓋模組-加速卡-推理小站-服務器等全系列,讓算力底座發(fā)揮出更高性能,還發(fā)展了330萬開發(fā)者。

商業(yè)生態(tài)的廣度拓展同樣顯著。目前昇騰聯(lián)合60余家硬件伙伴、2500多個行業(yè)合作伙伴,孵化5800余個解決方案,還聯(lián)合伙伴開發(fā)了160多個原生算子,打造了40多個原生模型,助力浙江移動、浙江電信等企業(yè)上線400多個原生應用,成效顯著。

這場由DeepSeek引發(fā)的產業(yè)變革,檢驗的是基礎創(chuàng)新厚度與生態(tài)協(xié)同效率的雙重較量。

在AI基礎設施的競技場上,以昇騰和DeepSeek為代表的中國力量正走出一條獨特的發(fā)展路徑——不是簡單替代或盲目追隨,而是以系統(tǒng)工程思維構建自主創(chuàng)新的生態(tài)體系。

這條路或許漫長,卻注定通向更廣闊的產業(yè)未來。

相關推薦

登錄即可解鎖
  • 海量技術文章
  • 設計資源下載
  • 產業(yè)鏈客戶資源
  • 寫文章/發(fā)需求
立即登錄

黃海峰,科技媒體人,通信世界原副主編。北京郵電大學畢業(yè),從事ICT領域研究和報道11年。關注5G、IoT、終端、AI、云等領域的融合發(fā)展。聚焦知名電信運營商、電信設備商、終端企業(yè)、IT企業(yè)等。運營“黃海峰的通信生活”(hhfine)微信公眾帳號以及“海峰看科技”今日頭條。