DeepSeek的崛起不僅是技術(shù)革新,更是一場(chǎng)從“機(jī)器語(yǔ)言”到“人類(lèi)語(yǔ)言”的范式革命,推動(dòng)了AGI時(shí)代到來(lái)。各個(gè)行業(yè)的應(yīng)用場(chǎng)景不斷拓展,為企業(yè)數(shù)字化發(fā)展帶來(lái)了新機(jī)遇,同時(shí)也面臨諸多挑戰(zhàn)。不同企業(yè)在落地部署過(guò)程中存在諸多待解決的問(wèn)題和實(shí)踐難點(diǎn)。
本文將圍繞與企業(yè)交流中所總結(jié)的部署落地路徑,并給出相關(guān)建議,與大家分享解讀以下核心觀點(diǎn):
推理模型元年,新模型、新技術(shù)依然可期
推理模型使得大模型向決策場(chǎng)景邁出重要一步
企業(yè)為模型付費(fèi)意愿下降,公有云推理支出增加
分享嘉賓|張揚(yáng) 愛(ài)分析聯(lián)合創(chuàng)始人&首席分析師內(nèi)容已做精簡(jiǎn),如需獲取專(zhuān)家完整版視頻實(shí)錄和課件,請(qǐng)文末掃碼領(lǐng)取。
01、推理模型元年,新模型、新技術(shù)依然可期
整體技術(shù)情況是企業(yè)進(jìn)行推理模型落地部署和場(chǎng)景探索的基礎(chǔ)。從技術(shù)本身而言,今年可被視為推理模型元年,在模型和技術(shù)層面,存在許多新的迭代方向,技術(shù)路線也存在競(jìng)爭(zhēng)。
模型方面,梳理從OpenAI o1?Preview版本發(fā)布到Grok 3發(fā)布的過(guò)程,其間不僅有OpenAI和DeepSeek,還有千問(wèn)、Google的Gemini,以及智譜、訊飛、階躍星辰、Kimi等。預(yù)計(jì)3月左右,Anthropic和OpenAI有可能發(fā)布GPT 5,不同廠商在推出不同模型。
與去年下半年模型發(fā)布節(jié)奏相比,變化巨大。ChatGPT剛發(fā)布后,國(guó)內(nèi)廠商基本每月迭代一個(gè)版本,2023年大部分廠商按月或按季度更新迭代大語(yǔ)言模型版本。2024年下半年,可能半年都未必有新版本更新,更多更新轉(zhuǎn)向多模態(tài)模型。
進(jìn)入2025年,由于DeepSeek開(kāi)源模型發(fā)布,預(yù)計(jì)2月、3月乃至整個(gè)上半年,不同廠商都會(huì)發(fā)布推理模型,且版本迭代速度加快。Grok比DeepSeek晚發(fā)布約一個(gè)月,預(yù)計(jì)豆包、Anthropic等企業(yè)也會(huì)發(fā)布新模型。
從模型本身來(lái)看,去年下半年大語(yǔ)言模型的Scaling Law接近極限,但目前推理模型的Scaling Law才剛剛起步,這也是版本迭代井噴的原因之一,預(yù)計(jì)2025年還會(huì)出現(xiàn)大量新的模型版本。此外,DeepSeek公開(kāi)了強(qiáng)化學(xué)習(xí)(RL)這一技術(shù)路線,但它并非唯一可行路線。
此前還有過(guò)程獎(jiǎng)勵(lì)、蒙樹(shù)等不同技術(shù)路線,以及無(wú)需思維鏈的隱式推理技術(shù)路線等,這些技術(shù)路線仍在探索中,RL是首個(gè)跑通的,但不意味著只有它可行?;诖罅啃峦评砟P秃托录夹g(shù)路線的探索,當(dāng)考慮將其落地到企業(yè)進(jìn)行部署時(shí),鑒于模型版本不斷迭代更新,建議企業(yè)采取由淺入深、逐步推進(jìn)的方式落地推理模型。
以下列出四條由淺入深的路徑:
1. API接入:這是最基礎(chǔ)的方式,目前許多央企已在企業(yè)內(nèi)部即時(shí)通訊(IM)中嵌入推理模型,采用類(lèi)似微信對(duì)DeepSeek進(jìn)行灰度測(cè)試的模式。采用API接入,一是速度快,能迅速完成部署;二是可實(shí)現(xiàn)全員使用。相較于之前接入大廠API需高額付費(fèi),接入R1雖仍需付費(fèi),但金額大幅降低,所以多數(shù)企業(yè)選擇從API接入起步。
2.本地化部署結(jié)合知識(shí)庫(kù)RAG:這是上一波大語(yǔ)言模型落地較為通用的方式,目前仍廣泛應(yīng)用于企業(yè)內(nèi)部,尤其在金融機(jī)構(gòu)和央企中。不過(guò),各企業(yè)部署的R1版本有所不同,少數(shù)采用6000億參數(shù)版本,多數(shù)采用蒸餾后的千問(wèn)32B版本。
3.對(duì)知識(shí)庫(kù)RAG中的提示詞工程進(jìn)行精細(xì)化處理:部分企業(yè)會(huì)將基于思維鏈的提示詞單獨(dú)提取出來(lái),做進(jìn)一步精細(xì)化處理。當(dāng)前多數(shù)企業(yè)推進(jìn)速度最快也就到這一步,也是較為理想的實(shí)施階段。完成前三步后,一方面,全員參與使用有助于拓展新應(yīng)用場(chǎng)景,企業(yè)在部署模型后,更關(guān)注投資回報(bào)率(ROI)及能否開(kāi)拓新場(chǎng)景,通過(guò)全員探索自下而上的方式較為有效;另一方面,繼續(xù)深入則不可避免涉及監(jiān)督微調(diào)(SFT)和模型蒸餾。由于推理模型不斷涌現(xiàn),難以保證三個(gè)月后R1模型不因自身迭代或新廠商模型的出現(xiàn)而被超越,這就可能需要重新進(jìn)行SFT。
4.數(shù)據(jù)相關(guān)問(wèn)題:在整個(gè)過(guò)程中,R1存在一個(gè)尚不明晰的問(wèn)題,即60萬(wàn)思維鏈(COT)數(shù)據(jù)和20萬(wàn)通用知識(shí)數(shù)據(jù)。企業(yè)在進(jìn)行強(qiáng)化學(xué)習(xí)或蒸餾時(shí),這60萬(wàn)COT數(shù)據(jù)的獲取存在較大疑問(wèn)。目前,一些新開(kāi)源版本約有11萬(wàn)COT數(shù)據(jù)開(kāi)源,未來(lái)幾個(gè)月Grok?3是否會(huì)開(kāi)源COT數(shù)據(jù)尚不確定。數(shù)據(jù)開(kāi)源與模型版本持續(xù)迭代同樣重要,若這些數(shù)據(jù)開(kāi)源,企業(yè)進(jìn)行蒸餾和SFT時(shí)將更為順暢。
綜合考量各方面因素,建議現(xiàn)階段企業(yè)主要嘗試前三個(gè)要點(diǎn),對(duì)于絕大部分企業(yè)而言,開(kāi)展第四步進(jìn)行監(jiān)督微調(diào)(SFT)以及自行進(jìn)行模型蒸餾,尚未達(dá)到理想的時(shí)間窗口期。不過(guò),少部分已進(jìn)行語(yǔ)言模型(LM)預(yù)訓(xùn)練的企業(yè)提出,能否基于自身已完成預(yù)訓(xùn)練的版本,開(kāi)展類(lèi)似R1的強(qiáng)化學(xué)習(xí)過(guò)程,以期將原本懂企業(yè)知識(shí)的預(yù)訓(xùn)練模型,轉(zhuǎn)變?yōu)榧榷髽I(yè)知識(shí)、推理能力又強(qiáng)的企業(yè)專(zhuān)屬推理模型。從R1的學(xué)術(shù)論文來(lái)看,該路線比SFT更為復(fù)雜。
不建議企業(yè)采用此路線。核心原因在于,在R1論文中做過(guò)類(lèi)似測(cè)試。測(cè)試中,R1一方面基于千問(wèn)版本進(jìn)行R1 Zero強(qiáng)化學(xué)習(xí),另一方面直接基于R1進(jìn)行蒸餾。從最終推理效果,尤其是關(guān)鍵的通用問(wèn)題回答推理效果來(lái)看,R1 Zero得分為55分 ,R1蒸餾后的得分為62分,蒸餾效果優(yōu)于R1 Zero強(qiáng)化學(xué)習(xí)效果。對(duì)于32B版本或參數(shù)不到千億的版本,蒸餾效果強(qiáng)于強(qiáng)化學(xué)習(xí)。
此外,蒸餾屬于SFT范疇,而強(qiáng)化學(xué)習(xí)所需算力更多,耗費(fèi)時(shí)間更長(zhǎng)。所以,無(wú)論是從成本、時(shí)間還是效果角度分析,蒸餾的性價(jià)比更高。這是目前不建議企業(yè)復(fù)制R1強(qiáng)化學(xué)習(xí)過(guò)程的關(guān)鍵所在。這屬于第五條路徑,目前來(lái)看,該路徑還沒(méi)有特別有效的調(diào)整或優(yōu)化方式。
基于上述兩點(diǎn),建議企業(yè)現(xiàn)階段更多選擇采用API接入或知識(shí)庫(kù)檢索增強(qiáng)生成方式,這與上一版大語(yǔ)言模型落地思路一致,是從推理模型落地路徑角度給出的具體建議和實(shí)施方式,同時(shí)還包含一些推薦配置。大部分企業(yè),尤其是春節(jié)后復(fù)工的企業(yè),在部署32B模型時(shí),通常使用兩張A100顯卡;部署70B的Llama版本模型,大概需要四張A100顯卡。若部署遷移模型,使用A100顯卡的話,至少需要兩臺(tái)8卡機(jī)器才能運(yùn)行,所需預(yù)算較高。
02、推理模型使得大模型向決策場(chǎng)景邁出重要一步
推理模型與傳統(tǒng)大語(yǔ)言模型相比,有著核心區(qū)別。若將傳統(tǒng)大語(yǔ)言模型形象地類(lèi)比為高中生或本科生,那么推理模型則更像是在邏輯推理能力方面經(jīng)過(guò)專(zhuān)項(xiàng)訓(xùn)練的研究生。這一本質(zhì)變化使得傳統(tǒng)大語(yǔ)言模型多應(yīng)用于生成類(lèi)場(chǎng)景,即當(dāng)時(shí)所謂的生成式AI;而推理模型則推動(dòng)生成式場(chǎng)景向角色場(chǎng)景邁進(jìn),實(shí)現(xiàn)了重要跨越。
基于此,我們梳理了部分已知企業(yè)正在嘗試的推理模型應(yīng)用場(chǎng)景。
- 在能源領(lǐng)域,推理模型的角色場(chǎng)景在去年四五月份就有體現(xiàn),當(dāng)時(shí)出現(xiàn)的AutoGPT被用于電力負(fù)荷預(yù)測(cè)、電力價(jià)格預(yù)測(cè)以及電力交易策略優(yōu)化。然而,上一版本的大語(yǔ)言模型所支撐的AutoGPT難以滿足這些決策場(chǎng)景的需求,效果欠佳。如今,隨著推理能力的提升,電力企業(yè)基于DeepSeek新模型重新進(jìn)行決策場(chǎng)景的探索,依然圍繞需求預(yù)測(cè)、價(jià)格預(yù)測(cè)以及交易優(yōu)化展開(kāi),這是能源領(lǐng)域正在突破的決策場(chǎng)景。
- 在金融領(lǐng)域,由于授信風(fēng)控對(duì)模型的可解釋性要求較高,因此更多通過(guò)可解釋的方式來(lái)構(gòu)建角色場(chǎng)景。比如在反洗錢(qián)方面,傳統(tǒng)大語(yǔ)言模型主要協(xié)助反洗錢(qián)工作人員撰寫(xiě)報(bào)告,而現(xiàn)在推理模型能夠智能識(shí)別反洗錢(qián)可能存在的新模式。此外,新型反欺詐識(shí)別、財(cái)務(wù)對(duì)賬與分析等,對(duì)于傳統(tǒng)大語(yǔ)言模型而言復(fù)雜度較高的場(chǎng)景,也成為銀行重點(diǎn)探索的新方向。金融和能源領(lǐng)域是目前重點(diǎn)突破的決策場(chǎng)景。
- 在制造和醫(yī)療領(lǐng)域,相關(guān)企業(yè)也在進(jìn)行嘗試,不過(guò)預(yù)期所需時(shí)間比金融和能源領(lǐng)域更長(zhǎng)。例如,制造領(lǐng)域持續(xù)探索的智能排查、工藝自適應(yīng),以及醫(yī)療領(lǐng)域的疾病預(yù)測(cè)、風(fēng)險(xiǎn)預(yù)測(cè)等,這些普遍是大部分企業(yè)正在嘗試的與決策高度相關(guān)的新場(chǎng)景。
從企業(yè)內(nèi)部場(chǎng)景來(lái)看,推理模型的核心發(fā)展方向是向決策場(chǎng)景邁進(jìn)。形象地說(shuō),推理模型就像是從本科生成長(zhǎng)為推理能力較強(qiáng)的研究生,這是其最大的變化。這一變化帶來(lái)的結(jié)果是,上一波提及的Copilot模式,在這一波基于推理模型的場(chǎng)景應(yīng)用中,演變?yōu)閏o-creator,即共創(chuàng)模式。
在這個(gè)共創(chuàng)過(guò)程中,產(chǎn)研和科研領(lǐng)域的價(jià)值將得到更大程度的釋放。在研發(fā)設(shè)計(jì)階段,傳統(tǒng)大語(yǔ)言模型僅扮演知識(shí)問(wèn)答的Copilot角色,而現(xiàn)在融入了推理邏輯,能夠從知識(shí)庫(kù)問(wèn)答的方式,全面參與到整個(gè)產(chǎn)研過(guò)程中,相當(dāng)于成為了另一位專(zhuān)家。
推理模型在決策場(chǎng)景中帶來(lái)的最大變化,是推動(dòng)企業(yè)從生成場(chǎng)景向角色場(chǎng)景轉(zhuǎn)變。除此之外,端側(cè)場(chǎng)景也發(fā)生了顯著變化,其核心的滲透變化首先體現(xiàn)在消費(fèi)級(jí)端側(cè)模型的成熟。今年新上市的手機(jī),基本上將AI大模型作為標(biāo)配。這些大模型不僅局限于云端模型,更多的是在端側(cè)直接部署小參數(shù)模型,這已成為今年手機(jī)的普遍配置。
在此過(guò)程中,模型量化問(wèn)題以及芯片設(shè)計(jì)適配問(wèn)題均已得到解決。DeepSeek帶來(lái)的更大價(jià)值在于,端側(cè)小參數(shù)模型能夠直接基于蒸餾大幅提升推理能力,這使得手機(jī)廠商此前已開(kāi)發(fā)的端側(cè)芯片模型在推理能力上實(shí)現(xiàn)了重大突破,對(duì)手機(jī)廠商而言是一大利好。
同樣,端側(cè)場(chǎng)景也逐漸滲透到企業(yè)領(lǐng)域,主要分為三大類(lèi)場(chǎng)景。第一類(lèi)是人員作業(yè)場(chǎng)景,第二類(lèi)是設(shè)備作業(yè)場(chǎng)景,這兩類(lèi)場(chǎng)景作業(yè)量通常較大,使用Pad終端是提升終端作業(yè)效率的有效方式,這和手機(jī)的應(yīng)用原理相似,容易理解。另外,端側(cè)還存在許多決策分析場(chǎng)景,這得益于端側(cè)模型推理能力的提升。設(shè)備維修、生產(chǎn)質(zhì)檢、能耗管理這三個(gè)場(chǎng)景,將成為2025年企業(yè)在邊緣端重點(diǎn)落地的場(chǎng)景。所以,從場(chǎng)景角度來(lái)看,決策場(chǎng)景和邊緣端場(chǎng)景是2025年企業(yè)目前重點(diǎn)推行的方向。
03?企業(yè)為模型付費(fèi)意愿下降,公有云推理支出增加???????
最后,談?wù)勵(lì)A(yù)算相關(guān)的變化。先說(shuō)開(kāi)源模型,以DeepSeek為代表的開(kāi)源模型帶來(lái)的最大變化是推理能力的增強(qiáng),過(guò)去閉源模型的推理能力領(lǐng)先開(kāi)源模型一個(gè)代際。例如,側(cè)重深度推理的閉源模型原本優(yōu)勢(shì)約為50%?,目前已縮小至6%。隨著今天Grok?3發(fā)布,其在未來(lái)幾個(gè)月預(yù)計(jì)會(huì)開(kāi)源,屆時(shí)大量場(chǎng)景的分?jǐn)?shù)將被重新刷新,開(kāi)源模型和閉源模型在推理層面的能力基本拉平。
在過(guò)去的語(yǔ)言理解層面,各類(lèi)模型的表現(xiàn)本就不相上下。對(duì)于我們已交流過(guò)的絕大部分企業(yè)而言,為閉源模型付費(fèi)的意愿已降至最低點(diǎn)。
目前我們判斷,模型費(fèi)用預(yù)算總體不會(huì)減少,只是預(yù)算分配發(fā)生轉(zhuǎn)移。一方面,許多企業(yè)采用推理模型的API調(diào)用,這是預(yù)算轉(zhuǎn)移的一個(gè)方向;另一方面,基于開(kāi)源模型的部署運(yùn)維以及應(yīng)用搭建,成為另一個(gè)預(yù)算流向。此外,過(guò)去企業(yè)中可能僅有10%的人使用大模型應(yīng)用,如今則幾乎全員都在使用,這必然導(dǎo)致推理算力服務(wù)預(yù)算增長(zhǎng)。所以,從企業(yè)角度來(lái)看,今年原本預(yù)留給閉源模型的付費(fèi),基本轉(zhuǎn)移到了開(kāi)源模型生態(tài)、API調(diào)用以及推理算力方面,這就是模型預(yù)算的變化。
另外,由于DeepSeek的出現(xiàn),整個(gè)大模型市場(chǎng)的支出遠(yuǎn)超此前預(yù)期。盡管目前企業(yè)尚未重新調(diào)整整體IT預(yù)算,畢竟2025年整體IT預(yù)算仍呈微降態(tài)勢(shì),但AI大模型在其中所占比例以及企業(yè)投入意愿,相較于2024年末做規(guī)劃時(shí)明顯增強(qiáng)。目前我們預(yù)計(jì),企業(yè)若對(duì)大模型進(jìn)行支出,基本會(huì)安排在整個(gè)企業(yè)IT支出的5% - 10%,而2023年、2024年這一比例約為3% - 5%,可見(jiàn)有明顯增長(zhǎng)。
此外,今年除了企業(yè)側(cè)落地,過(guò)去多為私有化部署帶來(lái)費(fèi)用增長(zhǎng),今年基于公有云支出的費(fèi)用會(huì)有大幅增長(zhǎng),這也是今年295億支出中核心的增長(zhǎng)方向。
掃碼領(lǐng)取完整版視頻實(shí)錄和課件
畢業(yè)于清華大學(xué)及香港中文大學(xué),杭州市金融科技創(chuàng)新項(xiàng)目應(yīng)用案例專(zhuān)家評(píng)委,原投中集團(tuán)副總裁。十余年金融行業(yè)從業(yè)經(jīng)驗(yàn),在愛(ài)分析媒體平臺(tái)發(fā)文超過(guò) 500 篇,有很深的行業(yè)影響力。