亚洲自无码视频亚洲,免费看片av免费大片,国产精品不卡av免费在线观看

編輯?| ?ZeR0

DeepSeek的寫作能力為何飛躍？PTX是否真正做到了繞開(kāi)CUDA的壟斷？

智東西2月3日?qǐng)?bào)道，周日晚間，五位高校教授夜話DeepSeek，從模型方法、框架、系統(tǒng)、基礎(chǔ)設(shè)施等角度，闡述DeepSeek的技術(shù)原理與未來(lái)方向，揭秘其優(yōu)化方法如何提升算力能效，信息量很大。

如何復(fù)現(xiàn)o1大推理模型？DeepSeek R1技術(shù)路線和訓(xùn)練流程有哪些亮點(diǎn)？為什么DeepSeek能做到轟動(dòng)全球？DeepSeek通過(guò)哪些優(yōu)化策略有效降低成本？DeepSeek的寫作能力為何飛躍？MoE架構(gòu)會(huì)是最優(yōu)解嗎？PTX是否真正做到了繞開(kāi)CUDA的壟斷？這些業(yè)界關(guān)注焦點(diǎn)話題被一一解答。

北京交通大學(xué)教授、CCF YOCSEF AC副主席金一主持了這場(chǎng)線上分享。復(fù)旦大學(xué)教授邱錫鵬，清華大學(xué)長(zhǎng)聘副教授劉知遠(yuǎn)，清華大學(xué)教授翟季冬，上海交通大學(xué)副教授戴國(guó)浩，分別從不同專業(yè)角度分享了對(duì)DeepSeek的思考，并延伸到對(duì)中國(guó)大模型高質(zhì)量發(fā)展路徑的啟發(fā)。邱錫鵬教授主持開(kāi)發(fā)了國(guó)內(nèi)首個(gè)開(kāi)源對(duì)話式大語(yǔ)言模型MOSS。劉知遠(yuǎn)教授是大模型創(chuàng)企面壁智能的首席科學(xué)家。翟季冬教授是AI基礎(chǔ)設(shè)施創(chuàng)企清程極智的首席科學(xué)家。戴國(guó)浩教授是AI基礎(chǔ)設(shè)施創(chuàng)企無(wú)問(wèn)芯穹的聯(lián)合創(chuàng)始人。

以下是實(shí)錄整理（為提高閱讀體驗(yàn)已做精編）：

01.邱錫鵬：解讀R1技術(shù)路線圖，強(qiáng)推理模型最終落腳點(diǎn)是Agent

給大家分享一下關(guān)于DeepSeek的一些思考和啟發(fā)。OpenAI o1也是一個(gè)非?，F(xiàn)象級(jí)的推理模型，在競(jìng)賽題目上達(dá)到了人類專家水平。OpenAI推出了一個(gè)AGI規(guī)劃，推理在其中是非常重要的一步。那么在去年Ilya（前OpenAI首席科學(xué)家）曾經(jīng)說(shuō)過(guò)，我們的預(yù)訓(xùn)練可能時(shí)代可能即將結(jié)束了。其中一個(gè)非常重要的原因就是數(shù)據(jù)沒(méi)有在增長(zhǎng)。OpenAI可能會(huì)打破這種數(shù)據(jù)不增長(zhǎng)的范式，繼續(xù)推動(dòng)Scaling Law向前發(fā)展。不過(guò)因?yàn)闆](méi)有數(shù)據(jù)，所以它的目標(biāo)可能就轉(zhuǎn)向到比如強(qiáng)化學(xué)習(xí)、推理時(shí)計(jì)算這種Scaling。推理長(zhǎng)度越長(zhǎng)，它的性能可以繼續(xù)得以改進(jìn)。這使得大家對(duì)下一代大模型的發(fā)展抱以新期望。所以我們可以看到o1的各種復(fù)現(xiàn)層出不窮。業(yè)界非常多的o1復(fù)現(xiàn)可能基于比如SFT或者蒸餾的路線。但是其實(shí)o1的核心應(yīng)該還是從RL（強(qiáng)化學(xué)習(xí)）開(kāi)始。我們?nèi)ツ暌矂偤脤懥艘黄猳1的綜述。所以我簡(jiǎn)單以此為概括來(lái)看一下o1的四個(gè)核心。在強(qiáng)化學(xué)習(xí)的框架下，大語(yǔ)言模型充當(dāng)了一個(gè)Agent。每個(gè)Action是預(yù)測(cè)Next Token或者Step或者Solution，看不同顆粒度。大模型輸入作為State。Policy就是給定當(dāng)前的步驟或者Talk或者Solution來(lái)生成下一階段的Action。在強(qiáng)化學(xué)習(xí)的框架下重新看大推理模型，它有四個(gè)重要因素：一是策略初始化（Policy Initialization），通過(guò)預(yù)訓(xùn)練、提示工程、監(jiān)督微調(diào)，讓模型具有初始的類人推理行為，比如問(wèn)題理解、任務(wù)分解、驗(yàn)證修正錯(cuò)誤等。

二是獎(jiǎng)勵(lì)設(shè)計(jì)（Reward Design），為RL提供獎(jiǎng)勵(lì)信號(hào)。傳統(tǒng)方法分為兩種，一是從環(huán)境直接獲取獎(jiǎng)勵(lì)信號(hào)，二是從專家數(shù)據(jù)或者偏好數(shù)據(jù)學(xué)習(xí)獎(jiǎng)勵(lì)。o1應(yīng)該是混合了多種獎(jiǎng)勵(lì)設(shè)計(jì)的方法。比如有g(shù)round truth的環(huán)境，將結(jié)果監(jiān)督（ORM）轉(zhuǎn)換為過(guò)程監(jiān)督（PRM）。沒(méi)有g(shù)round truth的話，就用專家或者偏好數(shù)據(jù)來(lái)學(xué)習(xí)獎(jiǎng)勵(lì)。在大量領(lǐng)域上訓(xùn)練獎(jiǎng)勵(lì)模型，提升泛化性。

三是搜索（Search），找尋問(wèn)題的最優(yōu)解法。傳統(tǒng)方法基本分為兩大類，基于樹(shù)的搜索和基于順序修改的搜索。這兩種可能對(duì)復(fù)現(xiàn)o1都有非常大的幫助。

四是學(xué)習(xí)（Learning），優(yōu)化模型參數(shù)?；旧暇褪且粋€(gè)是用強(qiáng)學(xué)習(xí)的Policy Gradient，還有一個(gè)Behavior Cloning。這兩種基本上可以用在兩個(gè)階段：Warmup階段可以使用行為克隆方法，快速收斂；第二階段再用強(qiáng)化學(xué)習(xí)來(lái)提升上限。

復(fù)現(xiàn)o1大推理模型，基本上都要從這四個(gè)方面下功夫。R1發(fā)布有兩個(gè)模型，一個(gè)是R1-Zero。R1-Zero從一個(gè)基模型開(kāi)始，純RL驅(qū)動(dòng)，經(jīng)過(guò)比如Warmup階段，它有了一個(gè)Reward，讓模型具有一個(gè)類人回復(fù)。比如先給一些prompt，就是要求你的思考要在比如兩個(gè)Thinking之間，答案要在兩個(gè)Answer的tag之間，然后用最終結(jié)果的正確性和是不是符合這種格式來(lái)作為Reward，然后對(duì)模型進(jìn)行獎(jiǎng)勵(lì)。在R1的訓(xùn)練過(guò)程中，我們可以看到，隨著訓(xùn)練步驟的增加，它逐漸涌現(xiàn)出這種長(zhǎng)CoT（思維鏈）能力，它的推理路徑會(huì)越來(lái)越長(zhǎng)。另外它也發(fā)現(xiàn)了一些“aha moment”，模型訓(xùn)練過(guò)程中能夠自我發(fā)現(xiàn)，可以嘗試修復(fù)一些以前的推理。

在純強(qiáng)化學(xué)習(xí)訓(xùn)練中，它的性能可以不斷提升。但它有一些不足，它的可讀性比較差，還有l(wèi)anguage mixing（語(yǔ)言混雜）問(wèn)題，中英文可能會(huì)混雜輸出。這也是下一步真正的R1要解決的兩個(gè)問(wèn)題。和R1-Zero不同的是，R1模型分為四個(gè)階段來(lái)進(jìn)行。左邊這張圖是參考了一個(gè)知乎問(wèn)答的路線圖，畫(huà)得非常清楚。

第一階段是冷啟動(dòng)，一開(kāi)始要收集少量的Long-CoT數(shù)據(jù)來(lái)微調(diào)模型，目的是防止早期訓(xùn)練不穩(wěn)定和可讀性差問(wèn)題。第二階段是推理導(dǎo)向的強(qiáng)化學(xué)習(xí)，它以DeepSeek-V3為基礎(chǔ)，針對(duì)推理密集型任務(wù)，用和R1-Zero相同的大規(guī)模RL來(lái)進(jìn)行訓(xùn)練。同時(shí)它為了解決語(yǔ)言混雜問(wèn)題，引入了語(yǔ)言一致性獎(jiǎng)勵(lì)。第三階段是拒絕抽樣和監(jiān)督微調(diào)，要真正訓(xùn)練R1了，所以它將第一階段的模型加上一些抽樣，結(jié)合其他領(lǐng)域的SFT數(shù)據(jù)，增強(qiáng)模型在寫作、角色扮演和其他通用任務(wù)中的能力。第四階段是適用于所有場(chǎng)景的強(qiáng)化學(xué)習(xí)，數(shù)據(jù)準(zhǔn)備好、進(jìn)行微調(diào)之后，再以DeepSeek-V3為基礎(chǔ)，先是SFT，然后進(jìn)行所有場(chǎng)景的RL。對(duì)于推理任務(wù)就用基于規(guī)則的獎(jiǎng)勵(lì)來(lái)指導(dǎo)，對(duì)于一般任務(wù)就用RLHF（人類反饋強(qiáng)化學(xué)習(xí)）這種方式來(lái)進(jìn)行。這基本上就是R1的技術(shù)路線。我簡(jiǎn)單列一些關(guān)于DeepSeek R1的思考和啟發(fā)：

1、R1/R1-zero的技術(shù)路線和社區(qū)對(duì)o1復(fù)現(xiàn)的差異

此前社區(qū)對(duì)o1的復(fù)現(xiàn)基本都會(huì)涉及到蒸餾和搜索。

R1-Zero沒(méi)有SFT，沒(méi)有過(guò)程監(jiān)督，沒(méi)有搜索，也能訓(xùn)練出類似o1的效果。學(xué)術(shù)界之前也有很多實(shí)驗(yàn)，但在較小的模型上都沒(méi)有成功。說(shuō)明只有基模型足夠強(qiáng)，Scaling RL才能取得比較好的效果。

雖然R1強(qiáng)調(diào)MCTS沒(méi)有效果，但是簡(jiǎn)單的majority vote能大幅提升R1的效果，說(shuō)明搜索仍然是重要的Scale的范式。

R1的成功還依賴DeepSeek強(qiáng)大的系統(tǒng)效率和RL調(diào)教能力。

2、策略初始化

R1-zero是一個(gè)比較好的嘗試，但是R1還是經(jīng)過(guò)了先SFT（大概幾干條）后再進(jìn)行RL。

未來(lái)后訓(xùn)練的重心會(huì)逐步傾向于RL，但是少量訓(xùn)練用于SFT可能還是必須的。

3、獎(jiǎng)勵(lì)模型

R1的獎(jiǎng)勵(lì)設(shè)計(jì)跟普通的后訓(xùn)練沒(méi)特別大的區(qū)別（Qwen2，Tulu3），有g(shù)round truth用ground truth做EM，否則用RM。

RM的（訓(xùn)練數(shù)據(jù)量，模型大小，OOD問(wèn)題，選代周期）的相關(guān)問(wèn)題在整個(gè)訓(xùn)練的流程中還是比較關(guān)鍵。可能使用當(dāng)前開(kāi)源的比較強(qiáng)大的RM可以達(dá)到比較好的效果，也有可能基于內(nèi)部的數(shù)據(jù)重新進(jìn)行了偏好標(biāo)注。

獎(jiǎng)勵(lì)設(shè)計(jì)（例如RPM的技巧）可能會(huì)在基于少量樣本的強(qiáng)化學(xué)習(xí)微調(diào)上仍然起到顯著作用。

4、PRM和MCIS

DS給了兩個(gè)PRM和MCTS的“不成功嘗試”。但PRM部分說(shuō)的比較籠統(tǒng)，并且DS的PRM只評(píng)估Correctness（與OAI的Lets verify step by step一致）。

R1給的是一個(gè)簡(jiǎn)單而且可規(guī)?；目尚薪猓@樣做不一定是最優(yōu)的?；赗1的Test-time search也繼續(xù)優(yōu)化它的效果。

PRM總歸是一種比較稠密的監(jiān)督信號(hào)，按照傳統(tǒng)R1的理論，對(duì)OR進(jìn)行shaping可以使訓(xùn)練更穩(wěn)定或收斂得更快。

PRM不應(yīng)該是一個(gè)被完全放棄的東西，可以讓模型收斂得更快速或更穩(wěn)定（Scaling曲線的斜率更大）。

5、寫作能力提升

o1相比4o在寫作等任務(wù)上的提升非常小，但R1的創(chuàng)作經(jīng)常會(huì)令人眼前一亮，可能主要是強(qiáng)基模型在Scale RL后涌現(xiàn)的能力，也有人猜測(cè)是因?yàn)镽1的安全對(duì)齊做的比較少，沒(méi)有太約束模型的創(chuàng)作能力。

6、過(guò)度優(yōu)化問(wèn)題

R1經(jīng)常會(huì)使用一些高端詞匯，典型的如量子糾纏和熵增熵減（會(huì)用在各個(gè)領(lǐng)域）。猜測(cè)是某種形式的reward hacking導(dǎo)致的。

R1在一些通用領(lǐng)域沒(méi)有g(shù)round truth的任務(wù)上的推理效果還并不理想，強(qiáng)化學(xué)習(xí)的訓(xùn)練并不能保證泛化。

7、Test-Time Scaling

o1出來(lái)后大家討論比較多的是Test-Time Scaling，但重要的還是Training-Time Scaling，包括數(shù)據(jù)和Training Step。蒸餾見(jiàn)效快，但上限不高，重要的還是高質(zhì)量致?lián)娜笔В麴s數(shù)據(jù)無(wú)法提供訓(xùn)練Scaling。RL是其中的關(guān)鍵，因?yàn)樗梢员Ｕ嫌凶銐虻臄?shù)據(jù)和足夠的訓(xùn)練步驟。

8、Agentic展望

R1是目前唯一同時(shí)具有強(qiáng)推理能力和聯(lián)網(wǎng)搜索的產(chǎn)品，效果很好，可以調(diào)研一些復(fù)雜的信息并進(jìn)行回答。強(qiáng)推理模型最終的落腳點(diǎn)大概率是Agent，怎么用強(qiáng)推理模型幫助Agent更好更魯棒是一個(gè)比較重要的問(wèn)題。

02.劉知遠(yuǎn)：R1訓(xùn)練流程有兩大亮點(diǎn)，DeepSeek的意義更像Llama??

我將從宏觀角度來(lái)介紹DeepSeek R1所代表的大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)及其基本原理，同時(shí)我們也會(huì)探討為什么R1和o1能夠引起這么多的關(guān)注，并從DeepSeek最近發(fā)布的模型，對(duì)大模型技術(shù)未來(lái)發(fā)展進(jìn)行大致研判。首先來(lái)看DeepSeek最近發(fā)布的R1模型，它的價(jià)值主要體現(xiàn)在能夠復(fù)現(xiàn)OpenAI o1的深度推理能力。因?yàn)镺penAI o1本身并沒(méi)有提供任何關(guān)于它是如何實(shí)現(xiàn)的細(xì)節(jié)，相當(dāng)于o1引爆了一個(gè)原子彈，但沒(méi)有告訴大家秘方。我們需要能夠從頭自己去尋找到底如何能夠復(fù)現(xiàn)出這個(gè)能力。

DeepSeek可能是全球第一個(gè)能夠通過(guò)純強(qiáng)化學(xué)習(xí)技術(shù)復(fù)現(xiàn)OpenAI o1能力的團(tuán)隊(duì)，并開(kāi)源和發(fā)布相對(duì)詳細(xì)技術(shù)介紹，為行業(yè)做出了重要貢獻(xiàn)。我們大致可以總結(jié)DeepSeek-R1的訓(xùn)練流程，有兩個(gè)非常重要的亮點(diǎn)。

一是R1模型創(chuàng)造性地基于DeepSeek-V1的基座模型，通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)技術(shù)，得到一個(gè)純粹通過(guò)強(qiáng)化學(xué)習(xí)來(lái)增強(qiáng)的強(qiáng)推理模型，也就是R1-Zero。這具有非常重要的價(jià)值。因?yàn)樵跉v史上，幾乎沒(méi)有團(tuán)隊(duì)能夠成功地把強(qiáng)化學(xué)習(xí)技術(shù)非常好地用在一個(gè)大規(guī)模模型上，并實(shí)現(xiàn)大規(guī)模的訓(xùn)練。DeepSeek之所以能夠?qū)崿F(xiàn)大規(guī)模強(qiáng)化學(xué)習(xí)，一個(gè)重要技術(shù)特點(diǎn)是采用了基于規(guī)則的方法，確保強(qiáng)化學(xué)習(xí)可規(guī)模化，實(shí)現(xiàn)面向強(qiáng)化學(xué)習(xí)的Scaling。

第二個(gè)貢獻(xiàn)是強(qiáng)化學(xué)習(xí)技術(shù)不只局限在基于規(guī)則的數(shù)學(xué)、算法代碼等容易提供獎(jiǎng)勵(lì)的領(lǐng)域，它還可以創(chuàng)造性地把強(qiáng)化學(xué)習(xí)所帶來(lái)的強(qiáng)推理能力，泛化到其他領(lǐng)域。這也是所有用戶在實(shí)際使用DeepSeek R1進(jìn)行寫作等任務(wù)時(shí)，能夠感受到它有非常強(qiáng)的深度思考能力的原因。那具體是怎么做的呢？它分了兩個(gè)階段：第一階段還是基于V3基座模型，通過(guò)增強(qiáng)推理過(guò)程的可讀性，能夠生成相當(dāng)于是深度推理的SFT數(shù)據(jù)；第二階段，它又去結(jié)合傳統(tǒng)的通用SFT數(shù)據(jù)來(lái)微調(diào)大模型，再進(jìn)一步進(jìn)行強(qiáng)化學(xué)習(xí)，從而得到了一個(gè)具有非常強(qiáng)泛化能力的強(qiáng)推理模型，也就是R1。

所以DeepSeek-R1的重要貢獻(xiàn)體現(xiàn)在兩個(gè)方面：一是通過(guò)規(guī)則驅(qū)動(dòng)的方法實(shí)現(xiàn)了大規(guī)模強(qiáng)化學(xué)習(xí)；二是通過(guò)深度推理SFT數(shù)據(jù)和通用SFT數(shù)據(jù)的混合微調(diào)，實(shí)現(xiàn)了推理能力的跨任務(wù)泛化。我們應(yīng)該非常重視DeepSeek-R1。它由于開(kāi)源，讓全球的人能夠意識(shí)到深度思考的能力，相當(dāng)于讓人工智能再次迎來(lái)了類似于2023年初的“ChatGPT時(shí)刻”，讓每個(gè)人感受到大模型的能力又往前邁進(jìn)了一大步。但是我們同時(shí)也要合理評(píng)估DeepSeek-R1本身的重要意義。如果說(shuō)2023年初OpenAI發(fā)布的ChatGPT讓全球看到了大模型的重要價(jià)值，那么這一次的強(qiáng)推理能力，其實(shí)也是OpenAI在2024年9月份發(fā)布的o1率先在全球?qū)崿F(xiàn)。我們認(rèn)為DeepSeek-R1在歷史上應(yīng)該是更像是2023年的Meta Llama。它通過(guò)開(kāi)源復(fù)現(xiàn)，并且把這些事情公開(kāi)給全球，讓大家能夠快速建立起相關(guān)能力。這是我們需要對(duì)DeepSeek-R1重要意義的一個(gè)準(zhǔn)確認(rèn)識(shí)。當(dāng)然為什么說(shuō)DeepSeek-R1能夠取得如此全球性的成功呢？我們認(rèn)為它跟OpenAI采用的錯(cuò)誤決策有非常大的關(guān)系。我們會(huì)看到OpenAI在發(fā)布了o1之后，第一，不開(kāi)源；第二，把o1深度思考過(guò)程隱藏起來(lái)；第三，o1收費(fèi)非常高，不能在全球讓盡可能多的人去普惠、去感受深度思考所帶來(lái)的震撼。而DeepSeek R1相當(dāng)于是像2023年初的OpenAI ChatGPT一樣，讓所有人真正地感受到了震撼。這是DeepSeek R1出圈的非常重要的原因。

如果再進(jìn)一步，把DeepSeek R1和前面發(fā)布的V3一起來(lái)考慮，它的重要意義在于，在有限算力資源支持下，通過(guò)強(qiáng)大的算法創(chuàng)新模式，突破了算力的“卡脖子”限制，讓我們看到即使是在非常有限的算力下，我們?nèi)匀豢梢宰龀鼍哂腥蛞饬x的這一些領(lǐng)先成果，這件事情對(duì)于我們中國(guó)AI的發(fā)展具有非常重要的意義。同時(shí)我們也應(yīng)該看到如果想要AI能夠真正賦能全人類，讓每個(gè)人都能夠用得上、用得起大模型和通用人工智能，高效是一個(gè)非常重要的命題。強(qiáng)化學(xué)習(xí)需要有一些未來(lái)更加高效的方案。我們還需要探索出更加高效的模型架構(gòu)，譬如說(shuō)V3所采用的MoE架構(gòu)。未來(lái)應(yīng)該也有很多其他相關(guān)方案，還有高效算力利用等等。這是DeepSeek V3和R1帶給我們的另一個(gè)非常重要的啟示。我們認(rèn)為，整個(gè)人工智能的發(fā)展，未來(lái)追求高效是我們的一個(gè)內(nèi)在使命和需求。前一個(gè)科技革命，即信息革命，它的一個(gè)非常重要的內(nèi)核是計(jì)算芯片的發(fā)展。

過(guò)去80年，計(jì)算機(jī)從最初要一個(gè)屋子才能裝得下的規(guī)模，發(fā)展到現(xiàn)在人手一臺(tái)的手機(jī)、PC、各種各樣的計(jì)算設(shè)備，都具備非常強(qiáng)大的計(jì)算能力。所有這一切都來(lái)源于芯片行業(yè)在摩爾定律的指引下，不斷提升芯片制程，提升芯片的電路密度，實(shí)現(xiàn)計(jì)算設(shè)備的小型化、普惠化，推動(dòng)算力普及。這也是為什么我們?cè)谌ツ晏貏e強(qiáng)調(diào)要發(fā)展大模型的能力密度。過(guò)去幾年，我們看到類似于摩爾定律這樣，大模型能力密度呈現(xiàn)指數(shù)級(jí)增強(qiáng)。從2023年以來(lái)，大模型的能力密度大概是按每100天翻1倍。也就是每過(guò)100天，只需要一半的算力、一半的參數(shù)，就可以實(shí)現(xiàn)相同的能力。

面向未來(lái)，我們應(yīng)該不斷追求更高的能力密度，努力以更低成本，包括訓(xùn)練成本、計(jì)算成本，來(lái)實(shí)現(xiàn)大模型的高效發(fā)展。上一個(gè)科技革命，也就是信息革命，對(duì)于我們即將到來(lái)的智能革命有非常重要的啟示。在信息革命剛剛開(kāi)始的時(shí)候，IBM創(chuàng)始人沃森曾經(jīng)認(rèn)為這個(gè)世界上不需要超過(guò)5臺(tái)的主機(jī)，足以滿足全世界的計(jì)算需求。但到了今天，全球有數(shù)十億、上百億的計(jì)算設(shè)備在服務(wù)全人類的社會(huì)。我們認(rèn)為智能革命也要走過(guò)一條類似于信息革命的階段，也要能夠不斷提高能力密度，不斷降低計(jì)算成本，讓大模型得以更加普惠。AI時(shí)代的核心引擎包括電力、算力、現(xiàn)在所訓(xùn)練的大模型代表的智力。這種密度定律應(yīng)該是普遍存在的，將是實(shí)現(xiàn)人工智能高質(zhì)量、可持續(xù)發(fā)展的關(guān)鍵。

面向未來(lái)，我們認(rèn)為人工智能有三大主戰(zhàn)場(chǎng)，目標(biāo)都是要讓通用進(jìn)行到底。一是人工智能科學(xué)化，為能力涌現(xiàn)等關(guān)鍵機(jī)制建立科學(xué)理論，科學(xué)解釋人工智能形成的原理。二是計(jì)算系統(tǒng)智能化，大模型與底層芯片、操作系統(tǒng)、數(shù)據(jù)管理、編程開(kāi)發(fā)、網(wǎng)絡(luò)通信深度融合，能夠在計(jì)算層面，用更低成本來(lái)把大模型更加通用地用在各個(gè)領(lǐng)域。三是領(lǐng)域應(yīng)用廣譜化，將大模型應(yīng)用于高精尖制造、科學(xué)發(fā)現(xiàn)等高度專業(yè)化場(chǎng)景中。最后我特別想說(shuō)，DeepSeek給我們帶來(lái)的一個(gè)非常重要的啟示，就是我們用小米加步槍，依然能夠取得非常廣闊的勝利。我們即將迎來(lái)一個(gè)非常重要且意義深遠(yuǎn)的智能革命時(shí)代，它的高潮即將到來(lái)，這是可望也可及的。特別希望能夠跟由DeepSeek來(lái)吸引來(lái)的更多關(guān)注這個(gè)方向的人，一起沿著正確的發(fā)展方向，不只是為算力，更要重視算法創(chuàng)新，重視高水平人才的培養(yǎng)，走出一條真正屬于人工智能的高質(zhì)量發(fā)展路線。

03.翟季冬：DeepSeek如何降低成本？拆解并行訓(xùn)練策略

我主要分享DeepSeek在系統(tǒng)軟件方面的一些工作。這是DeepSeek-V3在技術(shù)報(bào)告里公開(kāi)的預(yù)訓(xùn)練成本。按照H800 GPU每小時(shí)每卡2美元的租賃成本，全部訓(xùn)練成本是550萬(wàn)美元左右，不包括前期探索模型架構(gòu)、消融實(shí)驗(yàn)等開(kāi)銷。

它的成本相對(duì)比較低。雖然我們不知道國(guó)外像OpenAI這些公司的模型訓(xùn)練成本，但是可以通過(guò)一些相關(guān)報(bào)道知道成本肯定很高。大家經(jīng)常會(huì)討論說(shuō)，為什么DeepSeek-V3能用這么低的成本，帶來(lái)這么驚艷的效果？我們來(lái)看一下DeepSeek采用的一些技術(shù)。因?yàn)镈eepSeek本身并沒(méi)有公開(kāi)說(shuō)用了多少?gòu)埧?。如果按照它給的數(shù)據(jù)，是2048張H800的話，大約是需要54天，也就不到兩個(gè)月。如果是1萬(wàn)張H800，大約是11天可以訓(xùn)練好這個(gè)模型。這是DeepSeek V3的模型參數(shù)，是671B。GPT-3的參數(shù)是175B，所以它要比GPT-3模型大很多。它是一個(gè)MoE的架構(gòu)，每個(gè)token會(huì)激活37B參數(shù)，大約是5.5%?？偣舶?strong>61層Transformer。然后它在FFN網(wǎng)絡(luò)，除了前三層以外，全部替換成MoE。它的MoE架構(gòu)采用了非常多的細(xì)粒度專家，包括1個(gè)共享專家和256個(gè)路由專家。每個(gè)token會(huì)激活8個(gè)路由專家。

論文里給了DeepSeek模型架構(gòu)圖，核心是兩塊，MLA和MoE。MLA可以進(jìn)一步降低推理消耗的內(nèi)存。MoE包括共享專家和大量路由專家。

之前發(fā)布的一些MoE模型，比如像Mistral，采用的專家數(shù)很少、每個(gè)專家很大的架構(gòu)。但是DeepSeek其實(shí)采用的是大量細(xì)粒度的專家。

DeepSeek并行訓(xùn)練方面，技術(shù)報(bào)告里有一個(gè)輕量級(jí)訓(xùn)練框架。下圖右邊是從網(wǎng)上找的一個(gè)示意圖。具體訓(xùn)練實(shí)驗(yàn)平臺(tái)沒(méi)有公布，但從它公開(kāi)的一些數(shù)據(jù)，它是一個(gè)通過(guò)InfiniBand連接起來(lái)的GPU集群，然后在每個(gè)節(jié)點(diǎn)內(nèi)通過(guò)NVLink連接起GPU。GPU之間的帶寬是160GB，節(jié)點(diǎn)之間的帶寬是50GB。這是一個(gè)網(wǎng)絡(luò)拓?fù)?/a>情況。

它具體采用的并行訓(xùn)練策略，用的是16路流水線并行、64路專家并行，跨8個(gè)物理節(jié)點(diǎn)，數(shù)據(jù)并行采用的是ZeRO-1，沒(méi)有用通信開(kāi)銷比較大的張量并行。我總結(jié)了一下，讓整個(gè)訓(xùn)練效率提升有4個(gè)方面的優(yōu)化，分別是負(fù)載均衡、通信優(yōu)化、內(nèi)存優(yōu)化、計(jì)算優(yōu)化。下面分別介紹這四點(diǎn)。首先是負(fù)載均衡優(yōu)化。如果要用MoE架構(gòu)去訓(xùn)練一個(gè)超大的模型，最大挑戰(zhàn)是負(fù)載均衡。我們清華跟北京智源還有一些單位合作訓(xùn)練的八卦爐模型就是一個(gè)MoE的架構(gòu)。DeepSeek團(tuán)隊(duì)為了解決負(fù)載均衡的挑戰(zhàn)，創(chuàng)新提出了一個(gè)叫Auxiliary-Loss-Free Load Balancing的策略，下圖是DeepSeek團(tuán)隊(duì)公布的一張圖片，核心是說(shuō)當(dāng)給一個(gè)token在計(jì)算它錄到哪個(gè)專家的時(shí)候，會(huì)給它加上一個(gè)專家Bias。Bias的核心目的是保證這些專家負(fù)載均衡，如果能做到，最后可以提高整個(gè)集群的效率。

它之前有一篇論文是2024年8月份，Bias的核心是只影響專家路由，但是不產(chǎn)生任何梯度影響。然后它會(huì)動(dòng)態(tài)調(diào)整Bias。調(diào)整策略思路比較簡(jiǎn)單：如果發(fā)現(xiàn)某個(gè)專家是overloaded，就會(huì)降低這個(gè)Bias；如果發(fā)現(xiàn)某個(gè)專家給他的負(fù)載不夠，它就會(huì)增大Bias。核心是要控制，讓這些專家能夠均衡。如果控制不好專家負(fù)載均衡，那它在一個(gè)大規(guī)模集群訓(xùn)練時(shí)，利用率很難提升上去。第二，它們的工作用了很多通信優(yōu)化。用專家并行會(huì)引入非常大的All to All通信開(kāi)銷。為了降低這個(gè)通信開(kāi)銷，它想了很多辦法。它提出來(lái)一個(gè)DualPipe算法，核心是精細(xì)地編排計(jì)算和通信。這里有兩張圖，下面是它的技術(shù)包里的圖片，上面是我從網(wǎng)上找到的?？梢钥吹竭@是兩個(gè)micro-batch，前向跟反向可以拆分成一些單元，比如計(jì)算attention、計(jì)算MLP。All to All有兩個(gè)階段：一是把token分發(fā)，最后在過(guò)完專家之后，會(huì)把它收回來(lái)，叫combine。這樣前向和反向都有一些計(jì)算和通信。它通過(guò)精細(xì)控制GPU SM數(shù)量，保證計(jì)算和通信正好能夠完全重疊。

具體怎么重疊呢？它采用的是雙向流水線機(jī)制。下圖上方的示意圖用的是一個(gè)8級(jí)流水線、20個(gè)micro-batch，從前向和反向兩條流水分別去流，然后在中間穩(wěn)定狀態(tài)，黃色跟綠色部分就是前項(xiàng)跟反向重疊的階段。也就是說(shuō)在這個(gè)過(guò)程中，可以讓計(jì)算和通信充分重疊。它也給了一些分析。

這里有一個(gè)需要注意的點(diǎn)，如果采用雙向流水線，要在GPU顯存里存兩份模型參數(shù)。大模型訓(xùn)練內(nèi)存使用非常重要。為了解決這個(gè)問(wèn)題，它采用了64路的專家并行。雙流水可以非常有效地降低流水線的bubble。下一個(gè)是，通信優(yōu)化一定會(huì)有一些token會(huì)被路由到，相當(dāng)于是走IB網(wǎng)絡(luò)會(huì)分到其他物理節(jié)點(diǎn)。它采用了一個(gè)算法，這個(gè)code design會(huì)限制跨節(jié)點(diǎn)的token，每個(gè)token最多可以路由到4個(gè)物理節(jié)點(diǎn)。這實(shí)際上是在算法層面的一個(gè)調(diào)整。同時(shí)它在節(jié)點(diǎn)內(nèi)每個(gè)token最多平均可以選擇3.2個(gè)專家。為什么是3.2個(gè)專家呢？這里的核心IB帶寬是50GB/s，NVLink帶寬是160GB/s，相差的比值是3.2。也就是說(shuō)在一個(gè)節(jié)點(diǎn)內(nèi)路由3.2個(gè)專家和在IB上路由1個(gè)專家的時(shí)間是相當(dāng)。這樣就可以保證IB和NVLink傳輸時(shí)間是重疊的。

同時(shí)它還有一些token的路由策略。它用到一個(gè)確定性的路由策略，可以非常簡(jiǎn)單高效。它首先通過(guò)IB轉(zhuǎn)發(fā)到確定的節(jié)點(diǎn)，再通過(guò)NVLink轉(zhuǎn)到對(duì)應(yīng)的GPU上，還采用了warp specialization技術(shù)。H800里有132個(gè)SM，這里是用20個(gè)SM來(lái)控制通信，用剩下的SM做計(jì)算。這20個(gè)控制通信的SM，同時(shí)還會(huì)去動(dòng)態(tài)調(diào)整web的數(shù)量，會(huì)根據(jù)通信負(fù)載，通過(guò)英偉達(dá)提供的底層PTX（類似于像匯編層的編程語(yǔ)言），來(lái)控制SM使用。下面介紹內(nèi)存優(yōu)化。大模型訓(xùn)練中內(nèi)存非常重要。DeepSeek團(tuán)隊(duì)在優(yōu)化內(nèi)存方面想了非常多的辦法。比如重計(jì)算，提出相應(yīng)方法，把一些前向計(jì)算不去存，反向時(shí)再去計(jì)算，這樣可以節(jié)約一些內(nèi)存使用。同時(shí)它還把一些數(shù)據(jù)，包括像模型參數(shù)的指數(shù)移動(dòng)平均，存到CPU內(nèi)存，這樣也是節(jié)約GPU顯存。

它還有一個(gè)機(jī)制，就是為了提高模型精度，采用MTP。它把主模型和MTP模塊的output head和embedding部署在相同節(jié)點(diǎn)，讓參數(shù)共享。核心是想辦法去降低內(nèi)存。DeepSeek團(tuán)隊(duì)沒(méi)有公布用了多少個(gè)節(jié)點(diǎn)去做模型訓(xùn)練。對(duì)于給定的算力，GPU顯存是一個(gè)非常珍貴的資源。另外它為了提升訓(xùn)練的效率，采用了混合精度。它用了英偉達(dá)最新FP8，把主要計(jì)算量、比較大的核心矩陣乘法都用FP8去計(jì)算。但是用這些低精度去做訓(xùn)練，模型可能不收斂，或者導(dǎo)致不管是activation還是weight會(huì)有一些outlier的存在。DeepSeek團(tuán)隊(duì)為了減緩outlier影響想了很多辦法，比如采用了細(xì)粒度量化，對(duì)于activation采用tail條形分組量化方式，對(duì)于weight采用block分組方式。同時(shí)它還通過(guò)增加累積精度（FP32）、增加尾數(shù)量，以及在線量化策略。這些方式都是為了減緩outlier的影響，來(lái)提高模型精度。最后它用FP8低精度達(dá)到了模型收斂。

總結(jié)一下我對(duì)DeepSeek的一些思考：第一，協(xié)同創(chuàng)新，DeepSeek團(tuán)隊(duì)充分挖掘了算法、軟件、硬件協(xié)同創(chuàng)新。比如它采用了MoE架構(gòu)，但又在算法和軟件層面上解決了MoE本身專家并行帶來(lái)的通信開(kāi)銷問(wèn)題。第二，軟件靈活，如果大家看DeepSeek論文分享報(bào)告，能看到軟件是非常靈活的。當(dāng)我們用某一款硬件，不管是英偉達(dá)的還是某一款芯片，它都會(huì)有一些限制。這個(gè)時(shí)候軟件能夠彌補(bǔ)硬件的很多限制。第三，系統(tǒng)軟件，DeepSeek團(tuán)隊(duì)為了降低模型訓(xùn)練成本想了很多的辦法。優(yōu)秀的系統(tǒng)軟件可以充分釋放底層硬件的潛力，極致優(yōu)化。包括DeepSeek團(tuán)隊(duì)自己也承認(rèn)，用了很多非常細(xì)致的優(yōu)化。這些也是它通過(guò)挖掘一點(diǎn)點(diǎn)的優(yōu)化，讓整個(gè)模型的訓(xùn)練效率提升，來(lái)降低訓(xùn)練成本。最后從我個(gè)人角度來(lái)說(shuō)，DeepSeek把整個(gè)模型開(kāi)源，能極大促進(jìn)人工智能領(lǐng)域的飛速發(fā)展。有一個(gè)非常開(kāi)源好用的、效果非常好的大模型，我們就可以嘗試更多軟件相關(guān)優(yōu)化。

04.戴國(guó)浩：PTX是否做到繞過(guò)CUDA壟斷？如何極致優(yōu)化大模型性能？

我來(lái)就DeepSeek在軟硬件上的優(yōu)化，特別是繞過(guò)CUDA層的事情上，展開(kāi)做一個(gè)討論。我關(guān)注DeepSeek團(tuán)隊(duì)和他們的工作有很長(zhǎng)一段時(shí)間了。他們論文發(fā)布時(shí)，我非常喜歡這份技術(shù)報(bào)告。把它的目錄做個(gè)拆解，可以看到它基本上在文章中說(shuō)了四件事，分別是模型架構(gòu)、系統(tǒng)架構(gòu)、預(yù)訓(xùn)練方法、后訓(xùn)練方法。相對(duì)于模型架構(gòu)、預(yù)訓(xùn)練和后訓(xùn)練，團(tuán)隊(duì)對(duì)于系統(tǒng)架構(gòu)做了非常充分的介紹。

我在思考的事情是：為什么這樣一個(gè)大模型的工作，大家會(huì)花更多的時(shí)間和精力去介紹系統(tǒng)層的架構(gòu)？DeepSeek團(tuán)隊(duì)有大量的工程師是聚焦在系統(tǒng)架構(gòu)的優(yōu)化上。過(guò)年期間我刷到了很多（DeepSeek繞開(kāi)CUDA）的推送和新聞。我相信它最早的來(lái)源是來(lái)自于DeepSeek論文中這樣一句話：“we employ customized PTX（Parallel Thread Execution）instructions and auto-tune the ?communication chunk size, which significantly reduces the use of the L2 cache and the interference to other SMs?！?/em>“我們采用定制的PTX（并行線程執(zhí)行）指令并自動(dòng)調(diào)整通信塊大小，這大大減少了L2緩存的使用和對(duì)其他SM的干擾。”可以看到通過(guò)這樣的一個(gè)定制的PTX優(yōu)化，使DeepSeek的系統(tǒng)和模型可以更好釋放底層硬件的性能。無(wú)論是在通過(guò)去做一些auto-tuning，或者說(shuō)去做一些communication chunk size的調(diào)整。它對(duì)于L2 cache的使用，以及不同SM之間的streaming multiprocessor之間的干擾，都會(huì)做到最小。但是這些被媒體們解讀成，國(guó)外可能叫“breakthrough by pass CUDA”，一些國(guó)內(nèi)媒體會(huì)解讀成是“繞開(kāi)CUDA壟斷”。我們具體來(lái)看一下，到底什么是CUDA，什么是PTX？為什么繞開(kāi)CUDA的壟斷這件事在我們看來(lái)具有很重要的價(jià)值，以及它是否真的做到了繞開(kāi)CUDA的壟斷？稍微給大家介紹一下，大家平時(shí)在使用GPU或者英偉達(dá)硬件時(shí)，編程時(shí)到底是怎么一步一步來(lái)調(diào)用到底層硬件的？為了做深度學(xué)習(xí)，為了訓(xùn)練一個(gè)大模型，首先你需要有一張或很多GPU卡。但在上面做編程時(shí)，一般大家更多接觸到的是像PyTorch或者Python這樣的高層語(yǔ)言。一個(gè)很高層的語(yǔ)言最終是怎么調(diào)用到底層硬件的？它實(shí)際上經(jīng)過(guò)了很多語(yǔ)言轉(zhuǎn)換和編譯的過(guò)程。這是我上課時(shí)會(huì)用到的一頁(yè)P(yáng)PT。一般上層的應(yīng)用會(huì)通過(guò)一些高層次的語(yǔ)言，或者說(shuō)硬件的一些接口，從而進(jìn)行編程，于是大家并不需要關(guān)注到底層硬件長(zhǎng)得是什么樣子。這些接口包括了像CUDA，也就是英偉達(dá)所提供的硬件接口，也有一些其他的，大家如果做一些圖形和圖像顯示，會(huì)用到像DriectX或者并行計(jì)算會(huì)用到OpenCL等接口。

有底層CUDA的driver（驅(qū)動(dòng)），通過(guò)驅(qū)動(dòng)最終來(lái)調(diào)用到底層硬件?？梢钥吹紺UDA是一個(gè)相對(duì)更上層的接口，提供了面向用戶的一系列編程接口。而PTX一般被隱藏在了CUDA的驅(qū)動(dòng)中，所以幾乎所有的深度學(xué)習(xí)或大模型算法工程師是不會(huì)接觸到這一層。那為什么這一層會(huì)很重要呢？原因是在于可以看到從這個(gè)身位上，PTX是直接和底層的硬件去發(fā)生交互的，能夠?qū)崿F(xiàn)對(duì)底層硬件更好的編程和調(diào)用。右邊我們舉了一個(gè)Triton的例子，也是OpenAI在主推的一個(gè)跨平臺(tái)編程語(yǔ)言。它也是通過(guò)不斷地編譯和語(yǔ)言的轉(zhuǎn)化，最終在調(diào)用底層英偉達(dá)硬件的時(shí)候，通過(guò)PTX code來(lái)調(diào)用的。所以簡(jiǎn)單來(lái)說(shuō)，PTX的這一層是通過(guò)和硬件的直接交互，使得可以控制硬件更多的細(xì)節(jié)。這件事為什么重要呢？我認(rèn)為它一共有兩大類優(yōu)化。第一大類優(yōu)化是底層優(yōu)化。給定某一個(gè)確定性的算法、模型以及底層硬件，通過(guò)優(yōu)化軟件，比如做一些通信優(yōu)化或者內(nèi)存優(yōu)化，這些是不改變?nèi)魏纬绦驁?zhí)行的正確結(jié)果的。另一大類優(yōu)化是協(xié)同優(yōu)化。像混合精度的量化、MLA這些，同時(shí)優(yōu)化算法、模型、軟件甚至是底層硬件。這就使得整體系統(tǒng)的優(yōu)化空間變得更大。首先來(lái)看一下，為什么在底層做PTX優(yōu)化？舉一個(gè)冒泡排序算法的例子，我們分別用C代碼和Python代碼來(lái)做實(shí)現(xiàn)。一個(gè)小的彩蛋是這里的代碼我都是拿DeepSeek來(lái)做生成的。C代碼相對(duì)更復(fù)雜，在實(shí)際編程時(shí)要關(guān)注到一些底層硬件細(xì)節(jié)，比如數(shù)組存儲(chǔ)位置。但Python語(yǔ)言相對(duì)更簡(jiǎn)單，不需要去關(guān)注底層硬件細(xì)節(jié)。

為什么還是有很多工程師需要去聚焦一些像C代碼的開(kāi)發(fā)呢？我們用了另一篇論文中的實(shí)測(cè)數(shù)據(jù)，可以看到越接近底層的語(yǔ)言，對(duì)于整體硬件的利用效率更好。在底層做更多的優(yōu)化，就更好地挖掘系統(tǒng)性能來(lái)做。而PTX層相對(duì)于C或者說(shuō)CUDA層會(huì)更偏底層。我們通過(guò)在這一層的優(yōu)化和編程，就可以更好釋放底層硬件的性能。舉一個(gè)典型的底層優(yōu)化例子，像Flash Attention這樣的工作，它將整個(gè)GPU和CPU整套系統(tǒng)的Memory來(lái)做劃分，分別是寄存器級(jí)別的SRAM以及GPU上的HBM，包括CPU端的Memory。通過(guò)對(duì)于不同層級(jí)的Memory的精細(xì)控制，F(xiàn)lash Attention所實(shí)現(xiàn)的Attention算子，大家可以理解成是一個(gè)函數(shù)，相對(duì)于PyTorch原有實(shí)現(xiàn)可以快出將近一個(gè)數(shù)量級(jí)。這樣的優(yōu)化工作被證明可以廣泛應(yīng)用在大模型訓(xùn)練中。我們之前的一個(gè)大模型推理工作FlashDecoding++，也是通過(guò)對(duì)于底層硬件的不斷優(yōu)化和感知，使大模型推理速度進(jìn)一步提升。這只是一個(gè)科研性的工作，我們更想強(qiáng)調(diào)系統(tǒng)優(yōu)化工作是可以被應(yīng)用到更多底層芯片中的。我們大概這里有1/3的國(guó)產(chǎn)芯片，都可以通過(guò)這樣感知到底層硬件的優(yōu)化途徑，進(jìn)一步釋放底層硬件的性能。這種優(yōu)化性能甚至可以達(dá)到3倍以上。這就是底層優(yōu)化對(duì)于整個(gè)大模型系統(tǒng)的意義。說(shuō)完底層優(yōu)化，另一件事就是協(xié)同優(yōu)化。什么叫做協(xié)同優(yōu)化呢？底層優(yōu)化說(shuō)白了就是在CUDA或者CUDA下面這一層來(lái)做優(yōu)化。整個(gè)大模型的生態(tài)系統(tǒng)，從最頂層的產(chǎn)品應(yīng)用到底層的基礎(chǔ)設(shè)施，每一個(gè)層級(jí)都已經(jīng)形成了非常好的生態(tài)，但每一個(gè)層級(jí)上都存在著非常好的優(yōu)化空間。所以是否有可能在每一個(gè)層級(jí)上都達(dá)到一定的優(yōu)化，最終形成一個(gè)笛卡爾積，實(shí)現(xiàn)更高的整體優(yōu)化性能？這是我們?cè)谒伎嫉牡诙€(gè)大方向，也是我們?cè)贒eepSeek論文中看到的一個(gè)很大的方向。

這里我們同樣舉了兩個(gè)例子。一個(gè)例子是可能在半年到一年前非?；鸬囊患?a class="article-link" target="_blank" href="/tag/%E8%8A%AF%E7%89%87%E5%85%AC%E5%8F%B8/">芯片公司Groq。它通過(guò)定制化的硬件架構(gòu)，將傳統(tǒng)GPU中的HBM內(nèi)存去換成了一些節(jié)點(diǎn)的SRAM內(nèi)存，可以實(shí)現(xiàn)相對(duì)于英偉達(dá)GPU呈數(shù)量級(jí)的大模型推理速度的提升。我們自己也做了一些相應(yīng)的硬件和芯片工作，可以相對(duì)于GPU，進(jìn)一步提升大模型在一些多模態(tài)任務(wù)上的推理速度。這就告訴我們的一個(gè)很重要的結(jié)論，通過(guò)軟件+硬件協(xié)同優(yōu)化，可能進(jìn)一步甚至是超越GPU的性能。在調(diào)研性工作中，我們系統(tǒng)性闡釋了通過(guò)量化、稀疏化以及一些快速解碼。包括一些算子，甚至是一些定制化的硬件架構(gòu)，如何通過(guò)協(xié)同優(yōu)化的方式，把大語(yǔ)言模型推理和訓(xùn)練速度進(jìn)一步釋放和提升，從而滿足我們所暢想的未來(lái)廣泛智能場(chǎng)景的一些應(yīng)用。人工智能的發(fā)展得益于三駕馬車，算力、算法和數(shù)據(jù)。每一波浪潮人工智能的發(fā)展速度都與這三者息息相關(guān)。第一波人工智能浪潮止步于算法的缺陷，第二波浪潮止于算力突破。第三波浪潮得益于算法和算力都得到了空前的發(fā)展，大數(shù)據(jù)成為了另一塊基石。那數(shù)據(jù)如何進(jìn)一步發(fā)展？強(qiáng)化學(xué)習(xí)、多模態(tài)數(shù)據(jù)的獲取，都可能成為助推力。所以可以看到這樣的一個(gè)人工智能發(fā)展過(guò)程中的閉環(huán)，也是我們進(jìn)一步思考的事情。這個(gè)閉環(huán)如何在國(guó)內(nèi)實(shí)現(xiàn)？我們把這樣的一個(gè)邏輯圖給畫(huà)出來(lái)了。

在國(guó)外，模型、芯片、系統(tǒng)已經(jīng)形成了一套非常完備的閉環(huán)生態(tài)。在國(guó)內(nèi)，DeepSeek做了非常好的一環(huán)，就是使國(guó)內(nèi)模型超越了國(guó)外模型，或者說(shuō)在某些場(chǎng)景完成了超越，或者說(shuō)在方法論層面上完成了超越。但是如何形成國(guó)內(nèi)“模型-系統(tǒng)-芯片”閉環(huán)呢？這是我們認(rèn)為在未來(lái)一定會(huì)發(fā)生的事情。DeepSeek打響了非常好的第一槍。我們也希望能夠通過(guò)國(guó)內(nèi)系統(tǒng)和芯片的閉環(huán)發(fā)展，使它達(dá)到這樣的一個(gè)結(jié)果。為了實(shí)現(xiàn)這件事，我們有非常好的基礎(chǔ)設(shè)施和上層的應(yīng)用。但是在中間軟件和硬件的一些協(xié)同優(yōu)化，是我們需要在未來(lái)不斷努力和提升的。最后做一個(gè)總結(jié)，我們從PTX和CUDA層的優(yōu)化思考到未來(lái)對(duì)大模型性能的極致優(yōu)化，可以分為在CUDA層、PTX層的底層優(yōu)化，以及打通軟件硬件的協(xié)同優(yōu)化，最終實(shí)現(xiàn)模型系統(tǒng)和芯片的閉環(huán)，以及“軟件到硬件”+“硬件到軟件”的閉環(huán)。

05.Q&A：從DeepSeek的轟動(dòng)成功中，我們能學(xué)到什么？

問(wèn)題1：請(qǐng)從各自的專業(yè)角度來(lái)分享和解釋一下，目前DeepSeek引起的一些效應(yīng)，其中最有亮點(diǎn)的技術(shù)是什么？

邱錫鵬：它最出圈的可能還是因?yàn)?strong>效果好。很多o1的復(fù)現(xiàn)模型可能在某些指標(biāo)上比較高，但實(shí)際用起來(lái)會(huì)覺(jué)得并沒(méi)有做到真正的推理技能。但是R1確確實(shí)實(shí)達(dá)到了o1的效果，在很多方面的表現(xiàn)令人驚艷。o1對(duì)標(biāo)R1，相當(dāng)于ChatGPT對(duì)標(biāo)Llama。開(kāi)源非常重要，如果它是個(gè)閉源模型，那么一定不會(huì)像現(xiàn)在這么出圈。還有一個(gè)令人震驚的是R1-Zero，證明了如果采用純RL，就能夠讓模型自己涌現(xiàn)長(zhǎng)CoT能力。很多時(shí)候大家復(fù)現(xiàn)o1，非常重要的是訓(xùn)練數(shù)據(jù)從哪里來(lái)。如果通過(guò)純RL就能夠增強(qiáng)長(zhǎng)推理能力，就讓人產(chǎn)生非常大的遐想：我們是不是將來(lái)有很大的機(jī)會(huì)，可以通過(guò)大規(guī)模的強(qiáng)化學(xué)習(xí)訓(xùn)練，在推理路線上達(dá)到或超過(guò)o1，并且在很多其他領(lǐng)域也能夠達(dá)到像在數(shù)學(xué)等強(qiáng)推理領(lǐng)域的效果？所以我覺(jué)得它確確實(shí)實(shí)打開(kāi)了一個(gè)思路。最后一點(diǎn)是在模型上，它沒(méi)有通過(guò)過(guò)程監(jiān)督、MCTS、搜索，類似于用非常簡(jiǎn)單的方法，就能通過(guò)Scale達(dá)到如此好的效果，這也是非常令人驚訝的。

劉知遠(yuǎn)：我覺(jué)得有兩個(gè)。一是由V3帶來(lái)的啟示，它展示了用1/10甚至更少的成本，完成了大概達(dá)到GPT-4和GPT-4o水平的能力。V3在底層算力加速方面做了大量工作，實(shí)現(xiàn)算法和底層軟硬件的協(xié)同優(yōu)化。這種一體化優(yōu)化機(jī)制，讓大家看到即使成本已經(jīng)很低，仍然可以通過(guò)優(yōu)化進(jìn)一步降低成本。雖然V3的成本仍然是幾百萬(wàn)美元甚至幾千萬(wàn)美元，但相比國(guó)際上公認(rèn)的水平，已經(jīng)低得多。這也是英偉達(dá)股價(jià)會(huì)下降的一個(gè)重要原因。第二個(gè)是R1給我們的啟示。因?yàn)镺penAI犯了傲慢之罪，不開(kāi)源，不公開(kāi)技術(shù)細(xì)節(jié)，價(jià)格又非常高，所以不出圈。在這種情況下，R1開(kāi)源又免費(fèi)，讓全球用戶使用，而且公開(kāi)了所有技術(shù)細(xì)節(jié)。相當(dāng)于是把原來(lái)應(yīng)該由OpenAI占有的像當(dāng)年ChatGPT的身位，讓給了DeepSeek。DeepSeek通過(guò)極致優(yōu)化有限資源，成功追趕上國(guó)際最先進(jìn)模型，我覺(jué)得干得非常漂亮。而且通過(guò)開(kāi)源，讓全球都認(rèn)識(shí)到我們中國(guó)團(tuán)隊(duì)的創(chuàng)新能力。

翟季冬：我印象最深的是DeepSeek的架構(gòu)創(chuàng)新，尤其是MoE。我們團(tuán)隊(duì)最早從2021年開(kāi)始做MoE。當(dāng)時(shí)我們實(shí)驗(yàn)室有同學(xué)做Fast-MoE框架，在2021年開(kāi)源。這個(gè)方向當(dāng)時(shí)用的人很少。MoE有優(yōu)點(diǎn)也有缺點(diǎn)。優(yōu)點(diǎn)是模型參數(shù)增大，也不顯著增加算力。但真正訓(xùn)練起來(lái)會(huì)有很多問(wèn)題，包括負(fù)載不均衡，包括如果訓(xùn)練像稠密模型在英偉達(dá)平臺(tái)可能我優(yōu)化到40%到50%的效率，但實(shí)際上訓(xùn)練MoE很多時(shí)候只能優(yōu)化到10%或20%，可能會(huì)更低。針對(duì)這個(gè)問(wèn)題，很多做模型的可能就會(huì)放棄。國(guó)外像Mistral架構(gòu)，采用的是專家數(shù)很少、非常均衡的策略。DeepSeek團(tuán)隊(duì)比較敢于創(chuàng)新，設(shè)計(jì)了每一層有256個(gè)路由專家、1個(gè)共享專家。之前的研究有Auxiliary Loss的算法，會(huì)使梯度發(fā)生擾動(dòng)，影響模型收斂。DeepSeek提出來(lái)Loss Free方式，既能讓模型有效收斂，同時(shí)解決負(fù)載均衡。我覺(jué)得不完全追隨國(guó)外的策略、有自己的思考，非常重要。中國(guó)發(fā)展到這個(gè)程度，我們一定要有一些自己的思考、判斷。不能說(shuō)別人這樣做，我們就一定這樣做。

戴國(guó)浩：我從兩個(gè)方面來(lái)講。首先從學(xué)術(shù)角度來(lái)看。過(guò)去兩個(gè)月內(nèi)很多團(tuán)隊(duì)、廠商都發(fā)布了自己的模型，并且對(duì)于自己模型架構(gòu)都提到了非常多的新設(shè)計(jì)。這是我們看到非常欣喜的一件事情，使我們有更多的機(jī)會(huì)可以通過(guò)底層優(yōu)化去助力上層模型的發(fā)展。如果模型架構(gòu)本身沒(méi)有特別大的變化，像Flash Attention這樣的一些技術(shù)可以完全優(yōu)化各個(gè)模型。但實(shí)際上由于模型不斷變化，我印象非常深的是在DeepSeek里MLA這樣的架構(gòu)。這使得我們必須得通過(guò)底層的系統(tǒng)優(yōu)化，而不是去用一些現(xiàn)成框架就能達(dá)到非常好的性能。第二件事情是我看到的一個(gè)機(jī)會(huì)。以往我們進(jìn)行優(yōu)化管理時(shí)，都會(huì)設(shè)定一個(gè)優(yōu)化目標(biāo)。原來(lái)可能只是關(guān)注算法精度，后來(lái)發(fā)展到軟硬件協(xié)同優(yōu)化，又會(huì)把硬件的一些約束放在里面。我們現(xiàn)在還必須面臨的一件事情是算力不足、資源受限的情況。這個(gè)優(yōu)化問(wèn)題的解在我看來(lái)目前DeepSeek給了一個(gè)非常好的答案。通過(guò)更低成本的訓(xùn)練，我們可以獲得一個(gè)更好的模型。也就使得我們形成一個(gè)“模型+軟件+系統(tǒng)+芯片”的國(guó)產(chǎn)閉環(huán)，在未來(lái)都發(fā)生成為了一個(gè)非常大的可能。所以這件事也給了我非常大的信心。所以這從學(xué)術(shù)和產(chǎn)業(yè)的兩個(gè)角度，都給到了我非常大的驚喜。

問(wèn)題2：為什么是這個(gè)時(shí)間點(diǎn)出現(xiàn)了R1模型？之前沒(méi)有基于基模型直接做強(qiáng)化學(xué)習(xí)的嘗試嗎？在這個(gè)時(shí)間點(diǎn)上，為什么是DeepSeek做得如此之出圈？

邱錫鵬：我覺(jué)得他們是一個(gè)長(zhǎng)期積累的結(jié)果。比如V2版當(dāng)時(shí)已經(jīng)引起大家對(duì)他們能力的認(rèn)可，然后是V3，直到R1的出現(xiàn)，不是說(shuō)突然爆冷。它從去年5月份就已經(jīng)開(kāi)始就部署整個(gè)團(tuán)隊(duì)，一直在往這方面迭代研究，所以我覺(jué)得是在大模型這條路線上，加一些AGI的信念，加上軟硬件協(xié)同創(chuàng)新能力，一步步走到今天。它在今年出圈爆火，確確實(shí)實(shí)是真正能夠從底層優(yōu)化和創(chuàng)新上，對(duì)國(guó)外OpenAI或者M(jìn)eta這些大公司產(chǎn)生一些震撼。我們國(guó)內(nèi)雖然受到非常多的算力封鎖，加上訓(xùn)練資源限制，但是依然能非常出色或高質(zhì)量地做出性能如此好的模型，確實(shí)是他們出圈的根本原因。

劉知遠(yuǎn)：我覺(jué)得這件事有一定的必然性。大概2024年時(shí)，很多投資人，甚至一些不從事人工智能領(lǐng)域的人，問(wèn)中國(guó)的AI跟美國(guó)的AI相比，到底差距是變大還是變小了？我當(dāng)時(shí)明確說(shuō)，我們認(rèn)為中國(guó)正在非常快速地追趕，與美國(guó)最先進(jìn)技術(shù)之間的差距正在逐漸縮小。雖然我們被“卡脖子”，有這樣那樣的一些限制，但一個(gè)很重要的現(xiàn)象可以驗(yàn)證這一點(diǎn)，國(guó)內(nèi)復(fù)現(xiàn)ChatGPT、GPT-4模型大概需要一年時(shí)間，再往后看，像Sora、GPT-4o，國(guó)內(nèi)團(tuán)隊(duì)可以在半年左右完成相關(guān)復(fù)現(xiàn)工作。像o1這樣的模型能力，DeepSeek非常大的價(jià)值是它不只能夠復(fù)現(xiàn)，而且用了非常低的成本。能夠在半年左右復(fù)現(xiàn)o1水平模型的能力，這件事情應(yīng)該對(duì)于我們國(guó)內(nèi)一線團(tuán)隊(duì)來(lái)講是可預(yù)期的。只是說(shuō)DeepSeek能夠更快，而且是更加低的成本，高效完成工作。由DeepSeek來(lái)達(dá)到這么出圈的效果，有團(tuán)隊(duì)本身的必然性。

邱錫鵬：我再稍微補(bǔ)充一下，ChatGPT的復(fù)現(xiàn)，因?yàn)橹斑€有一些相關(guān)的論文發(fā)表，所以技術(shù)路線相比o1更清晰。但o1確實(shí)是OpenAI幾乎沒(méi)有任何的論文或技術(shù)報(bào)告的發(fā)表，所以大家都是猜測(cè)，難度會(huì)高很多。

問(wèn)題3：我們今天看到的DeepSeek技術(shù)的爆發(fā)，對(duì)于中國(guó)大模型的未來(lái)高質(zhì)量發(fā)展道路會(huì)有哪些啟示？

邱錫鵬：DeepSeek團(tuán)隊(duì)?wèi)?yīng)該大部分都是剛畢業(yè)的碩博士，還有很多高年級(jí)實(shí)習(xí)生，能夠非常好地支持長(zhǎng)期的基礎(chǔ)創(chuàng)新。我也看了梁文鋒（DeepSeek創(chuàng)始人）的一些采訪，他認(rèn)為AI或者大模型還沒(méi)有到非常大的商業(yè)變現(xiàn)時(shí)刻，所以目前階段還是以基礎(chǔ)創(chuàng)新為主。在此階段有一個(gè)非常好的高人才密度團(tuán)隊(duì)加敢于創(chuàng)新，是非常重要的?，F(xiàn)在畢竟還是有o1明珠在前，我們?cè)谧冯S。下一步如果真正做前沿創(chuàng)新，需要更大的對(duì)未來(lái)探索性的東西或嘗試，不怕失敗。科研環(huán)境還是非常重要的。

劉知遠(yuǎn)：我說(shuō)兩點(diǎn)。第一點(diǎn)，我特別敬佩整個(gè)DeepSeek團(tuán)隊(duì)的技術(shù)理想主義，以實(shí)現(xiàn)AGI作為夢(mèng)想去組建團(tuán)隊(duì)。同時(shí)看到梁文鋒之前是做量化投資，自己投錢來(lái)做這件事情，沒(méi)有資金上的相關(guān)困擾。對(duì)應(yīng)的，我覺(jué)得中國(guó)應(yīng)該要給這樣的技術(shù)理想主義提供支持，哪怕不像DeepSeek這么有資金，能否也能讓他們沒(méi)有后顧之憂地進(jìn)行探索、踏踏實(shí)實(shí)地做一些原始創(chuàng)新？第二點(diǎn)，是他們的執(zhí)行力。DeepSeek這兩個(gè)月一炮而紅，是經(jīng)過(guò)多年的持續(xù)積累，量變產(chǎn)生了質(zhì)變。我可以告訴大家，幾年前，DeepSeek就是幻方，當(dāng)時(shí)拿著免費(fèi)算力來(lái)誘惑我們的學(xué)生，與他們建立聯(lián)系。也有學(xué)生畢業(yè)后加入了DeepSeek。我覺(jué)得這也是技術(shù)理想主義推動(dòng)下的長(zhǎng)期主義成果。國(guó)內(nèi)應(yīng)該有更多的團(tuán)隊(duì)，能夠坐得住冷板凳，更加聚焦，在一些重要問(wèn)題上持續(xù)發(fā)力，做出有意義的工作。DeepSeek發(fā)展到今天，它做的所有工作可能也是在摸著OpenAI過(guò)河。相當(dāng)于它以O(shè)penAI為師，來(lái)看AGI到底該怎么實(shí)現(xiàn)，然后努力做他們認(rèn)為OpenAI做對(duì)的事情。的確這個(gè)過(guò)程非常困難，包括隨著OpenAI變得越來(lái)越封閉，o1如何復(fù)現(xiàn)會(huì)比當(dāng)年復(fù)現(xiàn)ChatGPT更加困難。但我們看到只要有理想和執(zhí)行力，它就可以做到。國(guó)內(nèi)應(yīng)該有更多的團(tuán)隊(duì)去學(xué)習(xí)。具體技術(shù)當(dāng)然是我們應(yīng)該學(xué)的一部分，但是要避免會(huì)認(rèn)為因?yàn)镈eepSeek成功了，所以它做的所有的事情都是對(duì)的。它所有的技術(shù)是不是都是最先進(jìn)的？我覺(jué)得不見(jiàn)得，這樣反而會(huì)限制我們的創(chuàng)新。我們應(yīng)該學(xué)習(xí)的是它的理想、堅(jiān)持、方法論。

翟季冬：DeepSeek對(duì)我最大的啟發(fā)有兩點(diǎn)。第一點(diǎn)是創(chuàng)新，創(chuàng)新是社會(huì)進(jìn)步和個(gè)人發(fā)展的永恒動(dòng)力。DeepSeek團(tuán)隊(duì)在這個(gè)過(guò)程中，比如說(shuō)為了降低算力成本，為了突破模型推理精度，想了很多很多創(chuàng)新的辦法。未來(lái)一定要勇于創(chuàng)新，才能發(fā)現(xiàn)更多的機(jī)會(huì)。這一波人工智能讓我們最興奮的是每隔可能一兩年，就會(huì)讓我們看到很多新的東西。第二點(diǎn)，從我個(gè)人的體會(huì)來(lái)說(shuō)，我覺(jué)得DeepSeek榜樣的力量非常重要。我們高性能計(jì)算領(lǐng)域，有一個(gè)非常重要的獎(jiǎng)項(xiàng)叫戈登貝爾獎(jiǎng)。這個(gè)獎(jiǎng)項(xiàng)其實(shí)設(shè)立了快30年，中國(guó)沒(méi)有拿到獎(jiǎng)。我們?cè)谟?jì)算機(jī)大會(huì)上也有論壇，當(dāng)時(shí)討論說(shuō)中國(guó)離戈登貝爾獎(jiǎng)還有多遠(yuǎn)。后來(lái)在2016年，由清華跟中科院軟件所一起拿到戈登貝爾獎(jiǎng)。后來(lái)國(guó)內(nèi)陸續(xù)多次拿到這個(gè)獎(jiǎng)。DeepSeek團(tuán)隊(duì)這次能取得這么好的成果，一定會(huì)對(duì)中國(guó)在人工智能領(lǐng)域的工作者，給一個(gè)非常好的榜樣力量。大家還會(huì)做出更多好的成果。我們中國(guó)人自己的團(tuán)隊(duì)做出這樣的成果，我們也有信心繼續(xù)努力。這可能對(duì)中國(guó)未來(lái)的人工智能發(fā)展會(huì)至關(guān)重要。

戴國(guó)浩：我主要說(shuō)三點(diǎn)。首先是對(duì)于個(gè)人或者團(tuán)隊(duì)，我非常欽佩DeepSeek團(tuán)隊(duì)。他們是一幫能創(chuàng)新、有理想并且很堅(jiān)持的人。在AI領(lǐng)域，在過(guò)去2到3年發(fā)展還是非常快的。如何堅(jiān)定走一條他們認(rèn)為正確的路，并且持續(xù)做創(chuàng)新，這對(duì)于個(gè)人和團(tuán)隊(duì)來(lái)說(shuō)是一個(gè)非常大的啟示。第二點(diǎn)是對(duì)于整個(gè)國(guó)內(nèi)人工智能的發(fā)展。當(dāng)我們有了單點(diǎn)突破之后，未來(lái)我們可以預(yù)見(jiàn)到，只要我們持續(xù)堅(jiān)持來(lái)做這樣一件事情，未來(lái)一定可以形成一套閉環(huán)的生態(tài)。我們不僅是在算法，我們?cè)谙到y(tǒng)、軟件、芯片各個(gè)層面上，都有可能去做出一些不一樣的工作。我最關(guān)注DeepSeek的一個(gè)點(diǎn)就在于可以做到大幅度降低訓(xùn)練大模型的成本。人類發(fā)展歷史上每次工業(yè)革命中，一些新的生產(chǎn)工具的誕生，都會(huì)使得生產(chǎn)力有大幅度的解放。而生產(chǎn)工具能夠提升生產(chǎn)力的本質(zhì)，是因?yàn)樯a(chǎn)力成本是不斷降低的。隨著訓(xùn)練成本降低，未來(lái)可以在很多智能終端場(chǎng)景中大幅降低推理成本，助力到人類生產(chǎn)力的進(jìn)一步解放，推動(dòng)人類邁向下一個(gè)臺(tái)階。

06.Q&A：MoE是否是最優(yōu)解？長(zhǎng)思維鏈設(shè)計(jì)對(duì)硬件有什么需求？

問(wèn)題1：每100天大模型能力密度會(huì)減少一半。這個(gè)能力密度是怎么定義的？?jī)?nèi)在原因是什么？是模型優(yōu)化還是數(shù)據(jù)質(zhì)量？長(zhǎng)思考類模型的參數(shù)密度和評(píng)估是否和普通大語(yǔ)言模型一致？

劉知遠(yuǎn)：能力密度是我們最近半年提出的一個(gè)概念。如何有效準(zhǔn)確衡量，可以去看論文《Densing law of LLMs》。所謂的能力密度，可以理解為模型在各種評(píng)測(cè)集上所展現(xiàn)出來(lái)的能力，除以其參數(shù)規(guī)模。我們觀察過(guò)去一年半發(fā)布的代表性模型，能力密度每100天會(huì)增加一倍，其意義就在于每過(guò)100天就可以用一半的參數(shù)，實(shí)現(xiàn)相同的能力。這一現(xiàn)象背后有多個(gè)因素影響：一是數(shù)據(jù)質(zhì)量可能更高，取決于數(shù)據(jù)治理；二是模型架構(gòu)，采用更稀疏激活的模型架構(gòu)，可以用更少的激活參數(shù)承載更多能力；三是學(xué)習(xí)方法，包括OpenAI在內(nèi)的所有一線團(tuán)隊(duì)都會(huì)開(kāi)展的“Scaling Prediction”。在真正訓(xùn)練一個(gè)模型之前，我們會(huì)進(jìn)行大量的風(fēng)洞實(shí)驗(yàn)，積累各種預(yù)測(cè)數(shù)據(jù)，以確定模型需要什么樣的數(shù)據(jù)配比和超參配置，從而達(dá)到最佳效果。綜合這些因素，模型可以用更少的參數(shù)，承載更多的能力。我們將這一現(xiàn)象類比芯片行業(yè)的摩爾定律。摩爾定律是電路密度不斷增加的過(guò)程，通過(guò)技術(shù)發(fā)展實(shí)現(xiàn)。進(jìn)一步結(jié)合底層算力優(yōu)化，我們可以將這種優(yōu)化映射到模型訓(xùn)練階段，從而極大降低成本。當(dāng)然，我們并不是說(shuō)DeepSeek的算力可以用1/10的成本實(shí)現(xiàn)與國(guó)外模型相同的能力，但這與Densing law（能力密度定律）有一定的重疊。Densing law更多地強(qiáng)調(diào)模型密度不斷提高，它不僅體現(xiàn)在訓(xùn)練階段成本的降低，也體現(xiàn)在推理階段。模型可以用更低的推理成本、更快的推理速度，完成相同的能力。我們認(rèn)為，未來(lái)AI的發(fā)展一定會(huì)沿著這條路線前進(jìn)。過(guò)去幾年的發(fā)展也在不斷驗(yàn)證這一點(diǎn)。一個(gè)直觀的體驗(yàn)就是，OpenAI等一線公司的API價(jià)格在過(guò)去幾年快速下降。原因不只是在打價(jià)格戰(zhàn)，而是因?yàn)樗鼈兛梢杂酶俚馁Y源實(shí)現(xiàn)相同的能力，從而讓更低的成本去提供服務(wù)。我們認(rèn)為，高效性是未來(lái)AI發(fā)展的一個(gè)重要方向，也是我們迎來(lái)智能革命的一個(gè)重要前提。

問(wèn)題2：基于DeepSeek的這樣一個(gè)軟硬件協(xié)同優(yōu)化的方式，未來(lái)國(guó)產(chǎn)芯片或者國(guó)內(nèi)芯片加國(guó)外芯片的組合，以及CPU+GPU異構(gòu)組合，對(duì)大模型進(jìn)行優(yōu)化，會(huì)不會(huì)成為未來(lái)的新興熱點(diǎn)方向？

翟季冬：我覺(jué)得一定會(huì)的。最近華為也把這個(gè)DeepSeek R1移植到昇騰平臺(tái)。我相信過(guò)年期間工程師肯定都沒(méi)有休息。因?yàn)镈eepSeek R1模型是開(kāi)源的，國(guó)產(chǎn)芯片都可以盡快嘗試把模型移植到自己的芯片。我相信今年上半年這方面的工作會(huì)非常的多，肯定有很多相關(guān)的公司或工程師在做這個(gè)方向。

戴國(guó)浩：這是我們一直堅(jiān)信的事情。在未來(lái)或者今年，我們就可以看到很多國(guó)內(nèi)模型會(huì)應(yīng)用在國(guó)內(nèi)場(chǎng)景中，并且底層使用國(guó)內(nèi)芯片。我們自己也在做很多這方面的一些工作。目的是為了告訴大家，用國(guó)內(nèi)芯片去跑國(guó)內(nèi)模型，用在國(guó)內(nèi)應(yīng)用場(chǎng)景中，是真的可以做的高效并且形成一整套閉環(huán)的。這里有很多的工作需要做，需要整個(gè)團(tuán)隊(duì)對(duì)于從上層軟件到底層的芯片都很了解。以DeepSeek為例，它僅僅是對(duì)于PTX這一層的優(yōu)化，就可以帶來(lái)這么大的性能提升。而國(guó)內(nèi)這么多的芯片、這么多的模型，這樣的M乘N打通，具有非常大的價(jià)值。我們堅(jiān)信這件事情在今年和未來(lái)的很長(zhǎng)的一段時(shí)間都會(huì)發(fā)生。

問(wèn)題3：MoE架構(gòu)會(huì)是通往AGI路上的最優(yōu)解嗎？

劉知遠(yuǎn)：我的個(gè)人感覺(jué)是，沒(méi)有人永遠(yuǎn)是對(duì)的。OpenAI發(fā)布ChatGPT、GPT-4，它做對(duì)了；但發(fā)布R1，它做錯(cuò)了，沒(méi)有開(kāi)源，定價(jià)出現(xiàn)了策略失誤，所以相當(dāng)于是成就了DeepSeek。我也不會(huì)認(rèn)為因?yàn)镈eepSeek選擇了MoE，MoE就永遠(yuǎn)是正確的。沒(méi)有任何證據(jù)證明MoE是最優(yōu)的模型架構(gòu)。從學(xué)術(shù)的角度和AI未來(lái)發(fā)展的角度，這是一個(gè)開(kāi)放性的問(wèn)題。未來(lái)如何實(shí)現(xiàn)高效性？我認(rèn)為一定是模塊化和稀疏激活的，但具體如何稀疏激活、如何模塊化，這件事情本身應(yīng)該是百花齊放的。應(yīng)該鼓勵(lì)學(xué)生和從業(yè)者像DeepSeek一樣去努力探索創(chuàng)新。所以，我本身不太認(rèn)為MoE有任何絕對(duì)的壁壘，或者它一定是最優(yōu)的方法。

翟季冬：我雖然不是做模型出身，但是我覺(jué)得這一波人工智能對(duì)我影響最大的，就是在不停變化。很有可能又有些新的技術(shù)會(huì)顛覆現(xiàn)在的技術(shù)。要對(duì)未來(lái)充滿更多的期待。

戴國(guó)浩：沒(méi)有什么方法是永遠(yuǎn)正確的，但會(huì)有一些方法論是永遠(yuǎn)正確的。這種開(kāi)源也好，這樣的一些新方法探索。技術(shù)發(fā)展跟時(shí)間有關(guān)，例如上世紀(jì)80年代很多機(jī)器學(xué)習(xí)會(huì)議會(huì)拒收神經(jīng)網(wǎng)論文，因?yàn)樵诋?dāng)時(shí)看來(lái)效果不好或者可解釋性差。我們一定會(huì)抱著一個(gè)非常開(kāi)放的態(tài)度。無(wú)論是新的模型架構(gòu)、新的硬件架構(gòu)，抑或是一些聯(lián)合設(shè)計(jì)的方法，都是在未來(lái)探索的方向。MoE現(xiàn)在取得不錯(cuò)的效果，我們認(rèn)為是當(dāng)前的一個(gè)非常好的解。但未來(lái)是什么樣子？這需要更多的老師同學(xué)、行業(yè)內(nèi)的創(chuàng)業(yè)者，大家一起來(lái)做探索。

邱錫鵬：MoE是大規(guī)模模型在做規(guī)模上Scale的和現(xiàn)在GPU架構(gòu)的一種妥協(xié)。未來(lái)底層硬件的改變，以及新架構(gòu)芯片的出現(xiàn)，可能都會(huì)使模型發(fā)生非常大的變化。一個(gè)趨勢(shì)可能是未來(lái)模型架構(gòu)上面的設(shè)計(jì)，會(huì)更多依賴或考慮到底層硬件上的優(yōu)化。比如通信帶寬，如果有朝一日變得非常高，那么可能架構(gòu)就會(huì)發(fā)生不一樣的變化。

問(wèn)題4：長(zhǎng)思維鏈設(shè)計(jì)對(duì)硬件有什么需求？存儲(chǔ)能力是否適合當(dāng)前的推理？長(zhǎng)思維鏈模型設(shè)計(jì)方面，對(duì)于硬件有什么需求？計(jì)算和存儲(chǔ)能力是否適合現(xiàn)在這類推理？

戴國(guó)浩：這是一個(gè)非常好的問(wèn)題，也是我們最近正在做的一些研究課題。舉一個(gè)例子，原來(lái)的這種大模型，以Llama為例，它是一個(gè)token一個(gè)token來(lái)做輸出的。但這種長(zhǎng)思維鏈的過(guò)程可以分成兩個(gè)階段。一個(gè)階段是在每一步一個(gè)token一個(gè)token輸出，但形成了一段話之后，就會(huì)有這樣一個(gè)思維的過(guò)程，它其實(shí)是一個(gè)sequence to sequence輸出。所以我們可以看到兩個(gè)直觀變化。一個(gè)變化是它對(duì)于歷史信息的獲取提出了更高要求。另一個(gè)是它對(duì)于整體推理時(shí)間和推理成本的需求，也會(huì)變得更大。我們知道大模型本質(zhì)上在推理過(guò)程中是一個(gè)訪問(wèn)受限的問(wèn)題。那如何去提供更高帶寬，使得在長(zhǎng)思維鏈過(guò)程中還能保持一個(gè)比較高的推理效率？這一點(diǎn)除了在軟件上來(lái)做優(yōu)化，底層硬件甚至是硬件本身架構(gòu)，傳統(tǒng)的是計(jì)算和存儲(chǔ)的分離，是否有可能把計(jì)算和存儲(chǔ)放的更近，甚至是放到一起？這是我們看到的一個(gè)非常大的趨勢(shì)。相信未來(lái)如果說(shuō)算法本身的發(fā)展是往這個(gè)趨勢(shì)來(lái)做，也一定會(huì)有相應(yīng)的新硬件架構(gòu)的出現(xiàn)。

問(wèn)題5：關(guān)于PTX方法的通用性，如果我們換一種模型或者換一種類型的卡，那么重新用這種方法再做，它的泛化性以及工程成本有多高？

翟季冬：PTX是英偉達(dá)為了更精細(xì)地控制底層的硬件，在CUDA往下的一層。其他硬件廠商也會(huì)有一些偏底層的控制指令。因?yàn)镻TX畢竟是英偉達(dá)自己的指令。如果換成其他的芯片，肯定要去用對(duì)應(yīng)的芯片底層相應(yīng)的一些接口，這肯定是要變的。

戴國(guó)浩：我非常同意翟老師的觀點(diǎn)。大家不用去神話PTX。特別是學(xué)過(guò)計(jì)算機(jī)的這個(gè)同學(xué)，可能在大學(xué)階段都學(xué)過(guò)一門課程叫做匯編語(yǔ)言。PTX大家可以理解成就是英偉達(dá)GPU的匯編語(yǔ)言。我們把它放到國(guó)產(chǎn)GPU上，類似的也會(huì)有相應(yīng)匯編。特別是在目前國(guó)產(chǎn)GPU上層軟件生態(tài)相對(duì)英偉達(dá)來(lái)說(shuō)沒(méi)有那么成熟的情況下，使用國(guó)產(chǎn)GPU的“PTX”也是一個(gè)必然的路徑。這里面會(huì)涉及到系統(tǒng)軟件開(kāi)發(fā)人員和硬件人員的緊密配合。

DeepSeek最強(qiáng)專業(yè)拆解來(lái)了，清交復(fù)教授超硬核解讀

01.邱錫鵬：解讀R1技術(shù)路線圖，強(qiáng)推理模型最終落腳點(diǎn)是Agent

02.劉知遠(yuǎn)：R1訓(xùn)練流程有兩大亮點(diǎn)，DeepSeek的意義更像Llama??

03.翟季冬：DeepSeek如何降低成本？拆解并行訓(xùn)練策略

04.戴國(guó)浩：PTX是否做到繞過(guò)CUDA壟斷？如何極致優(yōu)化大模型性能？

05.Q&A：從DeepSeek的轟動(dòng)成功中，我們能學(xué)到什么？

06.Q&A：MoE是否是最優(yōu)解？長(zhǎng)思維鏈設(shè)計(jì)對(duì)硬件有什么需求？

相關(guān)推薦

DeepSeek最強(qiáng)專業(yè)拆解來(lái)了，清交復(fù)教授超硬核解讀

01.邱錫鵬：解讀R1技術(shù)路線圖，強(qiáng)推理模型最終落腳點(diǎn)是Agent

02.劉知遠(yuǎn)：R1訓(xùn)練流程有兩大亮點(diǎn)，DeepSeek的意義更像Llama??

03.翟季冬：DeepSeek如何降低成本？拆解并行訓(xùn)練策略

04.戴國(guó)浩：PTX是否做到繞過(guò)CUDA壟斷？如何極致優(yōu)化大模型性能？

05.Q&A：從DeepSeek的轟動(dòng)成功中，我們能學(xué)到什么？

06.Q&A：MoE是否是最優(yōu)解？長(zhǎng)思維鏈設(shè)計(jì)對(duì)硬件有什么需求？

相關(guān)推薦

DeepSeek最強(qiáng)專業(yè)拆解來(lái)了，清交復(fù)教授超硬核解讀

01.邱錫鵬：解讀R1技術(shù)路線圖，強(qiáng)推理模型最終落腳點(diǎn)是Agent

02.劉知遠(yuǎn)：R1訓(xùn)練流程有兩大亮點(diǎn)，DeepSeek的意義更像Llama??

03.翟季冬：DeepSeek如何降低成本？拆解并行訓(xùn)練策略

04.戴國(guó)浩：PTX是否做到繞過(guò)CUDA壟斷？如何極致優(yōu)化大模型性能？

05.Q&A：從DeepSeek的轟動(dòng)成功中，我們能學(xué)到什么？

06.Q&A：MoE是否是最優(yōu)解？長(zhǎng)思維鏈設(shè)計(jì)對(duì)硬件有什么需求？