當業(yè)界幾乎把所有的目光都聚焦到ChatGPT上,原本有些克制的科技大廠突然有了緊迫感,紛紛在類ChatGPT產(chǎn)品中證明自己的實力。一時間,數(shù)百億、千億乃至萬億級參數(shù)規(guī)模的人工智能大模型(下面簡稱“大模型”)相繼涌現(xiàn),這場ChatGPT引發(fā)的全球大模型競賽趨于白熱化。
“有大模型的企業(yè)能做ChatGPT,沒有的則是在蹭熱點?!睂τ?a class="article-link" target="_blank" href="/tag/%E4%BA%92%E8%81%94%E7%BD%91/">互聯(lián)網(wǎng)公司蜂擁扎堆做ChatGPT,阿里達摩院M6大模型前帶頭人楊紅霞言辭犀利地說。在她看來,只有參數(shù)規(guī)模100億以上的大模型才有實力提供高質(zhì)量的對答。
百度、阿里已有比肩ChatGPT的大模型
大模型的核心特征是模型參數(shù)多、訓練數(shù)據(jù)量大。有研究估測,訓練1750億參數(shù)語言大模型GPT-3,需要上萬個CPU/GPU24小時不間斷地輸入數(shù)據(jù)。其能耗相當于開車往返于地球和月球,一次運算就要花費450萬美元。高昂的研發(fā)成本意味著,主流的大模型只能由大型科技公司或少數(shù)研究機構(gòu)掌握。
據(jù)了解,ChatGPT是基于8000億個單詞的語料庫,包含了1750億個參數(shù)。前者是ChatGPT的訓練數(shù)據(jù),后者是它從這些訓練數(shù)據(jù)中所學習、沉淀下來的內(nèi)容。這種海量參數(shù)規(guī)模讓ChatGPT能夠捕獲更復雜的語言模式和關(guān)系,從而提高復雜自然語言處理任務的準確性。
從參數(shù)規(guī)模來看,國內(nèi)已經(jīng)誕生了能夠比肩ChatGPT參數(shù)量的大模型。百度既有20多萬企業(yè)用戶的飛槳平臺,也有2600億參數(shù)量的文心大模型;阿里巴巴有“通義”大模型,多模態(tài)大模型M6的參數(shù)規(guī)模已經(jīng)突破10萬億,規(guī)模遠超谷歌、微軟,成為全球最大的AI預訓練模型。OpenAI前政策主管Jack
Clark公開點評阿里巴巴:“這個模型的規(guī)模和設(shè)計都非常驚人,是眾多中國AI研究組織逐漸發(fā)展壯大的一種表現(xiàn)?!?/p>
當參數(shù)規(guī)模迅速攀升至幾百億、千億時,大模型的訓練方式也出現(xiàn)了分野。有業(yè)內(nèi)專家認為,參數(shù)數(shù)量并不代表模型結(jié)果,更為關(guān)鍵的是訓練方式。在華為諾亞方舟實驗室語音語義首席科學家劉群看來,雖然我們訓練了幾千億或者幾萬億的數(shù)據(jù),但訓練的充分程度仍遠遠不夠。
ChatGPT有一個巨大先發(fā)優(yōu)勢
2018年,業(yè)界分化出兩個預訓練模型主流方向——谷歌的BERT和OpenAI的GPT。在很長一段時間里,BERT在自然語言理解類任務中的表現(xiàn)比GPT更好,訓練方式是通過“蒙住/遮蓋”一個語言片段,讓模型根據(jù)前后文雙向進行猜測,不斷提高猜中的概率。BERT利用海量的無標注文本自監(jiān)督學習,即可掌握大量語言知識,刷新了多個AI權(quán)威榜單的記錄,是當時NLP領(lǐng)域被更多押注的方向。
百度的文心大模型也是基于BERT技術(shù)路線——通過進行不同的“蒙住”訓練,采用無監(jiān)督學習,有效提高訓練數(shù)據(jù)規(guī)模;自回歸和自編碼網(wǎng)絡被融合在一起,進行多范式統(tǒng)一的預訓練,能夠兼具理解、生成和零樣本學習的能力。這些能力也讓文心3.0在國際權(quán)威的復雜語言理解任務評測SuperGLUE榜單上一度登上榜首,為百度加入這場競賽提供了“彈藥”。
而GPT則是按照人類輸出文本的方式,從左到右進行預測。中國人民大學應用經(jīng)濟學院教授潘偉告訴記者:“直到GPT-3.5 出現(xiàn)后,模型智能表現(xiàn)上的鴻溝驟然被拉大——引入了指令微調(diào)和人類反饋強化學習,才真正解鎖了ChatGPT如今出色的對話能力。”
一位接近微軟的消息人士透露,ChatGPT有一個巨大的先發(fā)優(yōu)勢,就是它通過搶先開始公測,收集了大量用戶的使用數(shù)據(jù)。這部分寶貴的數(shù)據(jù)被微軟獨家占有?!爸灰狢hatGPT仍然是最好用的自然語言處理類大模型,這個‘雪球’就會越滾越大,其他企業(yè)將越來越難追上。”該業(yè)內(nèi)人士稱。為了防止ChatGPT輸出有害信息,OpenAI還花大價錢找印度和肯尼亞的外包公司標記了大量的有害文本,用來訓練大模型不要輸出有害信息,對數(shù)據(jù)數(shù)年持續(xù)的投入,逐步構(gòu)成了OpenAI筑起的“數(shù)據(jù)壁壘”。
此外,數(shù)據(jù)質(zhì)量也是大模型表現(xiàn)結(jié)果的重要決定因素。中國并不缺數(shù)據(jù),百度、阿里巴巴、字節(jié)跳動這樣的公司都有海量的數(shù)據(jù)積累,不過后續(xù)包括數(shù)據(jù)清洗、標注以及模型的結(jié)構(gòu)設(shè)計、訓練、推理等都需要時間積累,這可能是國內(nèi)大模型表現(xiàn)結(jié)果不如國外驚艷的重要原因?!鞍賰|級數(shù)據(jù)中可能只有10%的數(shù)據(jù)是好的,昆侖萬維僅僅使用自己的專有算法清洗數(shù)據(jù),就整整花費了近兩年?!崩鋈f維CEO方漢解釋道。
微軟、谷歌的大模型已與原有業(yè)務深度綁定
“OpenAI非常重視真實世界數(shù)據(jù)的調(diào)用,以及這些數(shù)據(jù)對模型的迭代?!鼻迦A大學計算機科學與技術(shù)系長聘副教授黃民烈表示,在GPT-3之后,OpenAI所有模型都沒有開源,在這個過程中,它干了一件事——建立起了真實用戶調(diào)用和模型迭代之間的飛輪。
全球科技創(chuàng)新產(chǎn)業(yè)專家、海銀資本創(chuàng)始合伙人王煜全也持有類似觀點:“真正好的創(chuàng)新不是你能夠向大眾示范多么酷炫,而是能夠被廣泛使用。例如馬云知道互聯(lián)網(wǎng)的優(yōu)勢是能在網(wǎng)上做電商,劣勢是電商沒有信用證明。他創(chuàng)辦淘寶后,引入支付寶,將平臺作為第三方中間人,解決了誠信問題。這種成功,不是因為馬云的技術(shù)多么領(lǐng)先,而在于利用技術(shù)解決了應用痛點?!?/p>
對于已經(jīng)推出大模型的廠商來說,應盡快利用這個基礎(chǔ)工具,找到應用的痛點,找對商業(yè)模式,獲得競爭優(yōu)勢。
除收購蘋果“Siri”背后的對話式人工智能公司Nuance外,微軟在生成式AI領(lǐng)域最核心布局就是對OpenAI的投資與合作。此次基于ChatGPT,微軟與OpenAI進行了更加深度的綁定,旗下的搜索、辦公等各個產(chǎn)品體驗均有望“智能升級”。
谷歌是微軟在AI、云、搜索等多重領(lǐng)域業(yè)務中的勁敵。谷歌自2011年成立AI部門,比微軟早了8年,旗下幾乎所有產(chǎn)品和服務都依靠AI驅(qū)動,一方面用戶場景從互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)等傳統(tǒng)業(yè)務延伸到智能家居、自動駕駛、機器人等領(lǐng)域,積累更多數(shù)據(jù)信息;另一方面在積累底層人工智能技術(shù)的同時,持續(xù)研發(fā)更高級的深度學習算法,增強圖形識別和語音識別能力,對信息進行更深層加工、處理。
如何提供更多排他性、獨占性強的優(yōu)勢產(chǎn)品將成為大廠搶占賽道的關(guān)鍵所在。“谷歌推出類似ChatGPT的大模型Bard之后,料想未來與微軟的競爭將聚焦在元宇宙、人工智能等這些新興領(lǐng)域。”晟云磐盾信息技術(shù)有限公司總裁郝峻晟告訴記者,微軟更多的還是會聚焦在B端(如辦公軟件、云計算和人工智能相關(guān)產(chǎn)品)以及游戲等相關(guān)領(lǐng)域;谷歌則在互聯(lián)網(wǎng)領(lǐng)域的優(yōu)勢更明顯一些,未來可能會更多的在C端市場推出更多定制化產(chǎn)品。
百度、阿里、華為積極探索場景應用
大模型因“大”而效果好,但在許多產(chǎn)業(yè)應用中也會因為“太大”而難以落地部署,導致商業(yè)模式不夠清晰?!敖陙?,AI的研究發(fā)展迅猛,但AI的應用始終是一大難題,使用門檻過高限制了AI的潛能?!卑⒗锇桶图瘓F資深副總裁、達摩院副院長周靖人表示,AI模型較為復雜,尤其是要應用于行業(yè)場景,往往需要重新訓練,這使得AI只掌握在少數(shù)算法人員手中,難以走向大眾化。
在AI領(lǐng)域深耕已久的百度,其文心大模型在商業(yè)價值以及應用上的走向似乎更為明晰和開闊。百度方面表示,ChatGPT相關(guān)技術(shù),百度都有,且有全棧布局,包括底層芯片、深度學習框架、大模型以及最上層應用。IDC日前發(fā)布《2022中國大模型發(fā)展白皮書》指出,百度文心已進入AI語言生成類大模型的第一梯隊。
據(jù)了解,文心大模型已經(jīng)應用于百度搜索、信息流、智能駕駛、百度地圖、小度等重要產(chǎn)品,服務數(shù)億用戶;在行業(yè)落地中,文心率先提出行業(yè)大模型概念,通過百度智能云在制造、能源、金融、城市、傳媒等行業(yè)廣泛應用,此外,還有越來越多的開發(fā)者使用文心大模型。
按照百度集團副總裁吳甜的說法,文心大模型做技術(shù)創(chuàng)新的同時做落地應用,收益一方面來源于在百度自身業(yè)務中的應用,另一方面來自行業(yè)客戶具體場景服務的價值。這也是百度在漫長的AI探索過程中,調(diào)試出的發(fā)展方式,用李彥宏的話就是“摸著‘反饋’過河”。
有企業(yè)負責人對記者表示,現(xiàn)在人工智能技術(shù)都在與企業(yè)的核心業(yè)務流程做深度融合,而像ChatGPT這個基于大模型的應用服務,更像一個獨立的外掛,如何深度綁定,這也成為企業(yè)使用它的一個待解決問題。
記者了解到,目前,中國企業(yè)不僅致力于開發(fā)出能力媲美ChatGPT的大模型,還在著力降低大模型的應用門檻,讓其真正成為產(chǎn)業(yè)智能化的基座。
為了讓大模型更加融會貫通,阿里達摩院在國內(nèi)率先構(gòu)建了AI統(tǒng)一底座,在業(yè)界首次實現(xiàn)模態(tài)表示、任務表示、模型結(jié)構(gòu)的統(tǒng)一。在不引入任何新增結(jié)構(gòu)的情況下,可同時處理圖像描述、視覺定位、文生圖、視覺蘊含、文檔摘要等10余項單模態(tài)和跨模態(tài)任務,如同打通了AI的感官,受到學界和工業(yè)界廣泛關(guān)注。
通過部署超大模型及輕量化版本,阿里巴巴通義大模型系列已在超過200個場景中提供服務,實現(xiàn)了2%~10%的應用效果提升,典型使用場景包括電商跨模態(tài)搜索、AI輔助設(shè)計、開放域人機對話、法律文書學習、醫(yī)療文本理解等。
“實現(xiàn)通用AI——降低使用門檻和使用成本”也是華為對AI大模型的規(guī)劃,實現(xiàn)從開發(fā)到產(chǎn)業(yè)化完整的系統(tǒng)流程。2021年到2022年,華為與鵬城實驗室推出了“鵬城·神農(nóng)”大模型,與中科院推出全球首個三模態(tài)大模型“紫東·太初”,與中國商飛聯(lián)合推出業(yè)界首個工業(yè)級流體仿真大模型“東方·御風”,與武漢大學合作推出全球首個遙感影像大模型“武漢.洛迦”,2月中旬華為與清華大學合作推出了自動駕駛領(lǐng)域大模型。
其中,“紫東·太初”大模型解決了當前人工智能技術(shù)“一專一能”、小樣本學習能力欠缺、跨模態(tài)語義鴻溝的痛點,通過跨模態(tài)多任務自監(jiān)督學習實現(xiàn)圖像、文本、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”,理解和生成能力更接近人類,向通用人工智能邁出重要一步。
“我們希望打通從技術(shù)到商業(yè)的斷點,在大模型開發(fā)、Transformer?API的封裝以及大模型部署多個環(huán)節(jié)設(shè)計了相應的工具,簡化開發(fā)難度,同時將10多個主流的預訓練SOTA大模型開放到昇騰社區(qū),讓開發(fā)者可以直接調(diào)用做二次開發(fā)?!比A為昇騰計算業(yè)務總裁張迪煊說。
作者丨齊旭 劉晶 宋婧? ?編輯丨劉晶
美編丨馬利亞? ?監(jiān)制丨連曉東