金磊 發(fā)自 第四范式大廈
量子位 | 公眾號 QbitAI
國產(chǎn)大模型能大戰(zhàn),又有一員猛將入局。
就在剛剛,第四范式自研大模型“式說”(4Paradigm SageGPT)在上線2個月后,終于來了一波能力首秀。
而且縱觀整場活動的發(fā)布,最直觀的感受就是:不一樣,著實不一樣。
怎么說?
首先,他敢在現(xiàn)場演示的時候,拔!網(wǎng)!線!
效果是這樣的,例如上傳一張《狂飆》劇照之后,讓“式說”描述一下照片,它的回答是:
這張照片中有一組穿著制服的男子站在一張桌子前。
而后追問劇照中有幾個人,“式說”也立即給出了答案:9個。
再來看下以文生圖的能力,先讓它畫一下“獅子頭”:
不難看出,生成圖片的效果是過關的;此時現(xiàn)場很多人立即開口說到:“紅燒獅子頭”呢?
第四范式不在怕的,馬上在現(xiàn)場演示了起來:
接下來,是代碼生成方面,第四范式在現(xiàn)場直接讓“式說”秀了一下“Python猜隨機數(shù)”:
面對敢于拔網(wǎng)線的live演示,現(xiàn)場觀眾也是驚嘆與掌聲不斷。
但“不一樣”的點還不只于此,而且上面展示的這些能力,也僅僅是“開胃菜”。
因為第四范式的GPT,并不是“你以為的你以為”,而是不同于其它廠商的一套玩法——
用AIGC的能力重構軟件(AIGS),目的就是以此來提高企業(yè)軟件的用戶體驗和開發(fā)效率。
例如讓“式說”分析集裝箱及小箱子尺寸,并設計裝箱方案。
它就會先向用戶咨詢與之相關的細節(jié)的信息,然后便一步一步執(zhí)行它的方案,還是會給出思考過程的那種。
對此,第四范式CEO戴文淵在現(xiàn)場給出了他的解釋:
C端產(chǎn)品已經(jīng)逼近用戶體驗的上限,而B端的企業(yè)級軟件往往是個十分復雜的執(zhí)行系統(tǒng)。
目前這些B端軟件極為復雜的交互體驗,以及復雜性帶來的極低開發(fā)效率,恰恰為生成式AI留下足夠大的重構和改造空間。
不是你以為的GPT
整體來看,“式說”之所以能夠擁有上面展示的這般能力,是因為在它的背后擁有三大技術“利器”。
首先就是多模態(tài)大語言模型技術。
“式說”在最初2月發(fā)布之際所支持的能力是單一模態(tài)的,即文本對話能力。
而時隔僅1個月,第四范式便將語音、圖像、表格、視頻等多模態(tài)輸入及輸出能力融入了進來。
第二大技術“利器”,則是企業(yè)級Copilot。
值得一提的是,這個Copilot并非是微軟、GitHub的那個Copilot。
而是第四范式通過自研大語言模型對專業(yè)領域的知識做理解,以便幫助用戶實現(xiàn)某些功能。
例如在開發(fā)的過程中,在企業(yè)級Copilot的加持之下,所需的成本就只是把API對接進來即可。
什么概念?
這就好比ChatGPT Plugins一般,只需要安裝特定領域第三方的插件,就能讓ChatGPT在這個領域變得更加聰明、專業(yè)。
同樣的,當企業(yè)使用“式說”時,Copilot就可以調(diào)出企業(yè)軟件的有關功能,員工可以通過語音、圖像、表格、視頻等形式獲取想要的答案。
例如在航空制造業(yè),軟件設計人員只需要上傳一些圖片,即可提出要求讓“式說”在上百萬的工裝零件庫中找出相似零件,并進行組裝:
由此可見,“多模態(tài)大語言模型+Copilot”這套組合打法,可以讓AIGC在產(chǎn)業(yè)實際落地過程中更加得心應手。
但若是僅僅如此,依舊還是遠遠不夠的。
因為上述能力只能去應對某些單一的、碎片化的任務,而產(chǎn)業(yè)中的問題往往更加紛繁復雜。
就好比我們在用Photoshop去美化一張圖片時,往往需要涉及裁剪、調(diào)濾鏡、調(diào)亮度等等多個步驟。
不過往往人們想要的結(jié)果是一步到位,直接說一句“給我生成某個產(chǎn)品的海報”,所問即所得。
而這種情況放在企業(yè)生產(chǎn)過程中,不僅是要完整結(jié)果那么簡單,還需要對生成的過程做到“不黑箱”,步步均可解釋。
為此,第四范式便在上述兩大“利器”之上,引入了第三個關鍵技術——企業(yè)級思維鏈(Chain of Thought,CoT)。
思維鏈這個概念最早是由谷歌提出,是一種特殊的上下文學習。
它不同于標準提示只是給出輸入-輸出對的示例,思維鏈提示還會額外增加一段推理的過程。
員工只需要交代一個任務,它不僅能夠給你一個較為完美的答案,而且還會把期間所有流程是怎么思考的、如何執(zhí)行的,一一都解釋清楚。
值得一提的是,第四范式這種企業(yè)級思維鏈是針對特定領域?qū)W習的“套路”,是更具專業(yè)性、可信度的那種。
不過有一說一,第四范式今天的發(fā)布,并非是趁著這波大熱潮一蹴而就的事情。
據(jù)第四范式介紹,早在BERT出來的時候,范式研究院就開始關注并投入在這個技術領域,GPT3出來以后就更加明確了這個方向。
與此同時,第四范式也坦誠地說“相比今年的投入,過去幾年肯定還是有差距的”。
整體來看第四范式的技術路線,大致可以總結(jié)為三步:
式說1.0:擁有生成語言對話能力,主要場景是文庫問答;相當于讓GPT學習的企業(yè)知識后,可以自然地與員工交互,解答專業(yè)問題,并且是可溯源的。
式說2.0:加入文本、語音、圖像、表格、視頻等多模態(tài)輸入及輸出能力,并增加了企業(yè)級Copilot能力。
式說3.0:發(fā)力Copilot和思維鏈,提升使用傳統(tǒng)B端企業(yè)軟件的體驗。
為何如此布局?
一言蔽之,AIGS,即用AIGC的能力重構軟件。
畢竟能夠用起來的技術好技術,雖然AIGC熱潮很火爆、諸如GPT-4這般效果非常強悍的技術出現(xiàn)了,但它們之于產(chǎn)業(yè),目前又帶來了怎么技術價值?
這便是第四范式所思考的根本問題,而且戴文淵表示:
要做到AIGS,大模型未必需要是知識廣博、十項全能冠軍的通才。
更重要的在于模型具備Copilot和思維鏈CoT的能力。
在第四范式看來,傳統(tǒng)B端軟件先是出現(xiàn)過體驗上的不足,例如企業(yè)內(nèi)的報銷系統(tǒng)、HR系統(tǒng)、OA系統(tǒng)等,可以說是“菜單接菜單,菜單何其多”。
而大語言模型的到來,使得這些復雜系統(tǒng)可以通過更好的交互方式去實現(xiàn)功能的調(diào)用,這是顛覆之一。
例如在AI改造后的企業(yè)軟件,以預定會議室為例,不再需要在選日期、選時間段、選會議室了。
而是像跟秘書對話一般,直接來一句“幫我預定某某時間段的會議室”,即可。
在企業(yè)軟件開發(fā)上,亦是如此。
因為傳統(tǒng)B端企業(yè)軟件往往都是高度定制化、基于菜單式的開發(fā),每次一個功能升級,又要周而復始的經(jīng)歷原型圖、設計、開發(fā)等,至少是月級別的開發(fā)時間。
但由于新的交互形式的出現(xiàn),現(xiàn)在功能和邏輯只需在數(shù)據(jù)、API和內(nèi)容層面下功夫即可,變成了天級別的開發(fā)效率,這又是顛覆之一。
正如第四范式所說:
我們看到大模型能夠帶來用戶體驗的提升,開發(fā)效率的提升,所以一定會形成軟件行業(yè)的飛躍,就是誰率先能做出來的問題。
當軟件產(chǎn)業(yè)被改造以后,整個行業(yè)的業(yè)務價值、商業(yè)模式都會得到飛躍。這是一個巨大的市場。
那么AIGS這條路,具體又該如何走?
第四范式對這個問題也給出了自己的見解,主要分為三大階段:
第一階段:Copilot調(diào)動不同的信息、數(shù)據(jù)、應用,作為助手完成用戶的指令。相當于在所有企業(yè)級軟件系統(tǒng)里,配備一個指揮官。指揮官聽用戶的指揮,比如“把照片亮度調(diào)亮20%”。
第二階段:Copilot+基于企業(yè)規(guī)則的“知識庫”,AI能夠參照規(guī)則做復雜工作,比如AI查詢了“人像美化”知識庫后,能執(zhí)行把照片修好看的步驟。
第三階段:Copilot+CoT。軟件系統(tǒng)的使用行為最終會被大模型學會,形成AI針對這個領域的思維鏈,意味著“把照片處理得更好看”這種復雜指令,AI能自動地按照步驟完成。
但更深一層的,若是細看下第四范式的過往,就不難發(fā)現(xiàn)如此布局背后的本質(zhì)——“做企業(yè)級”、“與軟件公司打交道”似乎一直是刻在第四范式的一個基因。
那么這一次,第四范式是否能用AIGC重塑產(chǎn)業(yè)軟件的新范式,是值得期待了。