當(dāng)奧特曼發(fā)布OpenAI首個(gè)視頻生成模型Sora之后,業(yè)界震撼了,一些人感覺到自己的職業(yè)生涯要Over了。Sora能生成長達(dá)1分鐘的高清視頻,要知道這不是拼接和調(diào)用,是通過AI自主地生成的視頻內(nèi)容,而且是一鏡到底。OpenAI表示,正在教AI理解和模擬運(yùn)動(dòng)中的物理世界,目標(biāo)是訓(xùn)練模型來幫助人們解決需要現(xiàn)實(shí)世界交互的問題。根據(jù)文本提示生成視頻,現(xiàn)在開始了。
1.顛覆性的革命時(shí)代來了?
目前Sora已經(jīng)能生成具有多個(gè)角色、包含特定運(yùn)動(dòng)的復(fù)雜場景,不僅能理解用戶在提示中提出的要求,還了解這些物體在物理世界中的存在方式。Sora還可以在單個(gè)視頻中創(chuàng)建多個(gè)鏡頭,并依靠對(duì)語言的深入理解準(zhǔn)確地解釋提示詞,保留角色和視覺風(fēng)格。
簡單地說,Sora是一種擴(kuò)散模型,從噪聲開始,能夠一次生成整個(gè)視頻或擴(kuò)展視頻的長度,一次生成多幀的視頻,確保畫面主體即使暫時(shí)離開視野也能保持不變。與GPT模型類似,Sora使用了Transformer架構(gòu),有很強(qiáng)的擴(kuò)展性。OpenAI將視頻和圖像表示為patch,類似于GPT中的token。通過這種統(tǒng)一的數(shù)據(jù)表示方式,可以在比以前更廣泛的視覺數(shù)據(jù)上訓(xùn)練模型,涵蓋不同的持續(xù)時(shí)間、分辨率和縱橫比。
除了能夠僅根據(jù)文本指令生成視頻之外,該模型還能夠獲取現(xiàn)有的靜態(tài)圖像并從中生成視頻,準(zhǔn)確地讓圖像內(nèi)容動(dòng)起來并關(guān)注小細(xì)節(jié)。該模型還可以獲取現(xiàn)有視頻并對(duì)其進(jìn)行擴(kuò)展或填充缺失的幀,Sora 是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),OpenAI相信這一功能將成為實(shí)現(xiàn)AGI的重要里程碑。
借助于對(duì)語言的深刻理解,Sora能夠準(zhǔn)確地理解用戶指令中所表達(dá)的需求,把握這些元素在現(xiàn)實(shí)世界中的表現(xiàn)形式。也就是說,Sora創(chuàng)造出的角色,能夠表達(dá)豐富的情感。要知道,以前的AI視頻,都是單鏡頭生成的。而OpenAI能在多角度的鏡頭切換中,就能實(shí)現(xiàn)對(duì)象的一致性,這種級(jí)別的多鏡頭一致性,是別的工具很難企及的。
2.Sora現(xiàn)在還處于成長階段
當(dāng)然,Sora當(dāng)前還存在一些弱點(diǎn)。OpenAI表示,它可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理,并且可能無法理解因果關(guān)系。該模型可能混淆提示的空間細(xì)節(jié),例如混淆左右,并且可能難以精確描述隨著時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。再比如或許在生成的一則視頻中已經(jīng)咬了一口的餅干,但Sora還會(huì)保持完整的餅干形態(tài)而不是已經(jīng)缺了一口的物理形態(tài),在理解這個(gè)過程中還需要不斷地訓(xùn)練,但應(yīng)該不是一個(gè)很困難的事情。
得益于DALL·E 3所使用的擴(kuò)散模型,以及GPT-4的Transformer引擎,Sora不僅能夠生成滿足特定要求的視頻,而且能夠展示出對(duì)電影拍攝語法的自發(fā)理解。Sora不僅能夠一次性生成完整的視頻,還能延長已生成的視頻。英偉達(dá)的技術(shù)專家表示,Sora是一個(gè)數(shù)據(jù)驅(qū)動(dòng)的物理引擎。它是對(duì)許多世界的模擬,無論是真實(shí)的,還是虛構(gòu)的。該模擬器通過去噪和梯度學(xué)習(xí)方式,學(xué)習(xí)了復(fù)雜的渲染、“直觀的”物理、長期推理和語義理解。
有人說,Sora和類似的程序?qū)氐赘淖僒ikTok等社交平臺(tái)。可以說,我們已經(jīng)很難再分清,AI和現(xiàn)實(shí)的界限了。不過,現(xiàn)在就說能夠改變Tik Tok這種社交平臺(tái),或許還為時(shí)尚早,不過這個(gè)攪局過程應(yīng)該不會(huì)太長了。因?yàn)镾ora擁有深入的語言理解能力,能夠準(zhǔn)確解釋提示并生成能表達(dá)豐富情感的角色。這使得模型能夠更好地理解用戶的文本指令,并在生成的視頻內(nèi)容中忠實(shí)地反映這些指令。
而多鏡頭生成能力讓我們看到了AI的成長和學(xué)習(xí)能力,Sora可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,同時(shí)保持角色和視覺風(fēng)格的一致性。這種能力對(duì)于制作電影預(yù)告片、動(dòng)畫或其他需要多視角展示的內(nèi)容非常有用。Sora的出現(xiàn),預(yù)示著一個(gè)全新的視覺敘事時(shí)代的到來,它能夠?qū)⑷藗兊南胂罅D(zhuǎn)化為生動(dòng)的動(dòng)態(tài)畫面,將文字的魔力轉(zhuǎn)化為視覺的盛宴。在這個(gè)由數(shù)據(jù)和算法編織的未來,Sora正以其獨(dú)特的方式,重新定義了我們與數(shù)字世界的互動(dòng)。
3.Sora將對(duì)哪些從業(yè)者帶來危機(jī)?
Sora的推出將為視頻生成領(lǐng)域帶來革命性的進(jìn)步,也必然將對(duì)多個(gè)行業(yè)產(chǎn)生影響,包括但不限于廣告、影視、游戲、教育、新聞等領(lǐng)域。它可以幫助企業(yè)和個(gè)人更快速地創(chuàng)作和制作視頻內(nèi)容,提高效率。但這也可能導(dǎo)致部分視頻從業(yè)者面臨失業(yè)的風(fēng)險(xiǎn),尤其是近些年隨著短視頻的風(fēng)靡,視頻職業(yè)剪輯制作者,他們的前景恐令人擔(dān)憂。
當(dāng)然,人工智能在很多領(lǐng)域也可以為人類提供更多便利和支持,因此不一定會(huì)造成失業(yè)潮。相反,它可能促使視頻行業(yè)朝著更高端、更創(chuàng)新的方向發(fā)展。如何應(yīng)對(duì)科技的進(jìn)步,以及由此帶來的一系列的改變,才是我們必須在意的地方。眾所周知,ChatGPT誕生之初,引發(fā)了國內(nèi)互聯(lián)網(wǎng)大廠,以及眾多創(chuàng)業(yè)公司的跟進(jìn),一度上演了國內(nèi)市場的百模大戰(zhàn)。如今,Sora來了,國內(nèi)企業(yè)又會(huì)如何應(yīng)對(duì)?
可以說,視頻生成模型Sora的誕生,也將再次引起國內(nèi)企業(yè)跟進(jìn)的風(fēng)潮。360董事長周鴻祎表示,Sora對(duì)短視頻行業(yè)有巨大的顛覆,但未必能那么快擊敗TikTok,更多是創(chuàng)作力工具。此外,他認(rèn)為,中美兩國的人工智能差距在拉大。對(duì)于我們的企業(yè)而言,如何投入精力和創(chuàng)新的嘗試以及技術(shù)的積累,才是最關(guān)鍵的。