CINNO Research產(chǎn)業(yè)資訊,2021年3月12日——麻省理工學(xué)院的一個(gè)研究團(tuán)隊(duì)提出了一種可以基于人工智能程序快速生成全息圖的方法。這種程序可以在消費(fèi)級筆記本電腦上運(yùn)行,可能會對未來VR和3D打印產(chǎn)生影響。
通過計(jì)算機(jī)生成全息圖的方案需要一定規(guī)模的模擬運(yùn)算,所以一般都需要超級計(jì)算機(jī)等硬件設(shè)備支持。實(shí)際上,即使在超級計(jì)算機(jī)上,這樣的模擬運(yùn)算過程也很慢,而且最終的效果也不是很理想。相比之下,這種新方法基于消費(fèi)級計(jì)算機(jī)就能夠在毫秒時(shí)間內(nèi)實(shí)時(shí)生成3D全息圖像。
“在這之前,大家都認(rèn)為使用現(xiàn)有消費(fèi)級硬件設(shè)備,不可能完成實(shí)時(shí)3D的全息計(jì)算過程,”麻省理工學(xué)院電氣工程與計(jì)算機(jī)科學(xué)系的學(xué)生,也是該研究的主要作者Liang Shi說,“另外還有一種存在了數(shù)十年的說法:全息顯示器進(jìn)入商用至少還需要10年的時(shí)間。”
Liang Shi博士認(rèn)為,這種基于“張量全息術(shù)(Tensor Holography)”的新方法將實(shí)現(xiàn)這一目標(biāo)。
照片和全息圖之間的本質(zhì)區(qū)別,在于全息圖對每個(gè)光波的亮度和相位都做了信息編碼。這種更完整的信息編碼可以讓全息圖,更生動(dòng)地還原真實(shí)場景下的視差和深度。為了從光學(xué)角度拍攝全息圖,我們需要將一束激光分開成相干的兩部分,其中一半用于直接照亮對象,另一半則用作后期處理時(shí)的相位參考,要知道正是這樣的參考相位最終讓畫面產(chǎn)生深度感。這一類全息圖最初在20世紀(jì)中葉開發(fā),不過它屬于靜態(tài)全息成像,不能用來拍攝動(dòng)態(tài)畫面。
計(jì)算機(jī)生成全息圖(CGH,Computer Generated Holography)技術(shù)的誕生,旨在通過模擬光學(xué)裝置來繞過這些挑戰(zhàn)。不過它還是有自己的局限,由于場景中的每個(gè)點(diǎn)都具有不同的深度,它無法對每個(gè)點(diǎn)進(jìn)行相同的處理。
“計(jì)算機(jī)生成全息技術(shù)會大大增加全息成像的計(jì)算復(fù)雜性,”Liang Shi博士說。 實(shí)際上,基于這種技術(shù)使用超級計(jì)算機(jī)運(yùn)行也需要幾分鐘的時(shí)間才能生成一張全息圖像。另外一點(diǎn),現(xiàn)有算法也不能以逼真的精度對遮擋物(Occlusion)進(jìn)行建模。
在這些背景下,麻省理工學(xué)院的研究團(tuán)隊(duì)基于深度學(xué)習(xí)和一種卷積網(wǎng)絡(luò),提出了一種使用張量模仿人類處理視覺信息的方法。訓(xùn)練神經(jīng)網(wǎng)絡(luò)通常需要龐大,高質(zhì)量的數(shù)據(jù)集,另外該團(tuán)隊(duì)還要自己組裝這些數(shù)據(jù)集。
他們定制的數(shù)據(jù)庫包含有4000對計(jì)算機(jī)生成的圖像,每對圖像都將其中的圖片(包括每個(gè)像素的顏色和深度信息)和相應(yīng)的全息圖匹配了起來。這一全息圖數(shù)據(jù)庫都是研究人員基于一些具有復(fù)雜多樣形狀和顏色的場景創(chuàng)建的。另外,這些場景從背景到前端,通常都具有均勻分布的深度信息。
為了解決前面提到的遮擋物建模精度不夠的問題,他們還提供了一組新的基于物理特性的算法。
最終,該擁有逼真訓(xùn)練數(shù)據(jù)集的算法在優(yōu)化計(jì)算之后,成功地提升了其生成全息圖的能力。該網(wǎng)絡(luò)的運(yùn)行速度比傳統(tǒng)基于物理結(jié)構(gòu)的計(jì)算方法快了幾個(gè)數(shù)量級。
另外,該方法還能夠基于普通計(jì)算機(jī)生成的(具有深度信息的)圖像,在毫秒時(shí)間內(nèi)快速生成全息圖。這種緊湊的張量網(wǎng)絡(luò),整個(gè)運(yùn)算過程需要的內(nèi)存小于1 MB。
研究人員Wojciech Matusik說:“考慮到最新的手機(jī)一般都有數(shù)十和數(shù)百GB的存儲空間,這一內(nèi)存需求幾乎可以忽略不計(jì)。”
就其VR應(yīng)用,該團(tuán)隊(duì)認(rèn)為這種技術(shù)可以提供更逼真的畫面,消除長時(shí)間使用VR時(shí)的眼睛疲勞和其他副作用。另外,該技術(shù)還可以用到一些能夠調(diào)制光波相位的顯示器中。
“這是一個(gè)巨大的飛躍,它可以完全改變?nèi)藗儗θ⒓夹g(shù)的態(tài)度,”Matusik說,“我們覺得神經(jīng)網(wǎng)絡(luò)就是為此而生的。”