• 正文
    • 動(dòng)機(jī):了解人類
    • 人類狀態(tài)的分類
  • 相關(guān)推薦
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

Seeing Machines對(duì)DMS商業(yè)化落地的挑戰(zhàn):Occula NPU(一)

2022/03/17
833
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

繼續(xù)Seeing Machines對(duì)DMS商業(yè)化落地所遇到的挑戰(zhàn)的總結(jié)。

動(dòng)機(jī):了解人類

如今,需要人機(jī)交互的產(chǎn)品幾乎都是用按鈕來(lái)輸入的,無(wú)論是軟件還是物理輸入。在許多情況下,按鈕是一種極其簡(jiǎn)單有效的界面解決方案,然而,在任何機(jī)器和人之間需要進(jìn)行交互的地方,按鈕也可能成為使用機(jī)器的障礙(比如,電視遙控器)。

如果許多產(chǎn)品能夠以某種方式檢測(cè)到人類想要或需要的東西,而不需要人類去尋找和按下正確的按鈕,那么它們的使用就會(huì)簡(jiǎn)單得多。這在理論上很簡(jiǎn)單,但在實(shí)踐中,檢測(cè)一個(gè)隨機(jī)的人可能想要或需要什么,需要一個(gè)(在某種程度上)能夠解釋更自然的人類命令的AI。

今天,我們看到了語(yǔ)音識(shí)別技術(shù)的一些成功跡象,這些技術(shù)已非常成熟,能夠有效地解釋人類的語(yǔ)音,使一些產(chǎn)品能夠單獨(dú)使用語(yǔ)音控制。語(yǔ)音主要用于命令,然而許多人在向機(jī)器發(fā)出語(yǔ)音命令時(shí)會(huì)感到不舒服,這在多人場(chǎng)景且可能正在交談的情況下尤其如此。語(yǔ)音命令很強(qiáng)大,但并不總是合適的,當(dāng)然也不是萬(wàn)能的。相反,它們只是創(chuàng)造了另一個(gè)界面選項(xiàng)。機(jī)器指令也可以通過(guò)使用手部、面部和眼睛的物理姿態(tài)發(fā)出。這些都可以單獨(dú)使用,或者與語(yǔ)音相結(jié)合,進(jìn)一步豐富界面選擇。

然而,雖然許多設(shè)備可以通過(guò)語(yǔ)音或手勢(shì)命令得到改進(jìn),但更大的價(jià)值來(lái)自于機(jī)器能夠獲得關(guān)于個(gè)人的更豐富的上下文信息,從而動(dòng)態(tài)地使界面適應(yīng)實(shí)時(shí)上下文。

我們相信,上下文確實(shí)是更智能的機(jī)器界面的關(guān)鍵。上下文可以有以下四個(gè)來(lái)源:(i) 機(jī)器當(dāng)前的“狀態(tài)”(如駕駛員正試圖前往一個(gè)旅行目的地),(ii) 環(huán)境(如高速公路、道路場(chǎng)景、夜晚等),(iii) 人自身的數(shù)字信息(如他們過(guò)去的目的地、朋友的地址等),(iv) 人自己。如果機(jī)器能知道一個(gè)人是否沮喪、憤怒、不安、平靜、不知所措、困惑、放松、困倦、睡眠、歡快、醉酒、從事某項(xiàng)工作……),那么它將能夠更好地服務(wù)于用戶,同時(shí)需要更少的指令。

目前的世界只是剛剛開(kāi)始見(jiàn)證實(shí)時(shí)人類的上下文可以為下一代人機(jī)界面提供的價(jià)值。第一批系統(tǒng)現(xiàn)在已出現(xiàn)在豪華車中,奔馳S級(jí)是主要例子。在這里,視覺(jué)、聽(tīng)覺(jué)和觸覺(jué)感官界面(用于輸入和輸出)被放置在駕駛員周圍,將他們置于許多界面路徑的“循環(huán)”中。其結(jié)果是一個(gè)感覺(jué)自然、高度智能的界面,極大地簡(jiǎn)化了對(duì)來(lái)自車輛系統(tǒng)和道路環(huán)境的極其廣泛的信號(hào)訪問(wèn)。

總之,Occula的開(kāi)發(fā)不僅是為了解決DMS的有限應(yīng)用范圍,而且是為了更廣泛的“理解人類”。雖然這可能聽(tīng)起來(lái)是一個(gè)非常廣泛的應(yīng)用,但它仍然產(chǎn)生了一套通用的專門(mén)的神經(jīng)網(wǎng)絡(luò)(NN)算法,因此優(yōu)化了執(zhí)行方法,因此可以發(fā)現(xiàn)比起通用的NPU設(shè)計(jì),有明顯的嵌入式優(yōu)勢(shì)。盡管Occula NPU是為DMS解決方案而設(shè)計(jì)和打造的,但當(dāng)它與Seeing Machines DMS算法堆棧結(jié)合時(shí),可以為更廣泛的產(chǎn)品提供性能優(yōu)勢(shì)。任何(i)對(duì)價(jià)格或功耗敏感的產(chǎn)品,以及(ii)可以從理解人類的上下文信息中獲得優(yōu)勢(shì)。我們把它留給讀者,讓他們?nèi)ハ胂蟾鞣N可能性。

SM-DETECT和SM-TRACK了解人類始于對(duì)人體的檢測(cè)和測(cè)量。人類已經(jīng)進(jìn)化為高度社會(huì)化的動(dòng)物,而人類大腦的生物學(xué)告訴我們,要“視覺(jué)理解(visually understand)”或了解,人體最關(guān)鍵的組成部分之一是臉。

這一點(diǎn)通過(guò)對(duì)被稱為枕葉(occipital lobe)的大腦區(qū)域的研究得到了證明,枕葉位于頭骨后面,直接接收來(lái)自視神經(jīng)的神經(jīng)脈沖。枕葉包含一個(gè)稱為枕面區(qū)(occipital face area)的亞區(qū)。神經(jīng)科學(xué)家的實(shí)驗(yàn)表明,這似乎是一個(gè)NN集群,完全致力于面部特征的低水平檢測(cè)。

在面部本身,可以說(shuō)最重要的檢測(cè)特征是眼睛。這是因?yàn)檠劬沂玖艘粋€(gè)人正在看哪里的所有重要信息。這一線索與場(chǎng)景的上下文相結(jié)合,為另一個(gè)人在任何特定時(shí)刻可能在想什么提供了極其寶貴的洞察,因此是高級(jí)社會(huì)互動(dòng)的關(guān)鍵組成部分。在大腦中,對(duì)眼睛特征的檢測(cè)被認(rèn)為是在一個(gè)被稱為顳上溝(superior temporal sulcus)的專門(mén)區(qū)域進(jìn)行的,而將臉部和眼睛的時(shí)間空間信息轉(zhuǎn)化為情感線索的高階轉(zhuǎn)換則發(fā)生在杏仁核和前額葉皮層,它們也有無(wú)數(shù)的其他作用。

對(duì)于嵌入式工程師來(lái)說(shuō),人類大腦似乎只是進(jìn)化出了專門(mén)用于檢測(cè)和跟蹤面部特征的NN“硬件”加速器。這一進(jìn)化步驟的原因可能是,在社會(huì)環(huán)境中,面部理解是一項(xiàng)處理密集但又必不可少的任務(wù),而大腦作為一個(gè)器官(或計(jì)算機(jī)),已經(jīng)消耗了大量的卡路里。進(jìn)化似乎不僅選擇了更大的大腦,而且選擇了那些能夠極其高效地完成日常工作的大腦。

部分受到目睹這些專門(mén)的生物網(wǎng)絡(luò)的啟發(fā),Seeing Machines已經(jīng)開(kāi)發(fā)了類似的優(yōu)化處理路徑,用于檢測(cè)和跟蹤人類的身體部位。這些功能單元是DMS處理層次的“金字塔底層”,共同構(gòu)成了人機(jī)交互所需的“感知”層。

SM-DETECT是檢測(cè)人臉、面部特征、軀干、手臂、手等的“快速路徑”,也可以通過(guò)訓(xùn)練來(lái)檢測(cè)可能出現(xiàn)在人體附近的其他種類的物體,如太陽(yáng)鏡或手機(jī)。為檢測(cè)而選擇的算法絕不是檢測(cè)精度最高的,而是在速度和精度之間的權(quán)衡,經(jīng)過(guò)精心選擇,以最大限度地兼容硬件加速,并最大限度地減少處理功耗。

FOVIO芯片固件周期性地執(zhí)行SM-DETECT路徑,掃描場(chǎng)景中的人體部部位,這些檢測(cè)結(jié)果用于支持對(duì)車輛乘員的逐幀跟蹤。

SM-TRACK是一個(gè)類似的想法。一個(gè)快速路徑,但用于定位和跟蹤各幀的人體部件。該路徑利用了身體部位在視頻幀之間只能移動(dòng)這么遠(yuǎn)的知識(shí),并根據(jù)對(duì)身體部位在最新圖像中可能出現(xiàn)的位置的預(yù)測(cè),結(jié)合人類基本形態(tài)的模型,對(duì)身體部位進(jìn)行局部檢測(cè)。SM-TRACK節(jié)省了大部分的處理帶寬,而標(biāo)準(zhǔn)的解決方案是使用一個(gè)NN來(lái)適應(yīng)每一幀視頻的3D(或4D)模型。再一次,所使用的算法來(lái)自于超過(guò)15年的內(nèi)部演化,從而在車內(nèi)環(huán)境中,在速度和準(zhǔn)確性之間做出了謹(jǐn)慎的權(quán)衡。

Seeing Machines并不聲稱這些算法在檢測(cè)和跟蹤圖像中人類的能力方面是最好的,但我們相信它們是“足夠好”的跟蹤性能和所有重要指標(biāo)與處理成本之間的最佳折中方案。

人類狀態(tài)的分類

在人腦中,復(fù)雜的高階推理任務(wù)由前額和額葉皮層執(zhí)行,它們似乎處于網(wǎng)絡(luò)層次的頂峰,也是我們?nèi)祟愐庾R(shí)的主要所在。

對(duì)于嵌入式工程師來(lái)說(shuō),大腦的額葉皮層區(qū)域看起來(lái)有點(diǎn)像一個(gè)通用的NPU。這也許是各種不同的網(wǎng)絡(luò)幫助我們?cè)谏鐣?huì)世界中解決復(fù)雜的生存難題的地方,每個(gè)網(wǎng)絡(luò)都將來(lái)自下方更高帶寬感知層的狀態(tài)作為輸入。

同樣,Occula的設(shè)計(jì)是為了支持更普遍的NN,特別是那種從SM-DETECT和SM-TRACK感知層獲取結(jié)果并進(jìn)行高階分類的類型和規(guī)模;例如,在最后兩秒的眼瞼數(shù)據(jù)中檢測(cè)出微睡眠,或者在對(duì)整個(gè)駕駛員的幾分鐘觀察中推斷出瞌睡的程度。

為了做到這一點(diǎn),Seeing Machines的工程師調(diào)查了現(xiàn)代DMS所需的一套分類器算法集,研究了操作者、模型大小、數(shù)字精度和所需的執(zhí)行時(shí)間預(yù)算,并設(shè)計(jì)了Occula,使其在芯片資源預(yù)算內(nèi)“最適合”所有已知組合。

相關(guān)推薦

登錄即可解鎖
  • 海量技術(shù)文章
  • 設(shè)計(jì)資源下載
  • 產(chǎn)業(yè)鏈客戶資源
  • 寫(xiě)文章/發(fā)需求
立即登錄