亚洲无av码在线中文字幕 ,亚洲日韩国产片三区倡導生活樂趣

繼續(xù)Seeing Machines對(duì)DMS商業(yè)化落地所遇到的挑戰(zhàn)的總結(jié)。

動(dòng)機(jī)：了解人類

如今，需要人機(jī)交互的產(chǎn)品幾乎都是用按鈕來輸入的，無論是軟件還是物理輸入。在許多情況下，按鈕是一種極其簡(jiǎn)單有效的界面解決方案，然而，在任何機(jī)器和人之間需要進(jìn)行交互的地方，按鈕也可能成為使用機(jī)器的障礙（比如，電視遙控器）。

如果許多產(chǎn)品能夠以某種方式檢測(cè)到人類想要或需要的東西，而不需要人類去尋找和按下正確的按鈕，那么它們的使用就會(huì)簡(jiǎn)單得多。這在理論上很簡(jiǎn)單，但在實(shí)踐中，檢測(cè)一個(gè)隨機(jī)的人可能想要或需要什么，需要一個(gè)（在某種程度上）能夠解釋更自然的人類命令的AI。

今天，我們看到了語音識(shí)別技術(shù)的一些成功跡象，這些技術(shù)已非常成熟，能夠有效地解釋人類的語音，使一些產(chǎn)品能夠單獨(dú)使用語音控制。語音主要用于命令，然而許多人在向機(jī)器發(fā)出語音命令時(shí)會(huì)感到不舒服，這在多人場(chǎng)景且可能正在交談的情況下尤其如此。語音命令很強(qiáng)大，但并不總是合適的，當(dāng)然也不是萬能的。相反，它們只是創(chuàng)造了另一個(gè)界面選項(xiàng)。機(jī)器指令也可以通過使用手部、面部和眼睛的物理姿態(tài)發(fā)出。這些都可以單獨(dú)使用，或者與語音相結(jié)合，進(jìn)一步豐富界面選擇。

然而，雖然許多設(shè)備可以通過語音或手勢(shì)命令得到改進(jìn)，但更大的價(jià)值來自于機(jī)器能夠獲得關(guān)于個(gè)人的更豐富的上下文信息，從而動(dòng)態(tài)地使界面適應(yīng)實(shí)時(shí)上下文。

我們相信，上下文確實(shí)是更智能的機(jī)器界面的關(guān)鍵。上下文可以有以下四個(gè)來源：(i) 機(jī)器當(dāng)前的“狀態(tài)”（如駕駛員正試圖前往一個(gè)旅行目的地），(ii) 環(huán)境（如高速公路、道路場(chǎng)景、夜晚等），(iii) 人自身的數(shù)字信息（如他們過去的目的地、朋友的地址等），(iv) 人自己。如果機(jī)器能知道一個(gè)人是否沮喪、憤怒、不安、平靜、不知所措、困惑、放松、困倦、睡眠、歡快、醉酒、從事某項(xiàng)工作……），那么它將能夠更好地服務(wù)于用戶，同時(shí)需要更少的指令。

目前的世界只是剛剛開始見證實(shí)時(shí)人類的上下文可以為下一代人機(jī)界面提供的價(jià)值。第一批系統(tǒng)現(xiàn)在已出現(xiàn)在豪華車中，奔馳S級(jí)是主要例子。在這里，視覺、聽覺和觸覺感官界面（用于輸入和輸出）被放置在駕駛員周圍，將他們置于許多界面路徑的“循環(huán)”中。其結(jié)果是一個(gè)感覺自然、高度智能的界面，極大地簡(jiǎn)化了對(duì)來自車輛系統(tǒng)和道路環(huán)境的極其廣泛的信號(hào)訪問。

總之，Occula的開發(fā)不僅是為了解決DMS的有限應(yīng)用范圍，而且是為了更廣泛的“理解人類”。雖然這可能聽起來是一個(gè)非常廣泛的應(yīng)用，但它仍然產(chǎn)生了一套通用的專門的神經(jīng)網(wǎng)絡(luò)（NN）算法，因此優(yōu)化了執(zhí)行方法，因此可以發(fā)現(xiàn)比起通用的NPU設(shè)計(jì)，有明顯的嵌入式優(yōu)勢(shì)。盡管Occula NPU是為DMS解決方案而設(shè)計(jì)和打造的，但當(dāng)它與Seeing Machines DMS算法堆棧結(jié)合時(shí)，可以為更廣泛的產(chǎn)品提供性能優(yōu)勢(shì)。任何(i)對(duì)價(jià)格或功耗敏感的產(chǎn)品，以及(ii)可以從理解人類的上下文信息中獲得優(yōu)勢(shì)。我們把它留給讀者，讓他們?nèi)ハ胂蟾鞣N可能性。

SM-DETECT和SM-TRACK了解人類始于對(duì)人體的檢測(cè)和測(cè)量。人類已經(jīng)進(jìn)化為高度社會(huì)化的動(dòng)物，而人類大腦的生物學(xué)告訴我們，要“視覺理解（visually understand）”或了解，人體最關(guān)鍵的組成部分之一是臉。

這一點(diǎn)通過對(duì)被稱為枕葉（occipital lobe）的大腦區(qū)域的研究得到了證明，枕葉位于頭骨后面，直接接收來自視神經(jīng)的神經(jīng)脈沖。枕葉包含一個(gè)稱為枕面區(qū)（occipital face area）的亞區(qū)。神經(jīng)科學(xué)家的實(shí)驗(yàn)表明，這似乎是一個(gè)NN集群，完全致力于面部特征的低水平檢測(cè)。

在面部本身，可以說最重要的檢測(cè)特征是眼睛。這是因?yàn)檠劬沂玖艘粋€(gè)人正在看哪里的所有重要信息。這一線索與場(chǎng)景的上下文相結(jié)合，為另一個(gè)人在任何特定時(shí)刻可能在想什么提供了極其寶貴的洞察，因此是高級(jí)社會(huì)互動(dòng)的關(guān)鍵組成部分。在大腦中，對(duì)眼睛特征的檢測(cè)被認(rèn)為是在一個(gè)被稱為顳上溝（superior temporal sulcus）的專門區(qū)域進(jìn)行的，而將臉部和眼睛的時(shí)間空間信息轉(zhuǎn)化為情感線索的高階轉(zhuǎn)換則發(fā)生在杏仁核和前額葉皮層，它們也有無數(shù)的其他作用。

對(duì)于嵌入式工程師來說，人類大腦似乎只是進(jìn)化出了專門用于檢測(cè)和跟蹤面部特征的NN“硬件”加速器。這一進(jìn)化步驟的原因可能是，在社會(huì)環(huán)境中，面部理解是一項(xiàng)處理密集但又必不可少的任務(wù)，而大腦作為一個(gè)器官（或計(jì)算機(jī)），已經(jīng)消耗了大量的卡路里。進(jìn)化似乎不僅選擇了更大的大腦，而且選擇了那些能夠極其高效地完成日常工作的大腦。

部分受到目睹這些專門的生物網(wǎng)絡(luò)的啟發(fā)，Seeing Machines已經(jīng)開發(fā)了類似的優(yōu)化處理路徑，用于檢測(cè)和跟蹤人類的身體部位。這些功能單元是DMS處理層次的“金字塔底層”，共同構(gòu)成了人機(jī)交互所需的“感知”層。

SM-DETECT是檢測(cè)人臉、面部特征、軀干、手臂、手等的“快速路徑”，也可以通過訓(xùn)練來檢測(cè)可能出現(xiàn)在人體附近的其他種類的物體，如太陽(yáng)鏡或手機(jī)。為檢測(cè)而選擇的算法絕不是檢測(cè)精度最高的，而是在速度和精度之間的權(quán)衡，經(jīng)過精心選擇，以最大限度地兼容硬件加速，并最大限度地減少處理功耗。

FOVIO芯片固件周期性地執(zhí)行SM-DETECT路徑，掃描場(chǎng)景中的人體部部位，這些檢測(cè)結(jié)果用于支持對(duì)車輛乘員的逐幀跟蹤。

SM-TRACK是一個(gè)類似的想法。一個(gè)快速路徑，但用于定位和跟蹤各幀的人體部件。該路徑利用了身體部位在視頻幀之間只能移動(dòng)這么遠(yuǎn)的知識(shí)，并根據(jù)對(duì)身體部位在最新圖像中可能出現(xiàn)的位置的預(yù)測(cè)，結(jié)合人類基本形態(tài)的模型，對(duì)身體部位進(jìn)行局部檢測(cè)。SM-TRACK節(jié)省了大部分的處理帶寬，而標(biāo)準(zhǔn)的解決方案是使用一個(gè)NN來適應(yīng)每一幀視頻的3D（或4D）模型。再一次，所使用的算法來自于超過15年的內(nèi)部演化，從而在車內(nèi)環(huán)境中，在速度和準(zhǔn)確性之間做出了謹(jǐn)慎的權(quán)衡。

Seeing Machines并不聲稱這些算法在檢測(cè)和跟蹤圖像中人類的能力方面是最好的，但我們相信它們是“足夠好”的跟蹤性能和所有重要指標(biāo)與處理成本之間的最佳折中方案。

人類狀態(tài)的分類

在人腦中，復(fù)雜的高階推理任務(wù)由前額和額葉皮層執(zhí)行，它們似乎處于網(wǎng)絡(luò)層次的頂峰，也是我們?nèi)祟愐庾R(shí)的主要所在。

對(duì)于嵌入式工程師來說，大腦的額葉皮層區(qū)域看起來有點(diǎn)像一個(gè)通用的NPU。這也許是各種不同的網(wǎng)絡(luò)幫助我們?cè)谏鐣?huì)世界中解決復(fù)雜的生存難題的地方，每個(gè)網(wǎng)絡(luò)都將來自下方更高帶寬感知層的狀態(tài)作為輸入。

同樣，Occula的設(shè)計(jì)是為了支持更普遍的NN，特別是那種從SM-DETECT和SM-TRACK感知層獲取結(jié)果并進(jìn)行高階分類的類型和規(guī)模；例如，在最后兩秒的眼瞼數(shù)據(jù)中檢測(cè)出微睡眠，或者在對(duì)整個(gè)駕駛員的幾分鐘觀察中推斷出瞌睡的程度。

為了做到這一點(diǎn)，Seeing Machines的工程師調(diào)查了現(xiàn)代DMS所需的一套分類器算法集，研究了操作者、模型大小、數(shù)字精度和所需的執(zhí)行時(shí)間預(yù)算，并設(shè)計(jì)了Occula，使其在芯片資源預(yù)算內(nèi)“最適合”所有已知組合。

Seeing Machines對(duì)DMS商業(yè)化落地的挑戰(zhàn)：Occula NPU（一）

動(dòng)機(jī)：了解人類

人類狀態(tài)的分類

相關(guān)推薦