LCD屏幕上實(shí)時(shí)顯示的是經(jīng)典的MNIST手寫數(shù)據(jù)集,當(dāng)攜帶MNIST數(shù)字信息的相干光經(jīng)過擋板漫反射后,形成散斑圖。如下圖所示,分別是數(shù)字0-9及其對(duì)應(yīng)的散斑圖。由于散射和干涉的作用,所有的圖像都布滿散斑。
所有的數(shù)據(jù)(散斑圖)經(jīng)過預(yù)處理后結(jié)合AI算法,實(shí)現(xiàn)障礙物后面的數(shù)字變化的實(shí)時(shí)識(shí)別。散斑圖像的任一部分都包含了整個(gè)被識(shí)別物體的信息,因此,即使是散斑圖的很小的一個(gè)部分,也可以用來(lái)進(jìn)行物體識(shí)別。也就是說(shuō),散斑圖像不同大小的裁剪和圖像的不同位置,并不影響最終的識(shí)別效果。
為充分探尋該方法的適用性,研究人員還針對(duì)不同場(chǎng)景進(jìn)行了實(shí)驗(yàn)。包括經(jīng)過一面墻反射的散斑識(shí)別,經(jīng)過兩面墻反射的散斑識(shí)別,經(jīng)過旋轉(zhuǎn)墻反射的散斑識(shí)別,以及光源和視覺傳感器位于同側(cè)的散斑識(shí)別。所有實(shí)驗(yàn)的平均識(shí)別準(zhǔn)確率高達(dá)91%以上。如下表是每個(gè)實(shí)驗(yàn)的具體識(shí)別率。
數(shù)字還遠(yuǎn)遠(yuǎn)不夠,該論文還驗(yàn)證了障礙物后的人體姿態(tài)識(shí)別。如下圖為12個(gè)人的同一個(gè)姿態(tài)對(duì)應(yīng)的各自散斑圖,可以看出,人體姿態(tài)識(shí)別包含了更多的復(fù)雜特征。即使是同一個(gè)動(dòng)作,不同的人也會(huì)有顯著差異。但是通過相應(yīng)的AI算法,可以從散斑圖像中提煉出隱含的相同特征,從而實(shí)現(xiàn)姿態(tài)的識(shí)別。
下圖為同一個(gè)人展示的10種不同的姿態(tài),及其對(duì)應(yīng)的散斑圖。區(qū)分不同散斑圖的特征,可以實(shí)現(xiàn)不同姿態(tài)的識(shí)別。
通過深度學(xué)習(xí)的AI算法處理,以11個(gè)人的姿態(tài)作為訓(xùn)練樣本,剩下的1個(gè)人做測(cè)試,遍歷12個(gè)人(12次實(shí)驗(yàn)),得到的平均識(shí)別準(zhǔn)確率為78.18%,高于現(xiàn)有的3姿態(tài)識(shí)別的論文報(bào)道的準(zhǔn)確率76.6%。10個(gè)不同姿態(tài)的混淆矩陣如下:
該姿態(tài)識(shí)別的研究,在安防監(jiān)控領(lǐng)域有廣泛應(yīng)用場(chǎng)景。比如識(shí)別被遮擋角落的危險(xiǎn)行為,包括打架斗毆或其他有危險(xiǎn)性的動(dòng)作、軍事及反恐行動(dòng)中環(huán)境隱藏偵查,以及消防救援時(shí)獲取屋內(nèi)被困人員的信息等。
被遮擋角落的危險(xiǎn)行為檢測(cè)示意
【相關(guān)研究】
該論文的方法跟其他的非視域識(shí)別相比,有不少優(yōu)勢(shì)。
比如熟知的TOF(Time of Flight)飛行時(shí)間法。雖然TOF方法對(duì)非視域物體的重構(gòu)精度能達(dá)到厘米量級(jí),但是在實(shí)際應(yīng)用中需要昂貴的設(shè)備,比如單光子探測(cè)器和納秒脈沖激光(價(jià)值幾十萬(wàn)人民幣)。而這篇論文的方法只需要普通激光器和CMOS圖像傳感器,具有普遍適用性。
另外,合刃科技此次論文中采用的是非成像識(shí)別方法,比成像識(shí)別具有更好的簡(jiǎn)易型和魯棒性,無(wú)需昂貴的成像設(shè)備,算法中也無(wú)需復(fù)雜且耗時(shí)的圖像重構(gòu),從而具有更好的適用性和普遍推廣性。TOF方法一次數(shù)據(jù)采集和圖像重建需要數(shù)分鐘,但是該論文的方法用時(shí)不到一秒。當(dāng)然,該論文的方法也有需要改進(jìn)的地方,比如外界干擾(振動(dòng)等)可能引起散斑圖的漂移,從而降低識(shí)別準(zhǔn)確率。另外,經(jīng)過多次漫反射后,光強(qiáng)會(huì)減弱,從而降低信噪比和識(shí)別準(zhǔn)確率。因此,為提高非視距物體識(shí)別效果,后續(xù)需要更穩(wěn)定的硬件和更優(yōu)化的深度學(xué)習(xí)算法。
【未來(lái)】
在此次論文提出的非視距物體識(shí)別技術(shù)之外,合刃科技還致力于全息全頻機(jī)器機(jī)器視覺系統(tǒng)的研發(fā)和商業(yè)化。
全息全頻機(jī)器機(jī)器視覺系統(tǒng)從數(shù)據(jù)采集端進(jìn)行重新設(shè)計(jì),應(yīng)用了先進(jìn)的集成光學(xué)技術(shù),顛覆性的對(duì)CMOS圖像傳感器進(jìn)行納米結(jié)構(gòu)升級(jí),結(jié)合AI算法,軟硬件一體化采集多個(gè)維度的光學(xué)信息,實(shí)現(xiàn)傳統(tǒng)視覺傳感器和人類視覺所無(wú)法完成的多維度全息圖像信息采集。全面提升視覺識(shí)別性能,擴(kuò)展多種特殊應(yīng)用場(chǎng)合。
可以進(jìn)行障礙物體識(shí)別、雨霧環(huán)境等惡劣環(huán)境的物體識(shí)別、黑色、白色等背景色的物體識(shí)別、不明顯的瑕疵識(shí)別,解決拍照遭遇反光、對(duì)玻璃的無(wú)法拍照、光譜不夠多等目前計(jì)算機(jī)視覺領(lǐng)域的常見問題,技術(shù)將應(yīng)用于智能制造、安防、無(wú)人駕駛輔助駕駛、智能穿戴設(shè)備等多個(gè)領(lǐng)域。
光是一種電磁波,有很多的特征物理量,包含相位、光強(qiáng)、光譜、偏振、方向等信息。傳統(tǒng)的計(jì)算機(jī)視覺僅用到了光強(qiáng)信息,這就導(dǎo)致了原本豐富信息其實(shí)并未得到充分利用,這也將最終影響到識(shí)別的邊界和效果。
而此次論文提出的非視距物體識(shí)別技術(shù),在此基礎(chǔ)上僅增加了對(duì)相位信息的收集與利用,便能夠創(chuàng)造出如此豐富的應(yīng)用場(chǎng)景,解決多個(gè)領(lǐng)域里的難點(diǎn)痛點(diǎn)。隨著我們對(duì)“光”的進(jìn)一步探索,對(duì)更多的物理量進(jìn)行獲取與計(jì)算,必然能打破識(shí)別邊界。
光電+AI,這個(gè)世界遠(yuǎn)比我們能夠看到的更加豐富多彩。