LCD屏幕上實時顯示的是經(jīng)典的MNIST手寫數(shù)據(jù)集,當(dāng)攜帶MNIST數(shù)字信息的相干光經(jīng)過擋板漫反射后,形成散斑圖。如下圖所示,分別是數(shù)字0-9及其對應(yīng)的散斑圖。由于散射和干涉的作用,所有的圖像都布滿散斑。
所有的數(shù)據(jù)(散斑圖)經(jīng)過預(yù)處理后結(jié)合AI算法,實現(xiàn)障礙物后面的數(shù)字變化的實時識別。散斑圖像的任一部分都包含了整個被識別物體的信息,因此,即使是散斑圖的很小的一個部分,也可以用來進行物體識別。也就是說,散斑圖像不同大小的裁剪和圖像的不同位置,并不影響最終的識別效果。
為充分探尋該方法的適用性,研究人員還針對不同場景進行了實驗。包括經(jīng)過一面墻反射的散斑識別,經(jīng)過兩面墻反射的散斑識別,經(jīng)過旋轉(zhuǎn)墻反射的散斑識別,以及光源和視覺傳感器位于同側(cè)的散斑識別。所有實驗的平均識別準(zhǔn)確率高達91%以上。如下表是每個實驗的具體識別率。
數(shù)字還遠遠不夠,該論文還驗證了障礙物后的人體姿態(tài)識別。如下圖為12個人的同一個姿態(tài)對應(yīng)的各自散斑圖,可以看出,人體姿態(tài)識別包含了更多的復(fù)雜特征。即使是同一個動作,不同的人也會有顯著差異。但是通過相應(yīng)的AI算法,可以從散斑圖像中提煉出隱含的相同特征,從而實現(xiàn)姿態(tài)的識別。
下圖為同一個人展示的10種不同的姿態(tài),及其對應(yīng)的散斑圖。區(qū)分不同散斑圖的特征,可以實現(xiàn)不同姿態(tài)的識別。
通過深度學(xué)習(xí)的AI算法處理,以11個人的姿態(tài)作為訓(xùn)練樣本,剩下的1個人做測試,遍歷12個人(12次實驗),得到的平均識別準(zhǔn)確率為78.18%,高于現(xiàn)有的3姿態(tài)識別的論文報道的準(zhǔn)確率76.6%。10個不同姿態(tài)的混淆矩陣如下:
該姿態(tài)識別的研究,在安防監(jiān)控領(lǐng)域有廣泛應(yīng)用場景。比如識別被遮擋角落的危險行為,包括打架斗毆或其他有危險性的動作、軍事及反恐行動中環(huán)境隱藏偵查,以及消防救援時獲取屋內(nèi)被困人員的信息等。
被遮擋角落的危險行為檢測示意
【相關(guān)研究】
該論文的方法跟其他的非視域識別相比,有不少優(yōu)勢。
比如熟知的TOF(Time of Flight)飛行時間法。雖然TOF方法對非視域物體的重構(gòu)精度能達到厘米量級,但是在實際應(yīng)用中需要昂貴的設(shè)備,比如單光子探測器和納秒脈沖激光(價值幾十萬人民幣)。而這篇論文的方法只需要普通激光器和CMOS圖像傳感器,具有普遍適用性。
另外,合刃科技此次論文中采用的是非成像識別方法,比成像識別具有更好的簡易型和魯棒性,無需昂貴的成像設(shè)備,算法中也無需復(fù)雜且耗時的圖像重構(gòu),從而具有更好的適用性和普遍推廣性。TOF方法一次數(shù)據(jù)采集和圖像重建需要數(shù)分鐘,但是該論文的方法用時不到一秒。當(dāng)然,該論文的方法也有需要改進的地方,比如外界干擾(振動等)可能引起散斑圖的漂移,從而降低識別準(zhǔn)確率。另外,經(jīng)過多次漫反射后,光強會減弱,從而降低信噪比和識別準(zhǔn)確率。因此,為提高非視距物體識別效果,后續(xù)需要更穩(wěn)定的硬件和更優(yōu)化的深度學(xué)習(xí)算法。
【未來】
在此次論文提出的非視距物體識別技術(shù)之外,合刃科技還致力于全息全頻機器機器視覺系統(tǒng)的研發(fā)和商業(yè)化。
全息全頻機器機器視覺系統(tǒng)從數(shù)據(jù)采集端進行重新設(shè)計,應(yīng)用了先進的集成光學(xué)技術(shù),顛覆性的對CMOS圖像傳感器進行納米結(jié)構(gòu)升級,結(jié)合AI算法,軟硬件一體化采集多個維度的光學(xué)信息,實現(xiàn)傳統(tǒng)視覺傳感器和人類視覺所無法完成的多維度全息圖像信息采集。全面提升視覺識別性能,擴展多種特殊應(yīng)用場合。
可以進行障礙物體識別、雨霧環(huán)境等惡劣環(huán)境的物體識別、黑色、白色等背景色的物體識別、不明顯的瑕疵識別,解決拍照遭遇反光、對玻璃的無法拍照、光譜不夠多等目前計算機視覺領(lǐng)域的常見問題,技術(shù)將應(yīng)用于智能制造、安防、無人駕駛輔助駕駛、智能穿戴設(shè)備等多個領(lǐng)域。
光是一種電磁波,有很多的特征物理量,包含相位、光強、光譜、偏振、方向等信息。傳統(tǒng)的計算機視覺僅用到了光強信息,這就導(dǎo)致了原本豐富信息其實并未得到充分利用,這也將最終影響到識別的邊界和效果。
而此次論文提出的非視距物體識別技術(shù),在此基礎(chǔ)上僅增加了對相位信息的收集與利用,便能夠創(chuàng)造出如此豐富的應(yīng)用場景,解決多個領(lǐng)域里的難點痛點。隨著我們對“光”的進一步探索,對更多的物理量進行獲取與計算,必然能打破識別邊界。
光電+AI,這個世界遠比我們能夠看到的更加豐富多彩。