本文選自中國工程院院刊《中國工程科學》2024年第1期
作者:張濟遠,鄭雅菁,余肇飛,黃鐵軍
來源:面向自動駕駛場景的脈沖視覺研究[J].中國工程科學,2024,26(1):160-177.
編者按
自動駕駛是計算機視覺重要的研究方向,具有廣闊的應用前景。純視覺感知方案在自動駕駛場景中具有重要的研究價值。不同于傳統相機,脈沖視覺傳感器能更加靈敏地感受光子,具備比傳統視頻快千倍以上的成像速度,具有高時間分辨率、高動態范圍、低數據冗余和低功耗等優勢。
中國工程院院刊《中國工程科學》2024年第1期刊發視頻與視覺技術國家工程研究中心黃鐵軍教授研究團隊的《面向自動駕駛場景的脈沖視覺研究》一文。文章聚焦自動駕駛場景,介紹脈沖視覺原理,分析脈沖視覺在駕駛場景中的感知能力與優勢,總結脈沖影像重建方法,梳理脈沖視覺感知系統進展,最后分析自動駕駛場景中面臨的挑戰并提出未來研究方向。
一、前言
自動駕駛系統采用先進的通信、計算機、網絡和控制技術,對車輛實現實時、連續控制。智能的自動駕駛系統可有效地減少事故發生、緩解擁堵、提高道路運輸能力、減少駕駛壓力等。走向L4、L5級別的自動駕駛時代是未來發展趨勢,近年來,圍繞自動駕駛系統的相關研究取得了巨大進展。視覺相機、雷達、激光雷達等傳感器在自動駕駛感知系統中均起到重要作用。自動駕駛性能在很大程度上取決于感知系統。目前感知系統的主流技術方案有:以視覺相機為主的多傳感器融合方案;以激光雷達為主導、其他傳感器為輔助的技術方案;未來可能發展至純視覺感知的方案。視覺傳感器作為直接感知場景的信號源,在輔助理解駕駛場景方面發揮關鍵作用。
基于傳統快門相機的視覺算法研究已取得巨大進展,并達到可觀性能。傳統相機采用基于曝光的成像原理。曝光時間的長短將導致過曝或欠曝的成像問題,動態范圍較低。此外,離散的曝光過程使幀之間缺乏連續性,丟失了時域信息。
神經形態視覺的誕生旨在模擬生物視覺的感知原理及結構,相關硬件、軟件、算法及系統成為研究和應用重點。近年來,神經形態視覺不斷發展,新型視覺傳感器研發出來。主流傳感器按照采樣原理可以劃分為差分型傳感器和積分型傳感器。差分型傳感器以動態視覺傳感器為代表,感知每個像素的相對光強變化。然而動態視覺傳感器只記錄像素的相對亮度變化,對運動區域敏感而對靜止區域或紋理較弱區域不敏感。積分型傳感器以脈沖相機為代表,其可以有效記錄絕對光強,同時提供靜態和動態場景信息。脈沖相機的每個像素傳感器獨立并持續地接收光子,并僅在累積的光子達到閾值時觸發脈沖。因此,脈沖相機可以高時間分辨率產生連續脈沖流。脈沖流可以用來在任何給定時刻重建高質量場景影像。
動態視覺傳感器發展較早,研究內容豐富。早期的影像重建研究多使用優化、正則化及時間濾波等方案,之后深度學習(DL)方案占據主流。在場景理解任務中,使用動態視覺傳感器解決光流估計或目標跟蹤任務有一定天然優勢,事件流的產生往往代表著運動的邊緣,研究多基于此展開。目前也有許多研究針對深度估計展開以加強對傳感器三維場景的理解。
脈沖相機的采樣機制模擬生物視覺感知系統,其輸出數據以脈沖流形式呈現,具有高時域分辨率、低數據冗余、低功耗和高動態范圍的優勢。這些優勢彌補了傳統相機感知外部場景的缺陷,從而可以解決自動駕駛場景中的挑戰性難題。
文章聚焦自動駕駛場景,介紹脈沖視覺原理,分析脈沖視覺在駕駛場景中的感知能力與優勢;總結脈沖影像重建方法,討論傳感器融合技術路線;圍繞運動估計、目標感知、三維場景感知論述脈沖視覺場景感知方案。此外,文章梳理了脈沖視覺感知系統進展,分析了自動駕駛場景中面臨的挑戰,提出了未來研究方向。
二、脈沖視覺傳感器的成像原理與優勢
(一)脈沖視覺傳感器的成像原理
受靈長類動物視網膜中央凹采樣機制的啟發,脈沖相機直接記錄具有時空特征的光強信息。它以脈沖形式輸出二值流,其數據僅用0或1表示。脈沖相機主要由感光器、積分器和比較器三個部件組成,如圖1所示。
圖1 脈沖相機采樣原理示意圖
感光像素陣列在空間上排列在脈沖相機的感光器上,連續捕獲光子。接著,積分器持續將光信號轉換為電信號,以累積每個單元的電壓。比較器檢測累積電壓是否達到預設電壓閾值。當達到閾值時,脈沖被觸發,電壓將重置為預設值。一個像素上的脈沖生成過程可以表述為:
圖2所示為脈沖相機相較于動態視覺傳感器在相同光變化情況下的成像原理示意圖。
圖2 脈沖視覺傳感器脈沖產生原理圖
(二)脈沖視覺感知能力與優勢
傳統相機基于曝光原理成像,無法擺脫幀的概念,圖3直接展示了脈沖與圖像 / 視頻的成像區別。在傳統相機連續攝影過程中,每幀曝光時間小于兩幀時間間隔。傳統成像原理帶來兩個問題:第一,在類似駕駛等連續攝影的場景中,曝光時間的長短將影響成像質量進而影響感知能力,曝光時間過長將使場景過曝或引入運動模糊,曝光時間過短則欠曝或引入更多噪聲;第二,由于曝光時間小于幀間間隔,傳統相機的成像過程并不是連續的,丟失了時間連續性,致使感知算法無法充分利用時間上的特征。自動駕駛中許多復雜場景為傳統視覺感知算法帶來挑戰,在路況復雜、光線變化劇烈、光線不足或存在高速運動的場景中,傳統相機的感知會出現錯誤,存在數據采樣冗余大、動態范圍小和時間分辨率低等問題。
圖3 傳統相機與脈沖相機的成像效果圖
在適應極端環境能力方面,脈沖相機相較傳統相機存在感知優勢。傳統相機因存在上述成像上的特點,在駕駛場景中將導致感知能力上的局限性。然而,圖4所示的復雜駕駛場景中脈沖相機可以更好地感知環境,圖中三個示例分別呈現車輛高速駛過時類似鬼探頭的場景、車輛顛簸場景及光線較強時的場景。所示三種場景均使傳統相機感知質量下降,產生模糊或過曝效應;而脈沖相機可以較好地恢復這些挑戰性駕駛場景的高清、高動態影像。
圖4 車外交通環境中脈沖相機與傳統相機成像對比
圖4所示的室外交通環境中,街道監控或路口車輛交匯等具體場景常常出現高速車輛。對于此類車輛,傳統相機產生的劇烈模糊效應使其無法有效感知環境中的對象(如圖5所示,傳統相機拍攝的車輛等)。利用脈沖相機的成像優勢,高質量影像可從脈沖流中恢復出來,從而輔助高速駕駛場景中的視覺感知。圖5展示了直接利用脈沖流可以準確預測高速車輛的運動狀態,而傳統相機在劇烈模糊下無法有效估計車輛運動。
利用脈沖相機和傳統相機的傳感器融合方案,可以有效將脈沖流的高時間分辨率和傳統相機高空間分辨率的優勢結合起來,實現更優的感知能力。例如,傳統視覺和脈沖視覺融合可以恢復高動態范圍影像,使感知過程消除過曝、欠曝等極端問題;圖6利用脈沖相機消除視頻影像中的模糊效應等。實際應用中,常規速度情況下的駕駛感知可以只使用傳統相機,高速或光線極端情況下可以采用傳感器融合方案補償感知能力。
圖5 室外交通車輛高速行駛場景中脈沖相機與傳統相機運動感知能力對比
三、脈沖視覺影像重建
自動駕駛場景中快速且高質量的重構算法是非常重要的。傳統視覺領域中視覺算法研究豐富,脈沖視覺影像重建算法可以有效地將脈沖流轉化為視頻流并輸入現有視覺模型中,完成對環境的感知。
脈沖流是連續且不規則的,只包含0和1,人眼或機器無法直接觀測和理解場景信息。脈沖流的影像重建是最基礎且最重要的視覺任務,也是實現人眼從此類視覺信號中觀測場景的基本需求。本章將從兩方面闡述此類影像重建任務:直接從傳感器中恢復等分辨率、超分辨率或高動態范圍影像;借助和傳統相機融合方案實現更優影像重建效果。目前脈沖視覺影像重建研究工作豐富,圖7展示了脈沖影像重建算法沿時間的發展過程。
圖6 脈沖相機輔助傳統相機進行去模糊重建
圖7 脈沖視覺影像重建研究發展時間軸
(一)脈沖影像重建算法研究
1. 脈沖流直接影像重建算法
脈沖相機影像重建算法分為直接分析脈沖時序信息、基于優化的方案與基于深度學習的方案。早期研究直接分析脈沖信息,如統計脈沖數量或相鄰脈沖間關系等,早期重建算法在此基礎上被提出。對于高速運動,感受視野中的亮度變化很快。為捕捉瞬時亮度,只使用相鄰脈沖間隔(ISI)估計一個像素值,可以通過以下等式表示:
對于靜止場景,主要考慮噪聲影響。在重建中利用更多脈沖有利于降低噪聲。采用較大時間窗口來記錄特定時間段內的脈沖信號。TFP方法可用以下公式描述:
然而方法TFI和TFP都存在局限性。圖8所示為一個高速運動場景下的TFI(左)和TFP(右)重建結果。TFI方法重建的結果通常會受到脈沖流中的泊松噪聲、暗電流噪聲等影響而無法輸出穩定的信號。TFP方法重建的結果通常會因目標或場景運動幅度較大而產生模糊效應。使用手動超參數部署時間窗口存在局限性,窗口尺寸可選擇直接影像重建圖像質量?;诿}沖響應模型,可為紋理重建過程增加自適應性,通過動態閾值和脈沖發放后電位的自動調整以適應輸入的光電流。動態閾值可以看作是對輸入電流特征的學習過程,因此適用于描述紋理。
圖8 TFI與TFP影像重建效果圖
影像重建也可建模為優化的過程,考慮物體的運動并利用光流來對齊不同時刻的脈沖。在運動對齊之后,可以對信號采用沿運動軌跡的濾波,以利用時間相關性,同時不引入運動模糊。
基于DL方案在目前及未來將作為脈沖視覺重建的最佳解決方案之一。目前利用脈沖流直接進行影像重建可歸納為如圖9所示的四種模型:基于卷積神經網絡(CNN)的重建模型,基于循環神經網絡(RNN)的重建模型,基于Transformer的重建模型,基于脈沖神經網絡(SNN)的重建模型?;贑NN的算法考慮輸入一段脈沖流并重建中間時刻的清晰圖像。端到端模型選擇一個參考幀并將其周圍的一段連續脈沖流作為輸入,經計算輸出參考幀的影像。采用可變性卷積處理脈沖流的相關性并推斷光強是處理脈沖流時間相關性的有效策略。為了適應雨天、黃昏等不同照明條件場景,結合脈沖相機的物理噪聲模型及成像原理,并結合循環建模方案,能夠普適地將一般光照條件下的脈沖數據重構為高清影像。除此之外,增強脈沖影像重建普適性也可通過結合小波變換等頻域分析策略實現,將脈沖流轉換為魯棒的表征形式,以適應不用場景的重建。
圖9 基于深度學習的脈沖流直接影像重建算法方案
基于RNN的算法致力于輸入流式數據并流式地重建連續影像?;A模型設計可以使用如E2VID模型的U-Net結構及循環模塊結合的方案。為實現序列信息的有效利用,網絡的輸入為當前時刻脈沖流表征及此時刻前若干預測所得的重建圖像。然而此方法的參數量與推理速度均不理想,為此,可采用全程無下采樣順序連接的卷積層實現。循環結構的短板是推理過程中的早期重建圖像質量偏低,可通過改進E2VID的循環計算策略解決此問題。
加入Transformer結構的算法致力于使用非局部的注意力機智深層次挖掘時空關系。結合Transformer和CNN,ET-Net等模型因有效提取并融合了CNN的局部特征及Transformer的全局特征而獲得出眾的性能。
SNN是受生物學啟發的新一代人工神經網絡模型,是處理視覺任務的新工具,特別是在脈沖視覺領域有著巨大潛力,可探索生物系統中智能操作的本質,并通過數學模型推廣到人工智能模型,融合了受生物啟發的高效神經信息處理機制。此外,其網絡架構、配置可更好地匹配脈沖數據(神經元模型、學習規則、仿生結構等)以及擁有理想的低功耗特性,因此可以解決脈沖視覺感知任務。相比于傳統的人工神經網絡,以SNN為基礎設計的類視網膜圖像重建框架具備更好的生物合理性。采用時間上連續的脈沖數據,可以在任意采樣時刻重建圖像,利用SNN中的脈沖時間相關可塑性(STDP)學習規則驅動網絡學習動態與靜態區域,使得重建影像同時保留了高速運動和靜態背景的細節。
然而,類似上述基于能量的優化方式與神經元模型相結合是耗時的,從而削弱了脈沖相機低延遲的優勢。大腦的短時可塑性機制(STP)與脈沖流的動態過程有著強相關性,高速圖像重建提供可能性。使用脈沖流作為輸入,該方法推導出每個像素的時變放電頻率與突觸后神經元動力學之間的關系,并進一步推斷場景光強,重建圖像的像素值。此外,由于STP模型的動態過程會在脈沖發放率發生變化時在一個穩定值附近波動,因此在STP中引入了運動估計方法來增強重建結果。
為了克服脈沖相機有標簽數據的缺少及在真實環境的泛化性問題,自監督新范式將運動估計與影像重構聯合優化,實現無需標簽的強泛化性網絡框架。此外,彩色脈沖相機的去馬賽克算法,為脈沖相機重建真彩世界打開新的大門。
為了對比不同脈沖影像重建的方法,表1展示了目前脈沖相機主流影像重建方法在不同數據集上的結果對比。其中,真實動態場景數據集(REDS)模擬數據為利用現有圖像數據集模擬生成的脈沖數據,供深度學習模型訓練和驗證使用,PKU-Spike-High-Speed為真實世界中所拍攝的高速場景脈沖數據,用于模型的高速重建性能驗證。其中模擬數據集使用了峰值信噪比(PSNR)及平均結構相似性(SSIM)作為評價指標,真實數據集使用自然度圖像質量評估器(NIQE)及無參考圖像空間質量評估器(BRISQUE)作為主觀評價指標。
表1 脈沖流直接影像重建算法質量評價對比
2. 脈沖超分辨率影像重建算法
近年來,脈沖超分辨率影像重建研究主要集中在重建相同空間維度的強度圖像上,然而與傳統相機相比,脈沖相機的時間分辨率要高出三個數量級以上,由于數據存儲與傳輸效率的限制,感光空間分辨率往往不能很大。通過設計算法來從低分辨率(LR)數據重建高分辨率(HR)圖像,使此類脈沖流式數據可以更好地還原高分辨率的場景細節,彌補空間分辨率上的不足。
目前利用脈沖流直接進行超分辨率影像重建可歸納為如圖10所示的三種:基于優化方案的超分重建、基于RNN的超分重建模型、在脈沖域上直接進行超分。
圖10 脈沖流超分影像重建算法方案
在運動場景中,通過分析脈沖相機每個脈沖的產生原理,可以求解超空間分辨率下的光強。一個傳感器像素發放的脈沖不僅僅攜帶真實場景同一點的信息,而是攜帶一個局部空間上的多個位置的光強信息。這是由相機和物體之間的相對運動引起的,即每個脈沖都可以通過某種權重關系映射到場景中的任意位置上。該工作建模了所有脈沖對每個HR圖像上像素位置的權重方程,并優化求解。
近年來的研究多基于深度學習開展。由于場景或相機自身運動的存在,連續的像素值變化給超分提供了更多線索,大部分DL算法都基于RNN建模。利用光流計算不同時刻與參考時刻的像素運動關系后,可使用循環網絡優化超分結果。后續研究使用注意力機制代替光流計算,并加入可變形卷積進行特征對齊,取得了更優的性能。新的超分辨率框架Spike-SRNet,采用可變性卷積與循環神經網絡結合,建模了脈沖時序上的長程相關性。Xiang等直接利用光流估計提取了相鄰脈沖流之間的時空相關性。另外,部分研究將脈沖直接轉換為高空間分辨率的脈沖流,進而使重構、跟蹤等視覺任務均獲得性能的提升。也有研究使用無監督方案并利用對抗訓練實現超分重建。
3. 脈沖視覺高動態范圍影像重建算法
普通相機受到傳統成像原理的限制,其影像或圖片的動態范圍十分有限。在使用普通攝影設備對存在過暗、過亮部分的極端場景拍攝時,將會產生欠曝和過曝效果,從而損失畫面細節。在駕駛場景中,因劇烈光線變化或環境光條件限制,車輛視覺傳感設備或因為拍攝細節損失而導致感知能力下降。與傳統相機相比,脈沖相機的連續積分采樣原理使其具有高動態范圍的成像優勢,這為解決在黑暗等極端環境中的感知問題提供了有效工具。在連續脈沖流中,脈沖的稠密程度以及脈沖之間的間隔可以直接反映場景的光強信息,對光線較強或較暗部分均可進行較高質量地記錄。利用簡單U-Net網絡及對抗訓練獲得可觀效果。借助無監督域自適應方案,可完成低光下增強。利用注意力機制、循環網絡等深度學習算法也可以有效綜合時域中的高動態信息。
(二)視覺傳感器融合的重建算法研究
脈沖相機與傳統卷簾快門相機的成像原理不同,各自具備互補的優勢。傳統相機雖然無法以超高速完成攝像,但由于其發展時間長,更好的工藝而具備更優的成像質量(包括色彩質量、空間分辨率等)。在實際應用中,利用脈沖相機輔助進行影像重建及增強是重要的研究方向。傳感器融合的方案目前已在去模糊、超分辨率、高動態范圍重建、視頻插幀等任務取得進展。在自動駕駛場景中,高速場景往往需要應對模糊效應,而光線過強或過弱則需要高動態范圍成像解決,本節將分別從去模糊及高動態范圍重建展開介紹。
1. 脈沖流輔助去模糊算法
總結歸納在脈沖相機上的去模糊技術路線及基本思路,如圖11所示。首先,解決如何使用算法融合模糊圖像與脈沖流進行去模糊;其次,解決真實影像中每幀圖像的模糊情況。
圖11 脈沖輔助去模糊技術路線圖
在建模模糊圖像重建過程后,可以通過深度網絡提取脈沖流中的運動紋理特征并在特征域融合兩個模態信息。此外,脈沖流的稠密時序提供了物體運動方向的先驗,可以通過脈沖流學習額外的運動線索以對齊特征。運動估計也可以結合模糊一致性和光度一致性實現自監督方案。
在實際應用中,視頻影像每幀的模糊程度是不同的,且場景不一定總是存在模糊,這導致將模糊程度一致的圖像作為輸入的方案失效。為此,可獨立設計模糊檢測模塊以驅動模型自動尋找序列中不模糊的圖像幀,用以輔助訓練網絡。除了不同幀直接的模糊程度不同之外,同一幀不同區域像素具備不同模糊程度的情況。后續研究繼續將輸入條件松弛,可以做到輸入任意程度模糊的視頻影像,同時考慮到訓練數據和測試數據之間的時空分辨率不同時的泛化性問題。大多數研究都基于兩種傳感器坐標系是對齊的假設,因為供訓練的數據集是基于圖像集合成的??赏ㄟ^學習空間對齊機制以支持兩種模態輸入的坐標系不同軸的情況。
2. 脈沖流輔助高動態范圍重建算法
在自動駕駛場景中,在夜間或正午時段行駛,或在諸如存在強光反射、進出隧道等情況均會造成傳統相機過曝或欠曝。脈沖相機采用積分型原理相比動態視覺傳感器更加適于直接地記錄場景的光強信息。為了解決此問題,Han等通過累積一段脈沖序列作為模擬的光強圖像并融合低動態范圍(LDR)圖像恢復高動態。其方案將LDR圖像轉換至YUV域并將動態有源像素視覺傳感器(DAVIS)圖像通過可學習權重融合并最后通過色度補償融合為高動態范圍(HDR)圖像。也可輸入基于多次曝光的紅綠藍(RGB)圖像及脈沖流,并利用脈沖中的光流信息指導長時間曝光的圖像所丟失的時間信息,進而實現HDR。利用多次曝光的LDR圖像結合脈沖流的高頻和動態范圍信息,二者通過可變性卷積、注意力機制等深度學習模塊可以實現互補從而可達到更優的HDR重建效果。在實際應用中,難以實現多次曝光,利用視頻序列作為輸入以替代多次曝光HDR作為輸入的方案對落地自動駕駛更有價值。對于易出現的暗光場景,Liang等通過構建跨模態在時空上的相關性矩陣,建立了不同模態和分辨率之間的時空一致性。
四、脈沖視覺場景感知算法
(一)脈沖視覺高速運動估計算法
物體與場景的運動是在三維空間發生的,而光流估計是在無三維幾何和運動先驗的情況下計算成像平面上像素位移或物體速度的問題。光流反映了物體最基本的運動方向和幅度,在研究目標檢測、跟蹤、三維場景深度估計及場景重建等其他感知任務中可發揮至關重要的作用,有效準確估計物體及場景的運動狀態是自動駕駛領域眾多視覺算法的關鍵研究基礎。對于傳統相機,這個問題可被描述為尋找不同時刻兩個連續圖像之間的像素對應關系。然而,由于傳統圖像傳感器的動態范圍有限,且當存在運動模糊時基于圖像的方法將遇到巨大挑戰。
脈沖相機具有高動態范圍與高時間分辨率的優勢,為應對高速運動等極端挑戰性場景下的光流估計問題帶來新的解決方案。脈沖流由于其不規則的數據形式,無法直接提供絕對空間亮度信息以及空間上的連續信息,給光流估計算法帶來新的挑戰。目前相關研究一般需要借助一段脈沖流的累積信息以求解光流。相比于傳統相機,我們可以認為,脈沖相機產生的脈沖流是時間上連續的,因此理論上脈沖流中包含了整個三維空間上物體的連續運動信息。然而,在實踐中求解速度無法匹配流式數據產生的速度且對連續運動信息的求解將給硬件帶來巨大的計算量,因此現有研究普遍會在特定時刻計算光流,如在脈沖發放位置或在人工選擇的時刻,其中后者占據多數。
脈沖相機通過異步發放脈沖來編碼每個像素的絕對光強,攜帶豐富的紋理信息。在脈沖流中,一個基本的求解運動的思路是借助運動補償的思想。如圖12所示,在將脈沖沿著運動軌跡即光流對齊后,經過簡單TFP的重構后即可獲得消除運動的清晰影像,此圖像的對比度或清晰度在光流估計準確時應為最大的。對比度最大化框架可進一步擴展,設計目標函數將脈沖對齊至多個參考時刻以防止過度擬合,將軌跡模型優化以更好地處理遮擋,以及通過可通過空間進行多尺度變換來提高收斂性。
圖12 基于運動補償的光流估計框架
為保證理想性能,采用DL方案的脈沖光流估計將更加有效。圖13為采用DL方案的脈沖光流的四種技術路線。
圖13 基于深度學習的脈沖光流估計技術路線
基于脈沖流對齊的方案。第一項使用脈沖相機探索高速場景中的光流估計研究提出了一種新穎且面向脈沖流的輸入表征模塊的定制神經網絡架構SCFlow,允許自適應時間窗口選擇,以用于處理脈沖流中的固定方向卷積導致運動模糊無法去除的問題。時間窗口的選擇應該是根據運動信息動態變化的和有方向的??紤]有關動態視覺傳感器的基于對比度最大化的研究思路,在脈沖流上,如果時間窗口的方向與像素的運動軌跡一致,則時間窗口中的平均亮度會更接近像素在該時刻的亮度。為此,引入了脈沖流的一種新穎表征方式——光流引導的自適應窗口(FAW)。光流信息被迭代地用作窗口方向選擇的引導信息。該工作的網絡骨架采用了傳統相機光流估計的經典網絡PWC-Net。實驗結果證明,該方法不僅可以在真實脈沖數據上獲得不錯的結果,并領先于其他經典光流估計網絡架構。該研究對未來脈沖相機光流估計的研究提供了基準,同時提出了可用于大規模訓練的脈沖光流數據集以供脈沖視覺社區使用。
脈沖流的稠密光流估計方案。在目前的光流數據集上,序列數據中光流的真值限制在相同時間間隔上,且通常真值較為稀疏。前序光流估計算法以此建立訓練過程,無法充分利用脈沖數據的時域優勢。為解決此問題,可以將數據流分割為更加精細的片段并對齊時域上精細的運動特征,或采用序列學習的思路。Gehrig重新定義了光流估計任務,旨在計算每個像素在連續時間上的密集光流。Spike2Flow將脈沖光流估計在時域上細化并使用循環解碼聚合不同時刻上的空間特征,最后估計出一段脈沖流中的稠密光流。
基于RNN的脈沖光流估計方案。Gehrig等首次提出專為密集光流估計設計的CNN模型E-RAFT,利用匹配代價并引入循環結構以結合在時序上的先驗信息。
脈沖自監督光流估計方案?;谀:恢滦院凸舛纫恢滦约僭O,將光流估計和影像重建的聯合優化方案,克服了脈沖數據缺乏光流真值的難題。
傳統的計算機視覺方法以及ANN架構不適合與脈沖數據的不規則特性匹配。SNN是處理脈沖的理想架構,采用SNN進行模型的設計是可行的,同時可將SNN模型在神經形態硬件上實現,滿足高速推理的實時性需求。同時,為了克服SNN在網絡規模較大時的性能下降,可采用ANN與SNN混合建模的方案。
采用多模態的方案解決光流估計是目前新興的方向。結合圖像,可進行密集光流估計并可有效解決在只依賴脈沖數據難以估計可靠的密集光流的問題。最近也有研究探索了神經形態視覺傳感器同時與圖像、點云融合的新方案,將模態優勢互補,提高光流估計和場景流估計的性能。
(二)脈沖視覺目標檢測與跟蹤算法
目標檢測、跟蹤及分割是自動駕駛中的關鍵課題,這些高層視覺任務依賴于算法對場景高層語義的分析和提取能力,任務難度更大。傳統相機是自動駕駛中的關鍵感知元件,基于純視覺的自動駕駛方案在逐漸流行。在基于視覺的智能系統中準確、及時地檢測行人和車輛、正確地分析場景語義,對于無人駕駛發展和預防交通事故極為重要。由于脈沖相機具備高時間分辨率,其優勢可直接體現在高速目標或高速場景的檢測、跟蹤及分割任務上。對于目標檢測、跟蹤、分割等高層視覺任務,為保證在自動駕駛場景中的時效性及準確性,采用深度學習的方案更合理。
1. 目標檢測與跟蹤
在自動駕駛場景中,使用脈沖相機進行目標檢測與跟蹤的優勢是可以利用數據的時間連續性進行連續跟蹤且不容易丟失目標。脈沖視覺目標檢測跟蹤人物的關鍵點是保證性能與計算效率。結合脈沖相機發展與研究現狀,給出如圖14所示的幾種技術方案。
圖14 脈沖相機目標檢測與跟蹤技術路線
(1)采用脈沖流直接訓練神經網絡的方案。通過建立新的脈沖相機目標檢測跟蹤數據集,可以通過DL方案對脈沖流直接訓練。一種思路是每次輸入一小段脈沖,并使用現有網絡或設計新的網絡對脈沖訓練。通過循環建模的方式可提高模型對時域信息的建模能力,采用循環結構將脈沖流緊湊地表示到模型內部中的能力對于實現高精度檢測至關重要,同時可根據序列結構限制時間的一致性。
(2)采用脈沖域變換的訓練方案。由于脈沖的不規則性,現有計算機視覺生態中的網絡架構難以直接訓練達到最優性能,可以將脈沖域經過簡單高效的設計變換至圖像域并微調下游的圖像域目標檢測跟蹤網絡。
(3)圖像至脈沖的蒸餾訓練方案。在不建造新數據集的情況下,可以利用現有圖像數據集生成模擬脈沖,并利用現有基于圖像的網絡中間特征蒸餾至基于脈沖的網絡。也可采用網絡嫁接思路,使用專門處理脈沖流的前端網絡取代處理圖像幀的預訓練模型的前端網絡,使模型借助圖像信息完成自監督訓練,并且在推理階段只需要單模態的脈沖流。蒸餾方案的優勢是可保證脈沖在檢測任務上的性能。
(4)SNN方案。直接使用代理梯度可以訓練深度SNN實現目標檢測跟蹤,或使用SNN的生物啟發學習規則訓練。SNN中的生物啟發學習規則可以和脈沖流數據天然結合,實現無監督訓練框架,利用由脈沖相機捕捉的時空信息來捕獲固有的運動模式。該模型可以使用短時可塑性機制來過濾冗余信號,并使用STDP學習規則來提取運動模式,實現首個基于脈沖相機的檢測跟蹤模型。該團隊同時在硬件上實現了模型的部署,實現了實時高速檢測跟蹤。
(5)多模態融合方案,即將脈沖流與圖像幀或其他模態結合,完成目標檢測跟蹤任務。Li等提出了一種結合模態融合的用于車輛檢測的聯合框架,啟發了對于脈沖流的目標檢測,可通過SNN接收脈沖流作為輸入生成視覺注意力圖后與圖像流合并輸送至CNN中進行融合處理。脈沖相機和動態視覺相機(DVS)兩種脈沖流也可以有機結合,實現優勢互補,是脈沖視覺目標檢測的新范式。
目前基于脈沖相機的目標跟蹤研究還處于發展初期。未來基于脈沖相機的目標檢測跟蹤可以繼續挖掘SNN對脈沖建模的潛力,并嘗試在神經形態硬件上實現,真正實現對高效、高性能的脈沖目標進行檢測、跟蹤。
2. 目標分割
目標分割的目的是通過分析并提取視覺高層特征,將像素在空間上分成若干區域,并輔助定位目標位置或對場景進行分析,是自動駕駛中導航和場景理解的關鍵過程。目前基于脈沖相機的目標分割研究工作處于發展初期。
Zhang等首次探索了在脈沖流上完成語義分割任務。發掘充分表達時序和空間信息的脈沖表征是一個普遍需求,一個通用且有效的脈沖流表征可使脈沖視覺算法性能得到普遍提升。脈沖流包含豐富的時頻信息,而小波正是有效的頻譜分析工具。通過設計在時域上進行可學習的脈沖小波變換過程,脈沖被變換成為更加魯棒的視覺表示。在不重新設計下游語義分割網絡的情況下,其方法在多個現有的基于圖像的模型上獲得性能提升。
(三)脈沖視覺三維場景深度估計
深度估計是三維場景感知、理解的最關鍵任務之一,基于脈沖相機完成深度估計任務有著巨大的潛力。脈沖相機捕獲的脈沖流包含了更加緊密的時空相關性、連續的運動信息以及更加豐富的邊緣和紋理信息。因此,對基于異步的、高時間分辨率、高動態的脈沖數據流進行深度估計是一項完全不同于傳統相機的視覺任務。本節只考慮使用純視覺信號而不借助其他信號輔助(如結構光、激光雷達等)進行的研究工作。深度估計任務可分為單目深度估計和多目深度估計。對于單目深度估計,常使用多視角方案或DL算法完成;對于多目深度估計,可通過匹配算法計算視差或直接采用DL算法。
脈沖相機由于其積分型原理,比DVS系列相機更適合估計稠密深度圖。Zhang等首次提出了基于Transformer編碼器 ? 解碼器架構的脈沖相機單目深度估計算法,將脈沖流進行時空塊劃分并融合時域上的淺層局部特征和全局特征,并將編碼器使用有時空注意力機制的三維Transformer塊結構以從不同時空區域融合特征,輔助理解場景的結構信息。Wang等提出了第一個端到端學習脈沖相機立體深度估計網絡,命名為SSDEFormer,其利用雙目之間的交叉注意力,建立了雙目直接脈沖流特征的關系。該項研究構建了一個混合攝像機平臺,提供了一個新的立體深度估計數據集(即PKU-Spike-Stereo)用于脈沖相機的雙目深度估計研究。
五、面向自動駕駛的脈沖感知系統
在自動駕駛等應用中,完整的感知與計算過程,即先使用脈沖相機并結合傳統相機等其他視覺傳感器作為信息采集裝置獲取場景信息;通過軟硬件接口對視覺數據進行預處理,使其轉換為計算設備可處理的形式;最后將數據輸入視覺處理算法,進行對場景的感知計算并進一步發送到駕駛控制系統等。
在數據方面,目前已有成熟軟件接口實現將Windows/Linux等多種處理系統直接連接脈沖相機以實現數據采集。對于面向脈沖相機的視覺算法研究,影像重建相關任務大多需要同步且標定的脈沖和圖像數據供模型訓練使用,目前大多數的研究采用分光鏡裝置使脈沖相機和傳統相機同時采集場景數據。對于光流估計、目標檢測跟蹤、深度估計等需要復雜標簽的視覺任務,研究大多采用通過現有帶標簽的視頻數據集生成高幀率視頻后模擬生成脈沖供模型訓練和驗證。表2匯總了目前脈沖相機相關的所有開源數據集,其中包含了多種影像重建、目標識別檢測跟蹤、深度估計、光流估計、語義分割等視覺任務所需的數據。在所列數據集中,半數以上為駕駛場景數據,可為室外駕駛環境感知算法的設計提供便利。
表2 脈沖相機針對各項視覺任務已建立的數據庫匯總
計算方面的難點在于實際應用中,即如何將脈沖相機數據采集、數據處理及感知計算的全過程統一。目前針對脈沖相機的開源平臺SpikeCV已建立,主要針對脈沖相機數據、算法、應用的一體化需求開發。SpikeCV框架對脈沖相機數據集進行了封裝設計,并針對相機設計了設備接口并整合了多種面向脈沖相機的視覺處理算法,便于開發者輕松構建脈沖視覺應用??蚣軐﹄x線數據集以及在線采集過程進行了標準化設計,使用戶可以簡易地使用脈沖相機部署于視覺應用開發系統中。在接口層面,提供了對硬件友好的C++接口和用戶友好的Python接口供用戶調用。為了實現感知計算的統一,該平臺支持各型號脈沖相機硬件采集、數據處理與下游視覺任務模型計算的同步且實時的流水線。
六、面向自動駕駛的脈沖視覺研究挑戰
目前,基于脈沖的視覺感知任務研究已經具備一定規模且處于不斷上升期。本節分析自動駕駛場景中脈沖視覺感知的研究挑戰并提供未來研究方向,為未來脈沖相機與自動駕駛的高度融合賦能。
第一,脈沖流相較于圖像格式是不規則的二值形式,且往往因硬件等原因數據易摻雜噪聲,從而引起算法的失效。有效消除噪聲或設計算法對噪聲魯棒是一項難題。在硬件層面,通過額外的電路設計統計在無光照條件下傳感器的暗電流噪聲分布,并將此部分噪聲從脈沖流中減去。在算法層面,可以針對不同噪聲類型手工設計去噪算法或通過學習的方式建模使模型學習噪聲分布或自適應地抗噪特性。大多數面向脈沖相機的深度學習模型均在模擬脈沖數據集上訓練,而模擬數據欠缺考慮真實脈沖噪聲,可對數據集加入噪聲進行數據增強以實現模型對噪聲的適應性。
第二,脈沖視覺算法在真實自動駕駛場景中的泛化性。目前面向脈沖相機的深度學習模型多使用模擬數據集進行訓練,模擬數據集除欠缺考慮真實噪聲分布外,其脈沖流與真實脈沖相機所拍攝脈沖流依然存在一定差別。① 模擬數據中的生成脈沖過程較為簡單,難以建模真實世界光子到達的過程,且其模擬的光強與真實世界光強有一定區別;② 脈沖相機的硬件電路較為復雜,模擬過程無法完全復現電路層面傳感的過程。此外,供模型訓練的數據集場景可能不是道路、街道等駕駛場景。上述兩種原因將導致目前脈沖視覺算法在真實自動駕駛環境中的泛化有一定局限性。針對該挑戰性問題,可對大型數據集的脈沖模擬過程做更精細化的建模,如更加細粒度地模擬不同時刻的光照變化,將脈沖流的產生增加隨機性。同時,也可通過擴大模型、擴展數據集等方式使模型的泛化能力提高;也可對模型采用大數據預訓練、小數據微調的策略以針對不同場景、不同任務增強性能。
第三,脈沖相機往往可在高速、過曝等極端場景中發揮最大優勢,目前單獨使用脈沖相機作為傳感器做到在所有視覺任務上超越傳統相機的性能具有挑戰性。突破脈沖相機目前的感知算法性能上限是一個大課題。從脈沖視覺算法模型設計考慮,未來的模型設計可聚焦于時序建模,將算法側重于利用脈沖時域,連續性挖掘其對動態場景感知的優勢和潛力。例如,目前采用RNN / SNN的建模方案或許可以突破相機對單一時刻的感知能力,增強對場景的連續感知能力。
第四,傳統相機盡管在動態范圍及成像速度上不及脈沖相機,但其制造工藝發展時間長,成像質量好,且相關視覺感知算法及系統性能優秀、成熟,更好地融合或借助傳統相機、圖像域算法是一個重要機遇。可行方案有兩種:一是蒸餾算法,二是域適應算法。脈沖流雖只包含0、1數據,其與圖像之間的模態距離相較于點云、語音等數據更近,可采用蒸餾算法設計,將應用于圖像或視頻的大型模型蒸餾至脈沖相機視覺模型中,從而使模型快速學習已有知識。也可使用域適應思路,通過對抗馴良等方式將脈沖及圖像在特征域上的距離拉近,從而對齊兩種數據域。
第五,脈沖相機的低延遲和視覺感知算法速度的匹配十分困難。脈沖相機以40 000 Hz的頻率輸出脈沖流,一些算法需充分利用脈沖流的時間連續性展開計算,但大部分深度學習模型的推理速度最高只能達到每秒數百次推理的速度,使得數據和算法之間的速度無法匹配,進而無法真正用于超高速場景。在算法層面,通過模型剪枝、量化等方法可以實現推理加速;在硬件層面,通過并行或特殊電路設計可實現加速。
第六,自動駕駛系統中的脈沖相機與多種車載傳感器協同感知是目前系統層面主要的技術難題之一。其關鍵點在于如何使超高時間分辨率脈沖流與其他低時間分辨率模態數據同步,且采用何種算法融合多模態數據并有效提高感知能力。針對數據同步問題,一個潛在的解決方案是,將車載系統的精確時鐘信號與脈沖相機在硬件電路層面融合,使脈沖流可獲得額外精確絕對時間戳信息,以達到與其他車載系統中的傳感器同步。車輛主要傳感器包括傳統相機、激光雷達等,設計新的多模態算法融合脈沖流信息增強感知能力是目前未探索的方向。
七、結語
針對上述幾項挑戰性問題及脈沖視覺感知算法的研究進展,提出五項具有建設性的未來研究方向如圖15所示,均對自動駕駛場景有重要價值。研究認為探索脈沖相機的預訓練模型、脈沖視覺適配器、多模態模型、SNN、脈沖三維視覺這五個方向的研究具有重要價值。
圖15 脈沖視覺研究新方向示意圖
第一,視覺預訓練模型是統一地解決多種下游視覺任務的重要路線。通過生成大型脈沖數據集、構造脈沖友好的自監督預訓練模型,可以有效解決現有小型單一模型的精確率和泛化性問題。同時大型的預訓練模型可加強模型對脈沖流的特征提取能力,有效消除數據中噪聲帶來的影響。第二,研究輕量化的、有效的脈沖視覺適配器。脈沖流和RGB圖像有著一定的數據域差別,建立脈沖視覺適配器的目標是以一個小型的網絡或模塊與圖像域視覺模型連接,通過設計學習算法使得脈沖可以快速與圖像在特征域上對齊進而達到最優性能。第三,結合脈沖相機建立多模態視覺模型。目前部分研究已經證明了使用脈沖流作為輔助并結合圖像、點云等模態數據可以有效提升性能以及在極端場景的感知能力。圖像和脈沖之間存在互補關系,分別占據了時間和空間上的不同優勢。另外,在自動駕駛中,與激光雷達、深度相機、多目環視相機等傳感器設置有機融合均有一定潛力。第四,探索深層的、復雜的SNN模型。SNN已被證實有著低能耗的優勢,且天然適配脈沖數據。結合神經形態硬件的部署實現,可以顯著加速模型的推理,從而緩解數據和算法之間速度無法匹配的難題。第五,發展脈沖視覺三維模型。在自動駕駛場景中,車輛或場景總是在運動的,在運動過程中感知三維世界是困難的。脈沖相機的高時間分辨率可以為三維世界提供連續時間線索,即提供連續的視角變換,為三維視覺感知能力突破賦能。
注:本文內容呈現略有調整,若需可查看原文。