中國投資界 > 商業 > 正文

一文帶你了解機器人是如何通過視覺實現目標跟蹤的

時間：2022-04-13 08:58:14 來源：TechWeb 閱讀量：6391

Abstract:視覺跟蹤技術是計算機視覺領域的一個重要課題，有著重要的研究意義在軍事制導，視頻監控，機器人視覺導航，人機交互，以及醫療診斷等許多方面有著廣泛的應用前景伴隨著研究人員不斷地深入研究，視覺目標跟蹤在近十幾年里有了突破性的進展，使得視覺跟蹤算法不僅僅局限于傳統的機器學習方法，更是結合了近些年人工智能熱潮mdash，深度學習和相關濾波器等方法本文主要介紹以下幾點:什么是視覺目標跟蹤，單目標跟蹤的基本結構，目標跟蹤存在的挑戰，目標跟蹤經典相關方法及研究趨勢等

01單目標跟蹤任務簡介

目標跟蹤是計算機視覺領域的一個重要問題，目前廣泛應用在體育賽事轉播，安防監控和無人機，無人車，機器人等領域下面是一些應用的例子

車輛跟蹤

足球比賽

田徑比賽

視覺目標跟蹤是指對圖像序列中的運動目標進行檢測，提取，識別和跟蹤，獲得運動目標的運動參數，如位置，速度，加速度和運動軌跡等，從而進行下一步的處理與分析，實現對運動目標的行為理解，以完成更高一級的檢測任務。

其具體任務即根據所跟蹤的視頻序列給定初始幀的目標狀態，預測后續幀中該目標狀態。基本結構如下:

基本流程:輸入初始幀并指定期望跟蹤的目標，通常用矩形框標定，在下一幀中產生眾多候選框并提取這些候選框的特征，觀測模型對這些候選框評分最后在這些評分中找一個得分最高的候選框作為預測的目標，或者對多個預測值進行融合得到更優的預測目標至此算法完成了根據第一幀的信息對第二幀的預測，后續幀以此類推，同時根據指定規則更新模型

根據如上的框架，將目標跟蹤劃分為五項主要的研究內容，流程圖下圖所示:

流程圖

運動模型:如何產生眾多的候選樣本特征提取:利用何種特征表示目標觀測模型:如何對眾多候選樣本評分模型更新:如何更新觀測模型使其適應目標的變化集成方法:如何融合多個決策獲得一個更有的決策結構

下圖的總結可以幫助更好的理解目標跟蹤算法是如何完成跟蹤任務的。

跟蹤任務流程

02目標跟蹤算法分類

大多數的跟蹤方法主要集中對觀測模型的設計，根據觀測模型的不同可分為兩類:生成式模型和判別式模型。

生成式模型:通過提取目標特征來構建表觀模型，然后在圖像中搜索與模型最匹配的區域作為跟蹤結果不論采用全局特征還是局部特征，生成式模型的本質是在目標表示的高維空間中，找到與目標模型最相鄰的候選目標作為當前估計此類方法的缺陷在于只關注目標信息，而忽略了背景信息，在目標外觀發生劇烈變化或者遮擋時候容易出現目標漂移或者目標丟失

舉例:跟蹤器從當前幀知道了目標區域80%是紅色，20%是綠色，在下一幀中搜索算法回去找最符合這個顏色比例的區域。

生成式算法框架

判別式方法:將目標跟蹤看做是一個二元分類問題，通過訓練關于目標和背景的分類器將目標從背景中分離出來，從候選目標中確定目標，該方法可以顯著的區分背景和目標，性能魯棒，漸漸成為目標跟蹤領域主流方法且目前大多數基于深度學習的目標跟蹤算法也屬于判別式方法

舉例:在訓練時告訴跟蹤器，目標80%是紅色，20%是綠色，同時背景中有桔紅色，要格外注意，這樣分類器知道更多信息，效果也相對較好。

判別式算法框架

03目標跟蹤任務的困難和挑戰

雖然目標追蹤的應用前景非常廣泛，但還是有一些問題限制了它的應用，主要問題例舉如下:

形態變化— 姿態變化是目標跟蹤中常見的干擾問題運動目標發生姿態變化時，會導致它的特征以及外觀模型發生改變，容易導致跟蹤失敗例如:體育比賽中的運動員，馬路上的行人尺度變化— 尺度的自適應也是目標跟蹤中的關鍵問題當目標尺度縮小時，由于跟蹤框不能自適應跟蹤，會將很多背景信息包含在內，導致目標模型的更新錯誤:當目標尺度增大時，由于跟蹤框不能將目標完全包括在內，跟蹤框內目標信息不全，也會導致目標模型的更新錯誤因此，實現尺度自適應跟蹤是十分必要的遮擋與消失— 目標在運動過程中可能出現被遮擋或者短暫的消失情況當這種情況發生時，跟蹤框容易將遮擋物以及背景信息包含在跟蹤框內，會導致后續幀中的跟蹤目標漂移到遮擋物上面若目標被完全遮擋時，由于找不到目標的對應模型，會導致跟蹤失敗圖像模糊— 光照強度變化，目標快速運動，低分辨率等情況會導致目標模糊，尤其是在運動目標與背景相似的情況下更為明顯因此，選擇有效的特征對目標和背景進行區分非常必要

下圖是上述問題的一些實例。

目標跟蹤任務中的困難與挑戰

如上圖所示，目標跟蹤任務中的困難和挑戰包括:

1.形變，2.光照變化，3.相似干擾，4.運動模糊，5.背景干擾，6.遮擋，7.超出畫面，8.尺度變化，9.平面外宣傳，10.平面內旋轉，11.背景相似

04目標跟蹤的數據庫

嚴謹的數據集是驅動算法的關鍵，前幾年目標跟蹤方向的數據庫資源相對匱乏，這也是目標跟蹤的發展相對落后于目標檢測的重要原因之一下面簡要介紹了兩個權威的目標跟蹤方向的數據庫

OTB50數據集

OTB可以說是做單目標跟蹤必跑的數據庫了，2013年的OTB50包含50個人工標注的視頻序列由于在此之前目標跟蹤方向沒有比較公認的數據庫，所有的單跟蹤算法沒有一個統一的衡量，所以這個數據庫的意義非常重大，直接促進了單目標跟蹤算法的發展后來又擴展為OTB100發送到TPAMI，有100個序列，難度更大更加權威如果想要了解最近幾年來比較厲害的跟蹤算法，可以參考吳毅老師的論文

VOT數據庫

05目標跟蹤經典算法

前幾年最熱門的生成式跟蹤方法是稀疏編碼，而近來判別式跟蹤方法逐漸占據了主流地位，以相關濾波和深度學習為代表的判別式方法取得了令人滿意的效果本節按年份順序對經典算法進行一個簡單地梳理，其中各個算法的年份以論文發表的年份或者參加benchmark的年份為依據，幫助理解單目標跟蹤算法的演變和發展趨勢針對于不同的跟蹤任務的挑戰各個算法所提出的解決思想值得我們學習體會，跟蹤算法的發展趨勢可見一斑

1981LK Tracker 1981

LK Tracker應該是最早的目標跟蹤工作，它使用了光流的概念，如下圖所示，不同顏色表示光流不同的方向，顏色的深淺表示運動的速度光流的計算非常簡單也非常快，但是它的魯棒性不好，基本上只能對平移且外觀不變的物體進行跟蹤

光流法

2002Mean Shift

Mean Shift采用均值漂移作為搜索策略，這是一種無參概率估計方法，該方法利用圖像特征直方圖構造空間平滑的概率密度函數，通過沿著概率密度函數的梯度方向迭代，搜索函數局部最大值在當時成為了常用的目標跟蹤方法，簡單易實現，但魯棒性較低

MeanShift算法

2010MOSSE

MOSSE使用相關濾波來做目標跟蹤，其速度能夠達到600多幀每秒，但是效果一般，主要是因為它只使用了簡單的原始像素特征。

大致流程:

再入初始幀的groundtruth對當前目標框進行隨機仿射變換生成128個樣本，每個樣本經過高斯函數計算得出響應值，最終結合公式得出濾波器模版根據模版計算得出第二幀的響應圖，其中響應值最大的點為第二幀目標的中心點，并以此畫出目標框

MOSSE算法

2012CSK

循環矩陣是一種特殊的矩陣，它的一維形式就是由一個n維向量每次向右循環移動一個元素，直到生成一個ntimes，n的矩陣，具體效果如下圖所示。

循環矩陣示意圖

2014KCF

CSK的特征輸入是單通道的灰度像素，而KCF利用的是HOG多通道特征，核函數利用了高斯核函數。

方向梯度特征效果圖

可以說CSK和KCF的結合才是完整的核化相關濾波器的演變趨勢，既有循環矩陣及傅立葉對角化簡化計算，又有對單通道特種應用的拓展，可以適應更多優秀的特征描述。

DSST

2015MDNet

在離線訓練時，特征提取網絡是共享的，同時針對每個視頻序列構建一個新的檢測分支進行訓練這樣特征提取網絡可以學習到通用性更強的與域無關的特征

在跟蹤時，保留并固定特征提取網絡，針對跟蹤序列構建一個新的分支檢測部分，用第一幀樣本在線訓練檢測部分之后再利用跟蹤結果生成正負樣本來微調檢測分支。

此外，MDNet在訓練中負樣本的生成用到了難例挖掘技術，伴隨著訓練的進行增大樣本的分類難度，從而使得網絡的判別能力越來越強。

如下圖所示，負樣本越來越難分。

難例挖掘

SRDCF

邊界效應

SRDCE空間正則化

HCF

HCF的主要貢獻是把相關濾波中的HOG特征換成了深度特征，它使用的是VGG的3，4，5三個層來提取特征，針對每層CNN訓練一個過濾器，并且按照從深到淺的順序使用相關濾波，然后利用深層得到的結果來引導淺層從而減少搜索空間。

HCF算法提取深度特征

上圖是使用卷積可視化得到的，如圖中所示，在conv3中的特征能夠比較清晰的看到目標的輪廓，但是在conv5中已經很難看到細節所在，但是，在conv5當中能夠看到的是，本層特征包含了較多的語義信息，左半部分的高亮區域就是目標位置的所在的大概區域范圍，所以在高層特征當中，能夠很容易的找到目標所在的大概區域范圍，然后逐步使用較低層次的特征對目標進行精確定位。

2016Staple

此算法的創新思路簡單直白，但效果很驚艷。

TCNN

TCNN樹形結構更新示例

siamFC

SiamFC方法的核心思想很簡單，就是將跟蹤過程規劃為一個相似性學習問題即學習一個函數 f 來比較樣本圖像 z 和搜索圖像 x 的相似性，如果兩個圖像相似度越高，則得分越高為了找到在下一幀圖像中目標的位置，可以通過測試所有目標可能出現的位置，將相似度最大的位置作為目標的預測位置

在深度學習中處理相似度問題最典型的是采用Siamese架構，SiamFC的網絡結構如下圖:

SiamFC網絡結構

2017CFNet

2018UPDT

SiamRPN

SiamRPN在SiamFC的基礎上利用了Faster RCNN中的RPN，解決了之前深度學習跟蹤算法沒有domain specific以及還需額外的尺度檢測與在線微調的問題RPN回歸網絡的引入，一方面提高了精度，另一方面回歸過程代替多尺度檢測，使得速度有所提升

SiamRPN網絡結構

2019SiamRCNN

SiamRCNN發現重檢測很容易受到干擾物的影響從而產生模型漂移，從難例挖掘和運動軌跡動態規劃兩個角度入手，設計了一個利用第一幀和前一幀為模板的孿生網絡檢測結構，在短時跟蹤評價上效果驚人，在長時跟蹤評價上也有非常顯著的進步。

其中軌跡動態規劃算法主要思想是通過重新檢測前一幀中所有的目標候選框，并將這些候選框隨時間分組到短目標軌跡中，同時跟蹤所有潛在的目標，包括干擾目標然后根據視頻中所有目標對象和干擾對象的完整歷史軌跡選擇當前最佳對象

2020RPT框架

RPT算法框架由目標狀態估計網絡與在線分類網絡兩部分組成:

目標狀態估計網絡將跟蹤目標狀態表示為特征點集，以提升對目標位姿變化，幾何結構變化的建模能力在視覺目標跟蹤任務中，為了方便真值標注與特征提取，目標狀態通常用矩形框進行表示矩形框一方面是對目標區域的一種粗略表示，包含多余的背景，另一方面不具備對目標位姿變化，幾何結構變化的建模能力，進而限制了回歸精度因此，將跟蹤目標表示為一系列特征點，通過監督學習目標區域內的語義關鍵點與極值點，實現更精細的目標狀態估計

PRT目標狀態估計網絡

在線分類網絡由輕量的兩層全卷積神經網絡構成，使得RPT框架具備對抗周邊相似干擾物的強魯棒性。

RPT在線分類網絡

06目標跟蹤的研究趨勢

本節淺析近幾年來目標跟蹤領域各種算法主流的研究趨勢和發展方向。

a)信息提取深度特征

在現實場景中，物體是在三維的運動場中移動的而視頻或圖像序列都是二維的信息，這其實是一些難題的根本原因之一一個比較極端的例子就是理發店門前經常會出現的旋轉柱，如果單純地從二維角度來看，柱子是向上運動的，可在實際的運動場中柱子是橫向運動的，觀測和實際的運動方向是完全垂直的

旋轉柱效果圖

因此，為了能夠更好地跟蹤目標，我們需要提取盡可能好的特征，此外最好能從視頻或圖像序列中學到更多豐富的信息。北極光創投合伙人黃河表示，據其不完全統計，2021年上半年機器人行業共有112起融資，融資金額高達130億元(人民幣，下同)，單筆融資平均值達到16億元。

時域和空間域結合

由于CNN能夠在學習的過程中能夠產生對樣本中各個區域有區分的關注度，因此可以不考慮邊界效應對邊界效應的處理主要是在相關濾波類等需要循環移位的算法中出現

事實上，目標跟蹤這一個任務本身就在利用時域信息，因為預測下一幀肯定需要上一幀的信息，可是僅僅利用上一幀的信息往往是不夠的，充分的利用時域信息在正則或者輔助記憶方面都可以取得一定的效果。。