深度學習后的計算機視覺應用領域解析
算機視覺是使用計算機及相關設備對生物視覺的一種模擬,是人工智能領域的一個重要部分,它主要任務是通過對采集的圖片或視頻進行處理以獲得相應場景的信息。
傳統的計算機視覺系統的主要目標是從圖像中提取特征,包括邊緣檢測、角點檢測、基于顏色的分割等子任務。傳統特征提取算法的方式有尺度不變特征變換匹配算法(SIFT)、加速魯棒特征算法(SURF)和二進制魯棒獨立基本特征(BRIEF)。根據輸入圖像的類型和質量,不同的算法執行的成功程度不同。最終,整個系統的準確性取決于提取特征的方法。
這種方法的主要問題是需要告訴系統在圖像中尋找哪些特性。本質上,假設算法按照設計者的定義運行,所提取的特征是人為設計的。在實現中,算法性能差可以通過微調來解決,但是,這樣的更改需要手工完成,并且針對特定的應用程序進行硬編碼,這對高質量計算機視覺的實現造成了很大的障礙。
不過,深度學習的出現解決了這一問題。當前,深度學習系統在處理一些相關子任務方面取得了重大進展。深度學習最大的不同之處在于,它不再通過精心編程的算法來搜索特定特征,而是訓練深度學習系統內的神經網絡。隨著深度學習系統提供的計算能力的增強,計算機將能夠識別并對它所看到的一切做出反應,這一點已經有了顯著的進展。在本文中,您將看到深度學習在計算機視覺分析中的5個應用。
1、圖像分類
圖像分類是為圖像指定標簽的任務。當圖像中有單個類并且在圖像中清晰可見時,這非常有用。例如,一張照片會被歸類為白天或夜間拍攝。此外,在交通領域,圖像分類可用于檢測汽車是否處于停車位,即停車位是否被占用。
2、帶定位的圖像分類
帶定位的圖像分類是一個更具挑戰性的圖像分類任務。這涉及到為圖像分配類標簽并通過邊界框,即在對象周圍繪制框,來顯示圖像中對象的位置。
在負責車輛識別的系統中,這一過程是必要的步驟。對于一個瀏覽汽車圖片的自動系統來說,當場景中只包含一輛汽車,該系統一旦確定了車輛的位置,就可以識別諸如品牌、型號和顏色等屬性。當圖片中有未知數量的物體時,這項任務就會變得困難。在大多數照片中,特別是在公共場所拍攝的照片中,會有很多可能性,比如不同的人、車輛、樹木等,這種情況就變成了目標檢測問題。
3、目標檢測
目標檢測適用于包含多個對象的圖片,是一個重要的研究領域。例如,用于機器人和自動駕駛汽車的計算機視覺系統會面對非常復雜的圖像。毫無疑問,定位和識別每一個物體無疑將是它們實現自動化的關鍵部分。
4、圖像重建
圖像重建是重建圖像缺失或損壞部分的任務。該任務可以被認為是一種沒有客觀評價的照片濾波器或變換。雖然,這確實有可能保證圖像的可見屬性能夠緊密匹配,但是要求計算機重新創建沒有參考的細節顯然是不合理的。因此,圖像重建系統有很大的局限性,很大程度上取決于有多少原始圖像可供學習。
一種用于圖像重建的模型被稱為像素遞歸神經網絡。這是一個利用遞歸神經網絡(RNN)來預測圖像在二維空間中缺失像素的系統。圖像重建應用的例子有照片的恢復或黑白電影。在自動駕駛汽車中,圖像重建可以用來觀察小型障礙物,比如車輛與被跟蹤行人之間的路標。
5、目標跟蹤
計算機視覺的一個重要目標是能夠識別一段時間內發生的事件。目標跟蹤就是這樣一個例子,目標是在圖像或視頻中跟蹤特定對象。目標跟蹤對幾乎所有包含多個圖像的計算機視覺系統都很重要。例如,在足球訓練中,通過目標跟蹤可以得到每個球員的時序位置信息,通過研究其體能和戰術特點,進行科學的訓練。
寫在最后:
近年來,深度學習的發展不僅突破了很多難以解決的視覺難題,提升了對于圖像認知的水平,更是加速了計算機視覺領域相關技術的進步。相信,隨著深度學習模型的改進和計算能力的不斷提升,自主系統能夠繼續穩步發展,真正實現可以解釋和反應它們所感知到的東西。