語音播報
近日,中國科學院自動化研究所智能感知與計算研究中心研究員張兆翔及其團隊借鑒腦神經(jīng)機制與視覺認知機理,在視覺物體檢測模型與方法上取得一系列進展,共有5篇文章被ICCV2019錄用,1篇文章被NeurIPS2019錄用,1篇文章被JMLR 期刊收錄。本次著重介紹基于三叉戟網(wǎng)絡(luò)(Trident Networks)的物體檢測。
物體檢測是計算機視覺與模式識別領(lǐng)域的核心問題,一直以來受到學術(shù)界與工業(yè)界的廣泛關(guān)注。當前物體檢測最大的難點是如何對場景中多種尺度的物體進行有效表征,進而進行更為高效、更為準確、更為魯棒的物體檢測。
在二維透視成像中,近大遠小是一個常見的現(xiàn)象,如圖1所示。這一透視關(guān)系,幫助人類視覺系統(tǒng)形成對三維空間的感知。但對于基于二維圖像的視覺感知任務(wù)而言,近大遠小會導致相同真實大小的物體根據(jù)遠近不同,因而在成像平面上形成不同尺度的物體。這將對視覺感知任務(wù)提出挑戰(zhàn)。具體來說:(1)這會導致信息的衰減,二維圖像捕獲的信息隨距離二次衰減,因而30米外的物體在圖片上可能只有15米外相同物體1/4的像素;(2)卷積神經(jīng)網(wǎng)絡(luò)具有局限性。由于卷積操作在二維平面上采用相同大小的滑動窗口進行計算,同一卷積操作無法同時對尺度差異較大的物體進行響應。
針對傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的局限,張兆翔及其團隊首次提出 Trident 網(wǎng)絡(luò)結(jié)構(gòu)。首先通過不同膨脹系數(shù)的卷積支路實現(xiàn)對不同尺度的物體的識別,然后通過權(quán)重共享實現(xiàn)對不同尺度相同物體的一致性刻畫。研究人員還提出了一種在測試階段只需要一條卷積支路的快速 Trident 網(wǎng)絡(luò),快速 Trident 網(wǎng)絡(luò)保持了與傳統(tǒng)檢測器骨干網(wǎng)絡(luò)相同的計算量,大幅提升了該方法的實用性。
該Trident方法可以與不同基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)結(jié)合,并在 COCO 數(shù)據(jù)集上取得大幅度提升。該文作為Oral文章在ICCV2019發(fā)表。
據(jù)悉,ICCV2019近期在韓國首爾召開。ICCV的全稱是國際計算機視覺大會,是計算機視覺與模式識別領(lǐng)域的頂級會議。本次會議,張兆翔及其團隊共有5篇論文被接收,其中2篇為oral;3篇為poster。
© 1996 - 中國科學院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權(quán)所有 京ICP備05002857號-1 京公網(wǎng)安備110402500047號 網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話: 86 10 68597114(總機) 86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn
© 1996 - 中國科學院 版權(quán)所有
京ICP備05002857號-1
京公網(wǎng)安備110402500047號
網(wǎng)站標識碼bm48000002
地址:北京市西城區(qū)三里河路52號 郵編:100864
電話:86 10 68597114(總機)
86 10 68597289(總值班室)
編輯部郵箱:casweb@cashq.ac.cn