加快打造原始創(chuàng)新策源地,加快突破關(guān)鍵核心技術(shù),努力搶占科技制高點(diǎn),為把我國建設(shè)成為世界科技強(qiáng)國作出新的更大的貢獻(xiàn)。

——習(xí)近平總書記在致中國科學(xué)院建院70周年賀信中作出的“兩加快一努力”重要指示要求

面向世界科技前沿、面向經(jīng)濟(jì)主戰(zhàn)場、面向國家重大需求、面向人民生命健康,率先實(shí)現(xiàn)科學(xué)技術(shù)跨越發(fā)展,率先建成國家創(chuàng)新人才高地,率先建成國家高水平科技智庫,率先建設(shè)國際一流科研機(jī)構(gòu)。

——中國科學(xué)院辦院方針

首頁 > 科研進(jìn)展

軟件所在智能理論研究中取得進(jìn)展

2020-08-26 軟件研究所
【字體:

語音播報(bào)

  近日,中國科學(xué)院軟件研究所智能軟件研究中心在人工智能基礎(chǔ)理論方面取得進(jìn)展,在樹形神經(jīng)網(wǎng)絡(luò)、風(fēng)格遷移模型、小目標(biāo)計(jì)數(shù)具體問題上提出新的解決方案。研究成果發(fā)表在人工智能領(lǐng)域會(huì)議CVPR 2020、ECCV 2020、ACM MM2020,并受邀完成線上學(xué)術(shù)報(bào)告,相關(guān)代碼已經(jīng)開源。相關(guān)研究包括:

  注意力卷積二叉神經(jīng)樹 

  細(xì)粒度分類的目的是對粗粒度的大類別進(jìn)行更加細(xì)致的子類劃分。通常情況下,細(xì)粒度數(shù)據(jù)集中預(yù)先給定的標(biāo)注往往依賴于專業(yè)人工標(biāo)注,需專業(yè)的領(lǐng)域知識(shí),所以標(biāo)注的數(shù)量很少并且很難獲得。關(guān)鍵的判別力區(qū)域散布在細(xì)小區(qū)域,需要網(wǎng)絡(luò)進(jìn)行定位的工作,而現(xiàn)有大多數(shù)的網(wǎng)絡(luò)將定位的工作與識(shí)別整合在一起,網(wǎng)絡(luò)缺乏捕獲判別力區(qū)域的能力。因此,亟待尋求能夠?qū)W習(xí)有效特征和區(qū)分難易特征的方法。

  針對這一問題,軟件所團(tuán)隊(duì)將卷積神經(jīng)網(wǎng)絡(luò)與軟決策樹策略相結(jié)合,提出一種二分類深度神經(jīng)樹的細(xì)粒度圖像識(shí)別模型,該模型包括主干模型(backbone)、路由(router)、轉(zhuǎn)換(transformer)、預(yù)測(predictor)四種模塊構(gòu)成。在特征提取的主干網(wǎng)絡(luò)上,選取VGG-16作為團(tuán)隊(duì)的特征提取器,這一部分包括VGG-16的conv1-conv5的部分卷積層。在淺層利用路由進(jìn)行二分類的預(yù)測輸出,將圖像預(yù)先做粗粒度分類,隨著樹的深度增加,類別的區(qū)分范圍不斷縮小,并在葉子節(jié)點(diǎn)處進(jìn)行最終類別的輸出。借助這種由粗分逐漸到細(xì)分的方法,團(tuán)隊(duì)在神經(jīng)樹的邊上構(gòu)造了由卷積算子構(gòu)成的變換模塊,在不同的分支上利用卷積網(wǎng)絡(luò)進(jìn)行特征學(xué)習(xí),定位出具有判別力的區(qū)域特征,使每個(gè)葉子節(jié)點(diǎn)上的預(yù)測器測重關(guān)注圖像不同的區(qū)域。為加強(qiáng)不同分支對圖像多尺度特征的提取,團(tuán)隊(duì)采取非對稱策略來安排轉(zhuǎn)換模塊在不同分支上的數(shù)量,而不同的分支之間起到了相互補(bǔ)充與促進(jìn)特征學(xué)習(xí)的作用。在預(yù)測階段,團(tuán)隊(duì)利用路由模塊預(yù)測值的累積作為該路徑被選擇的概率,相應(yīng)的葉子節(jié)點(diǎn)的輸出則是該類別的預(yù)測概率分布。

  實(shí)驗(yàn)結(jié)果顯示,在CUB-200-2011、Stanford Cars和Aircraft數(shù)據(jù)集上,基于深度神經(jīng)樹的細(xì)粒度識(shí)別模型顯著優(yōu)于當(dāng)前其他的弱監(jiān)督細(xì)粒度方法。相關(guān)成果以Attention Convolutional Binary Neural Tree for Fine-Grained Visual Categorization為題,被CVPR 2020收錄。(代碼鏈接

  語義神經(jīng)樹 

  現(xiàn)有的人體解析方法往往忽略人體結(jié)構(gòu)中各部位之間固有的語義關(guān)系,把這種細(xì)粒度的分割任務(wù)看作常規(guī)的語義分割,這樣的操作易引起細(xì)小部位分割錯(cuò)誤。此外,人體部位之間的尺度也存在相當(dāng)大的差異,如人的雙腳、襪子等一般在圖像中占有很小比例甚至在圖像中不出現(xiàn)。

  針對這一問題,軟件所團(tuán)隊(duì)提出一種基于深度神經(jīng)樹來學(xué)習(xí)語義特征。多叉深度神經(jīng)解析樹采用了一種層次關(guān)系,在淺層中,團(tuán)隊(duì)先把圖像中的前景與背景進(jìn)行識(shí)別,利用產(chǎn)生的掩碼信息作用在輸入數(shù)據(jù)上,產(chǎn)生新的前景信息將輸送到下一層模塊處理,在不同的層級(jí)上,團(tuán)隊(duì)會(huì)將相應(yīng)的部位識(shí)別并分割出來。此外,團(tuán)隊(duì)還構(gòu)造了融合模塊用來收集在不同的層級(jí)產(chǎn)生的結(jié)果,并將結(jié)果進(jìn)一步優(yōu)化調(diào)整,產(chǎn)生最終的分割預(yù)測結(jié)果。

  多叉神經(jīng)語義解析樹利用隨機(jī)梯度下降(SGD)方法以端到端的方式進(jìn)行訓(xùn)練整個(gè)模型,具有收斂速度快,性能穩(wěn)定的特點(diǎn)。在LIP、PASCAL-Person-Part、CIHP和MHPv2四個(gè)數(shù)據(jù)集上進(jìn)行的單人和多人解析實(shí)驗(yàn),均證明了該方法的有效性。相關(guān)成果以Learning Semantic Neural Tree for Human Parsing為題,被ECCV 2020收錄。(代碼鏈接

  無監(jiān)督域適應(yīng)的空間注意金字塔網(wǎng)絡(luò) 

  域適應(yīng)是解決目標(biāo)域和源域數(shù)據(jù)分部有顯著差異的問題。巧妙進(jìn)行遷移轉(zhuǎn)化,能夠顯著改善在目標(biāo)域的實(shí)際使用效果。

  針對這一問題,軟件所團(tuán)隊(duì)提出空間注意力金字塔機(jī)制,將域轉(zhuǎn)換的注意力集中在與任務(wù)相關(guān)的特定區(qū)域。此方法將特征圖用不同大小的窗口來提取均值特征,獲得特征金字塔,然后用軟注意力機(jī)制在不同金字塔特征之間的動(dòng)態(tài)選擇,來指導(dǎo)最終的域轉(zhuǎn)換。

  實(shí)驗(yàn)結(jié)果顯示,提出的方法在多個(gè)任務(wù)(目標(biāo)檢測、實(shí)例分割、語義分割)中均取得領(lǐng)先的效果。相關(guān)成果以Spatial Attention Pyramid Network for Unsupervised Domain Adaptation為題,被ECCV 2020收錄。(代碼鏈接

  用于無人機(jī)目標(biāo)檢測和計(jì)數(shù)的引導(dǎo)注意力網(wǎng)絡(luò) 

  檢測和計(jì)數(shù)是人工智能的基礎(chǔ)問題。在無人機(jī)場景中,受目標(biāo)小、背景雜亂等復(fù)雜因素影響,通過無人機(jī)采集視頻進(jìn)行目標(biāo)檢測和計(jì)數(shù)具有極大的挑戰(zhàn)。

  針對復(fù)雜場景的小目標(biāo)檢測和計(jì)數(shù)問題,軟件所團(tuán)隊(duì)設(shè)計(jì)了一種新的基于特征金字塔的注意力網(wǎng)絡(luò)來處理目標(biāo)檢測和計(jì)數(shù)任務(wù)。與以往依賴于無監(jiān)督注意模塊的方法不同,團(tuán)隊(duì)充分利用了背景和目標(biāo)之間的弱監(jiān)督信息,融合不同尺度的特征圖,獲得更語義化的特征表示。同時(shí),前景模塊考慮了全局和局部外觀的目標(biāo),以方便準(zhǔn)確定位。

  團(tuán)隊(duì)設(shè)計(jì)了新的數(shù)據(jù)增強(qiáng)策略,用于在各種復(fù)雜場景下訓(xùn)練魯棒模型,在UAVDT、CARPK和PUCPR+三個(gè)數(shù)據(jù)集上顯示了算法先進(jìn)的檢測和計(jì)數(shù)性能。相關(guān)成果以Guided Attention Network for Object Detection and Counting on Drones為題,被ACM MM 2020收錄。(代碼鏈接

  以上成果論文通訊作者為軟件所副研究員張立波。相關(guān)研究得到中科院青年創(chuàng)新促進(jìn)會(huì)、軟件所優(yōu)秀青年科技人才計(jì)劃支持。

  卷積二叉神經(jīng)樹模型

  基于語義神經(jīng)樹的人體解析模型 

空間注意金字塔網(wǎng)絡(luò)

基于引導(dǎo)注意力機(jī)制的無人機(jī)檢測和計(jì)數(shù)模型

打印 責(zé)任編輯:程博

掃一掃在手機(jī)打開當(dāng)前頁

© 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

編輯部郵箱:casweb@cashq.ac.cn

  • © 1996 - 中國科學(xué)院 版權(quán)所有 京ICP備05002857號(hào)-1 京公網(wǎng)安備110402500047號(hào) 網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864

    電話: 86 10 68597114(總機(jī)) 86 10 68597289(總值班室)

    編輯部郵箱:casweb@cashq.ac.cn

  • © 1996 - 中國科學(xué)院 版權(quán)所有
    京ICP備05002857號(hào)-1
    京公網(wǎng)安備110402500047號(hào)
    網(wǎng)站標(biāo)識(shí)碼bm48000002

    地址:北京市西城區(qū)三里河路52號(hào) 郵編:100864
    電話:86 10 68597114(總機(jī))
       86 10 68597289(總值班室)
    編輯部郵箱:casweb@cashq.ac.cn