來源:北大青鳥總部 2023年02月21日 14:45
眾所周知,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、識別以及關(guān)鍵點定位上已得到廣泛應(yīng)用。目前在人體姿態(tài)、人臉識別等多個方面的關(guān)鍵點定位算法已經(jīng)取得長足發(fā)展,但是應(yīng)用于多變性的圖像背景以及姿態(tài)等依然面臨很大的挑戰(zhàn),如服飾在類別、比例和外觀上具有多變性,其關(guān)鍵點定位精度并不高。下文將在傳統(tǒng)的殘差與沙漏網(wǎng)絡(luò)模型基礎(chǔ)上,介紹一種新的級聯(lián)金字塔結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò),實現(xiàn)對困難關(guān)鍵點的定位進行精細調(diào)整。并通過實例剖析進一步幫助大家來理解。
1.沙漏網(wǎng)絡(luò)
沙漏網(wǎng)絡(luò),正如其名,是一種形如沙漏的下采樣-上采樣結(jié)構(gòu),如下圖所示。圖中左側(cè)部分通過卷積和池化操作將特征圖降低到較低的分辨率。下采樣通過池化操作完成,同時通過另一路卷積保留下采樣前的特征圖,用于和右側(cè)上采樣部分同尺度的特征圖進行融合。當下采樣部分特征圖達到最小分辨率后,網(wǎng)絡(luò)經(jīng)過最近鄰上采樣后與保留的同尺度特征圖進行融合,最后網(wǎng)絡(luò)輸出表示各個關(guān)節(jié)點在該像素出現(xiàn)的概率的特征集。
沙漏網(wǎng)絡(luò)設(shè)計的目的在于獲取不同尺度下圖像所包含信息。利用多模塊的沙漏網(wǎng)絡(luò)可以定位關(guān)鍵點進而來識別人體姿態(tài)特征。
2.深度殘差網(wǎng)絡(luò)
假定一個網(wǎng)絡(luò)的輸入為
理想的映射輸出為
為了獲取
利用堆疊的非線性層來擬合殘差映射
由此可以得到
因此擬合最優(yōu)映射的問題轉(zhuǎn)化為擬合殘差映射函數(shù),使得網(wǎng)絡(luò)模型不再是學(xué)習(xí)一個完整的輸出,而只是學(xué)習(xí)殘差
解決深度卷積網(wǎng)絡(luò)中,隨著網(wǎng)絡(luò)層數(shù)的加深,造成的梯度消失、爆炸等問題。
相比較普通網(wǎng)絡(luò),深度殘差網(wǎng)絡(luò)引入捷徑跳過某些層的連接,再與主徑匯合,如下圖所示。這使得底層的誤差可通過捷徑向上層傳遞而解決梯度消失的問題,在不增加額外參數(shù)又不提高計算復(fù)雜度的同時增加網(wǎng)絡(luò)模型的訓(xùn)練速度、提高訓(xùn)練效果。作為簡單且實用的深層次網(wǎng)絡(luò)模型,深度殘差網(wǎng)絡(luò)在圖像分割、目標檢測等圖像處理領(lǐng)域內(nèi)應(yīng)用廣泛。
級聯(lián)金字塔結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)的算法框架分為兩部分,如下圖所示:
第1部分為全局關(guān)鍵點定位網(wǎng)絡(luò),使用殘差網(wǎng)絡(luò)作為特征提取網(wǎng)絡(luò),通過特征金字塔融合多尺度特征,實現(xiàn)關(guān)鍵點的初步定位;
第2部分以沙漏網(wǎng)絡(luò)為基礎(chǔ)對第1級損失較大的關(guān)鍵點精細調(diào)整,進而實現(xiàn)對服飾關(guān)鍵點的精確定位。
在進一步解釋前,大家需要對使用殘差網(wǎng)絡(luò)提取的不同層的特征圖尺度形成的金字塔結(jié)構(gòu)有一定了解。如下圖所示,特征金字塔結(jié)構(gòu)在網(wǎng)絡(luò)前向卷積的過程中對每一分辨率的特征圖引入后一分辨率縮放2倍的特征圖做逐個元素自底向上相加的操作,以這種方式將卷積神經(jīng)網(wǎng)絡(luò)中高分辨率低語義信息的底層特征圖和低分辨率高語義信息的高層特征圖進行融合,使得融合之后特征圖既包含豐富的語義信息,也包含由于不斷降采樣而丟失的底層細節(jié)信息。
詳細介紹:
1.第1級網(wǎng)絡(luò)
第1級網(wǎng)絡(luò)首先通過殘差網(wǎng)絡(luò)進行特征提取,C1~C5分別代表殘差網(wǎng)絡(luò)中卷積Conv1~Conv5產(chǎn)生的特征圖。比如,輸入一張大小為512×512的圖像,原始的ResNet經(jīng)過5次步長為2的卷積操作達到降采樣的目的,特征圖發(fā)生5次尺度變化,最終卷積層輸出的特征圖C5的尺寸為16×16。這里,算法引入空洞卷積為了提高特征圖空間分辨率。
利用殘差網(wǎng)絡(luò)提取的特征圖構(gòu)建特征金字塔時,因為特征圖C3~C5具有相同的尺寸,所以可不經(jīng)過上采樣直接融合。融合后的結(jié)果與C2繼續(xù)融合時,先經(jīng)過雙線性插值進行2倍的上采樣。每一級產(chǎn)生的特征圖都生成一組熱力圖,同組的每張熱力圖包含輸入圖像的一個關(guān)鍵點的坐標,和真實關(guān)鍵點坐標生成的熱力圖進行誤差計算求得損失,共同監(jiān)督網(wǎng)絡(luò)訓(xùn)練。在測試階段,第1級網(wǎng)絡(luò)輸出的熱力圖可以得到全部關(guān)鍵點的位置坐標。
2.第2級網(wǎng)絡(luò)
第2級網(wǎng)絡(luò)使用兩個堆疊的沙漏網(wǎng)絡(luò),但與原始的沙漏網(wǎng)絡(luò)不同的是,第1個沙漏網(wǎng)絡(luò)的下采樣部分即上采樣部分的輸入是第1級金字塔結(jié)構(gòu)輸出的特征圖。針對困難關(guān)鍵點,選擇第1級損失較大的關(guān)鍵點進行精細調(diào)整,僅從這部分關(guān)鍵點反向傳播損失算法。第1個沙漏網(wǎng)絡(luò)融合來自第1級網(wǎng)絡(luò)所有金字塔層的信息進行定位,第2個沙漏網(wǎng)絡(luò)利用前一個沙漏網(wǎng)絡(luò)輸出的熱力圖作為關(guān)鍵點之間的結(jié)構(gòu)先驗進行定位。每個沙漏網(wǎng)絡(luò)都生成一組熱力圖,并與真值的誤差作為損失函數(shù)監(jiān)督網(wǎng)絡(luò)訓(xùn)練。測試階段,最后結(jié)果為2級輸出結(jié)果的綜合。
雖然第1級網(wǎng)絡(luò)已經(jīng)能夠完成關(guān)鍵點定位任務(wù)。但是由于服飾背景、姿態(tài)等的復(fù)雜性,一些困難關(guān)鍵點依然難以實現(xiàn)精確定位,這里設(shè)計了第2級網(wǎng)絡(luò)對困難關(guān)鍵點的坐標進行精細調(diào)整。
數(shù)據(jù)集選取
這里以具有多變性的女裝服飾圖片作為對象來研究分析。實驗選取2018 FashionAI 服飾關(guān)鍵點定位數(shù)據(jù)集。此數(shù)據(jù)集是同時符合機器學(xué)習(xí)要求和服飾專業(yè)性的高質(zhì)量數(shù)據(jù)集。服飾的關(guān)鍵點基于服裝設(shè)計的5大專業(yè)類別定義,分別為上衣、外套、褲子、半身裙、連身裙。在該數(shù)據(jù)集中,每種服飾具體關(guān)鍵點如下圖所示。本文案例的數(shù)據(jù)僅包含單個模特或者商品的圖像。所預(yù)測的服飾所屬的類別已知,不需要單獨進行分類。數(shù)據(jù)集包括54166個訓(xùn)練樣本和9971個測試樣本。
級聯(lián)結(jié)果分析
采用上面算法,通過級聯(lián)的兩級卷積神經(jīng)網(wǎng)絡(luò)分別實現(xiàn)對關(guān)鍵點的初步定位和進一步修正,其結(jié)果如下圖所示。圖中所示為包含上衣、外套類別的4張服飾圖像經(jīng)過級聯(lián)網(wǎng)絡(luò)的關(guān)鍵點定位結(jié)果圖,每張圖片的上面一張顯示的是只經(jīng)過第1級網(wǎng)絡(luò)的結(jié)果輸出圖像,下面一張包含第2級網(wǎng)絡(luò)的結(jié)果輸出圖像。圖像中的部分關(guān)鍵點經(jīng)過了調(diào)整,尤其是方框圈起來的關(guān)鍵點在第2級網(wǎng)絡(luò)經(jīng)過了比較明顯的調(diào)整,比如:
第1張圖像中的右腋窩和右袖口內(nèi)關(guān)鍵點,由于被遮擋誤差較大;
第2張圖像左腋窩定位錯誤;
第3張圖像左袖口內(nèi)側(cè)被遮擋定位誤差較大;
第4張圖像右腰部關(guān)鍵點被水印遮擋。
經(jīng)過第2級網(wǎng)絡(luò)這些關(guān)鍵點都得到了進一步調(diào)整,很明顯地減小了定位誤差,使得最終輸出的定位結(jié)果更加準確.這一級聯(lián)結(jié)果對比證明了上述算法可提高關(guān)鍵點精確度的有效性。
上文通過將傳統(tǒng)的殘差與沙漏網(wǎng)絡(luò)模型進行級聯(lián),并詳細介紹了一種新的級聯(lián)金字塔結(jié)構(gòu)卷積神經(jīng)網(wǎng)絡(luò)。為了進一步優(yōu)化對關(guān)鍵點定位精度的問題,充分利用特征信息,在第1級使用殘差網(wǎng)絡(luò)進行特征提取網(wǎng)絡(luò)形成特征金字塔結(jié)構(gòu),保留了更多的圖像細節(jié)信息,實現(xiàn)對所有關(guān)鍵點的定位;在第2級以沙漏網(wǎng)絡(luò)為基礎(chǔ),整合來自上一級的特征信息,利用前一級預(yù)測出來的關(guān)鍵點之間的結(jié)構(gòu)先驗,對困難關(guān)鍵點即第1級損失較大的關(guān)鍵點進行精細調(diào)整,進一步提升整個網(wǎng)絡(luò)的定位精度。該網(wǎng)絡(luò)模型對具有多變性的圖像背景以及姿態(tài)等進行關(guān)鍵點定位有很好的適應(yīng)性。