MD Zeiler, Visualizing and Understanding Convolutional Networks, 2013
目的:Visualizing and Understanding Convolutional Networks
三大學習方向:
- 卷積網路的視覺化方法
- 直覺想法:將特徵圖(feature map)以灰階圖呈現,但仍然難以理解...
- 藉由反卷積網路(deconvnet)將特徵反推回至輸入的像素空間,來得知輸入圖片的pattern對特徵圖的影響
- 可視為與卷積網路使用相同元件(ex:卷積、持化、ReLU)的反向過程
- 步驟
- Forward propagation
- 選擇一個特徵圖的其中一個激化(其他激化皆設為0)
- 反推至像素空間
- 反卷積網路
- 反池化(unpooling)
- max pooling 為不可逆,但可以記錄池化過程中,最大值的座標位置,讓反池化得到近似的結果
- ReLU
- 同conv layer 的功能。用來保證每層輸出的特徵圖為正數
- Deconv
- 運算方式同卷積(conv)
- 與正向過程的卷積使用同一組濾波器(filter),但是使用轉置後(transpose)的版本
- 反池化(unpooling)
- 藉由視覺化來了解卷積網路的內部運作
- 各層的特徵圖視覺化的結果
- 2nd : 角落以及其他邊緣或者顏色的結合
- 3rd : 擁有更加複雜的不變性,捕捉到了相似的紋理(例如:網格特徵、文字)
- 4th : 顯示各類別(class)間顯著的差異性
- 5th : 顯示有顯著姿態變化的整個物體
- 訓練過程的特徵演化
- 前面幾層很快就收斂
- 後面幾層需要更多的epoch
- 分析一些特性
- 特徵不變性(Feature Invariance)
- 同張圖的不同型變(transformation),小的變化就會對第一層有顯著的影響,但對較後面的影響不大
- 卷積網路對平移與縮放有不變性,但對旋轉則無(除了有旋轉對稱性的物體之外)
- 遮擋敏感性(Occlusion Sensitivity)
- 測試:在一張圖上,分別覆蓋灰色圖塊在不同位置上
- 當圖片為true label的物體被遮擋時,預測分數會嚴重下降
- 圖片關聯性分析(Correspondence Analysis)
- 5th conv 對於部件各個部分的相關性更為關注
- 7th 開始關注更高層的資訊
- 網路深度對結果影響很大
- 卷積深度比寬度對辨識率影響很大
- 特徵不變性(Feature Invariance)
- 各層的特徵圖視覺化的結果
- 藉由視覺化來改善網路架構與訓練方式
- 架構選擇
- AlexNet
- 1st : 含低與高頻資訊,幾乎沒有中頻的資訊,造成許多無用的特徵圖
- 2nd : 出現 Aliasing Artifact
- 修改
- 增加採樣率提升辨識結果
- filter : 11x11 -> 7x7
- stride: 4 -> 2
- 限制所有濾波器的均方根值(RMS)不能超過10-1
- AlexNet
- 架構選擇
reference:https://arxiv.org/pdf/1311.2901.pdf