ZFNet Notes

MD Zeiler, Visualizing and Understanding Convolutional Networks, 2013

目的:Visualizing and Understanding Convolutional Networks

三大學習方向:

  1. 卷積網路的視覺化方法
    • 直覺想法:將特徵圖(feature map)以灰階圖呈現,但仍然難以理解...
    • 藉由反卷積網路(deconvnet)將特徵反推回至輸入的像素空間,來得知輸入圖片的pattern對特徵圖的影響
    • 可視為與卷積網路使用相同元件(ex:卷積、持化、ReLU)的反向過程
    • 步驟
      1. Forward propagation
      2. 選擇一個特徵圖的其中一個激化(其他激化皆設為0)
      3. 反推至像素空間
    • 反卷積網路
      • 反池化(unpooling)
        • max pooling 為不可逆,但可以記錄池化過程中,最大值的座標位置,讓反池化得到近似的結果
      • ReLU
        • 同conv layer 的功能。用來保證每層輸出的特徵圖為正數
      • Deconv
        • 運算方式同卷積(conv)
        • 與正向過程的卷積使用同一組濾波器(filter),但是使用轉置後(transpose)的版本
  2. 藉由視覺化來了解卷積網路的內部運作
    • 各層的特徵圖視覺化的結果
      • 2nd : 角落以及其他邊緣或者顏色的結合
      • 3rd : 擁有更加複雜的不變性,捕捉到了相似的紋理(例如:網格特徵、文字)
      • 4th : 顯示各類別(class)間顯著的差異性 
      • 5th : 顯示有顯著姿態變化的整個物體
    • 訓練過程的特徵演化
      • 前面幾層很快就收斂
      • 後面幾層需要更多的epoch
    • 分析一些特性
      • 特徵不變性(Feature Invariance)
        • 同張圖的不同型變(transformation),小的變化就會對第一層有顯著的影響,但對較後面的影響不大
        • 卷積網路對平移與縮放有不變性,但對旋轉則無(除了有旋轉對稱性的物體之外)
      • 遮擋敏感性(Occlusion Sensitivity)
        • 測試:在一張圖上,分別覆蓋灰色圖塊在不同位置上
        • 當圖片為true label的物體被遮擋時,預測分數會嚴重下降
      • 圖片關聯性分析(Correspondence Analysis)
        • 5th conv 對於部件各個部分的相關性更為關注
        • 7th 開始關注更高層的資訊
      • 網路深度對結果影響很大
      • 卷積深度比寬度對辨識率影響很大
  3. 藉由視覺化來改善網路架構與訓練方式
    • 架構選擇
      • AlexNet
        • 1st : 含低與高頻資訊,幾乎沒有中頻的資訊,造成許多無用的特徵圖
        • 2nd : 出現 Aliasing Artifact
      • 修改
        • 增加採樣率提升辨識結果
        • filter : 11x11 -> 7x7
        • stride: 4 -> 2
        • 限制所有濾波器的均方根值(RMS)不能超過10-1

reference:https://arxiv.org/pdf/1311.2901.pdf