Alex Krizhevsky, ImageNet Classification with Deep Convolutional Neural Networks, 2012
硬體環境:GPU GTX580 3GB memory
架構:
Input | C1 | S2 | C3 | S4 | C5 | C6 | C7 | F9 | F8 | Output | |
Maps | 3(RGB) | 96 | 96 | 256 | 256 | 384 | 384 | 256 | - | - | - |
Size | 224x224 | 55x55 | 27x27 | 27x27 | 13x13 | 13x13 | 13x13 | 13x13 | 4,096 | 4,096 | 1,000 |
Kernel size | - | 11x11 | 3x3 | 5x5 | 3x3 | 3x3 | 3x3 | 3x3 | - | - | - |
Stride | - | 4 | 2 | 1 | 2 | 1 | 1 | 1 | - | - | - |
Padding | - | SAME | VALID | SAME | VALID | SAME | SAME | SAME | - | - | - |
Activation | - | ReLU | - | ReLU | - | ReLU | ReLU | ReLU | ReLU | ReLU | Softmax |
- Activation Function:使用ReLU
- Sigmoid
- 有梯度消失的缺點,讓神經網路很難被優化。
- ReLU
- 收斂速度快
- 相較於Sigmoid/Tanh,ReLU省去複雜運算,只需要一個閥值就能得到激活值。
- Sigmoid
- 降低Overfitting方法
- Dropout
- 在AlexNet中,全連接層使用Dropout,配置為0.5,表示每個神經元有50%的機率不參與下一層的傳遞。
- 這種技術迫使神經網路需要學習更為穩健的特徵,因此有效降低Overfitting
- Data augmentation
- 原始圖片的像素是256x256,進行隨機抽取其中的224x224,且允許水平翻轉將資料擴增2048倍。論文中說明此做法能有效的避免Overfitting
- 改變RGB通道的強度:對RGB色彩空間作主成分分析(PCA),接著用高斯隨機擾動。這個方法是透動自然圖片的性質來實現,也就是該物體對於照明的強度和顏色的變化是不變的,透過這個方法,top-1的錯誤率下降1%。
- Dropout
- Local Response Normalization
- 2015,Very Deep Convolutional Networks for Large-Scale Image Recognition(VGGNet)提出LRN基本沒什麼用。