谷歌工程師:聊一聊深度學習的weight initialization
雷鋒網按:本文作者夏飛,清華大學電腦軟體學士,卡內基梅隆大學人工智慧碩士。現為谷歌軟體工程師。雷鋒網首發文章。TLDR (or the take-away)Weight Initialization matters!!! 深度學習中的weight initialization對模型收斂速度和模型品質有重要影響!在ReLU activation function中推薦使用Xavier Initialization的變種,暫且稱之為He Initialization:使用Batch Normalization Layer可以有效降低深度網路對weight初始化的依賴:實驗代碼請參見我的Githu...