您的位置:首頁>正文

「乾貨」2017年深度學習必讀31篇論文(附論文下載地址)

新智元報導

一如既往, 首先, 標準免責聲明適用, 因為今年僅與GAN有關的論文就超過1660篇。 我肯定會有疏漏, 試圖縮減到每兩週一篇論文, 包含了Imperial Deep Learning Reading Group上的大量素材。 無論如何, 我們開始吧。

架構/模型

今年的Convnet網路架構已經少得多, 一切都穩定了。 有些論文肯定是在推動這項研究。 其中首先是安德魯·布魯克(Andrew Brock)的破解SMASH, 儘管有ICLR的評論, 但它已經在1000個GPU上進行了神經架構搜索。

SMASH:基於超網路的模型結構搜索

SMASH : one shot model architecture search through Hypernetworks

DenseNets(2017更新版)是一個印象深刻又非常單純的想法。 TLDR是“電腦視覺, 眼+皮毛=貓, 所以萬物互聯(包括層)”

密集的連接卷積神經

Densely connected convolutional networks

在CNNs, 一個非常被低估的理念是小波濾波器組係數散射變換(conv+maxpool和ReLUctant組建小波理論)。 不知何故, 令人驚訝的是, 這揭示了為什麼一個ConvNet前幾層像Gabor濾波器, 以及你可能不需要培訓他們。 用Stephane Mallat的話, “我對它的工作原理非常吃驚!”見下文。

縮放散射變換

Scaling the Scattering Transform

在維琪百科上, Tensorized LSTM是新的SOTA, 有人英語的編碼限制是1.0,1.1 BPC(作為參考, LayerNorm LSTMs大約是1.3 bpc)因為新穎, 我更願意把這篇論文定為“超級網路的復興之路”。

序列學習Tensorized LSTMs

Tensorized LSTMs for sequence learning

最後, 無需多言。

膠囊間動態路由

Dynamic Routing Between Capsules

https://arxiv.org/pdf/1710.09829.pdf

EM路由矩陣膠囊

Matrix capsules with EM routing

生成模型

我故意遺漏了英偉達關於GAN網路逐漸增大的令人頗為震驚的論文。

先用自回歸家庭–Aaron van den Oord的最新力作,

vq-vae, 是其中的一個檔, 看起來明顯的滯後, 但想出背景漸變止損功能也是不小的壯舉。 我敢肯定, 一堆的反覆運算, 包括包在ELBO’ed Bayesian層中的ala PixelVAE將會發揮作用。

神經離散表示學習

Neural Discrete Representation Learning

另一個驚喜來自並行WaveNetwavenet。 當每個人都在期待著與Tom LePaine的工作成果保持一致, DeepMind給我們師生分離, 並通過解釋高維各向同性高斯/物流潛在空間, 作為一個可以通過逆回歸流自雜訊整形的過程, 。 非常非常整潔。

並行Wavenet

Parallel Wavenet

頭號檔, 沒有人預料到- Nvidia公司制定了標準。 GAN理論完全代替了Wassersteinizing (Justin Solomon的力作), 僅保持KL損失。 用資料分佈的多解析度近似摒棄了不相交的支持問題。 這仍然需要一些技巧來穩定梯度, 但經驗結果不言自明。

GAN逐漸增長

Progressive growing of GANs

而今年早些時候Peyre和genevay負責的法國學校定義了最小Kantorovich Estimators。

這是Bousquet主導的穀歌團隊, 該團隊曾寫下了 VAE-GAN的最終框架。 這篇WAAE論文可能是ICLR2018最頂級的論文之一。

VeGAN手冊

The VeGAN cookbook

Wasserstein自動編碼器

Wasserstein Autoencoders

在變分推理面前, 沒誰比Dustin Tran從強化學習策略和GAN中借鑒到的思路更好, 再次推動了先進的VI。

層次式模型

Hierarchical Implicit Models

強化學習

“被軟體/ max-entropy Q-learning主導了一年, 我們錯了, 這些年!

Schulman證實了RL演算法的主要的兩個成員之間的的等價性。 里程碑式的論文, ”Nuff 稱。

策略梯度與Soft Q-learning的等價性。

Equivalence between Policy Gradients and Soft Q-learning

他有沒有在非常仔細的用數學和重新做分區函數計算來證實路徑的等價性?沒有人知道, 除了Ofir:

縮小RL策略和價值之間的差距

Bridging the gap between value and policy RL

另一篇被低估的論文, Gergely通過找出RL程式和convex 優化理論的相似點, 默默的超越了所有人。 今年IMHO有關RL論文的佳作, 不過知名度不高。

統一的熵規則MDP的觀點

A unified view of entropy-regularized MDPs

如果David Silver的Predictron因某種方式丟掉雷達在ICLR 2017被拒絕, 那麼Theo的論文就像是一個雙重的觀點, 它以優美而直觀的Sokoban實驗結果來啟動:

想像力增強劑

Imagination-Augmented Agents

馬克·貝萊瑪律(Marc Bellemare)發佈了另外一個轉型的論文 - 廢除了所有的DQN穩定外掛程式, 並簡單地學習了分發(並且在這個過程中擊敗了SotA)。 漂亮。 許多可能的擴展, 包括與Wasserstein距離的連結。

有分位數回歸的RL

A distributional perspective on RL

分佈RL的分佈視角

Distributional RL with Quantile Regression

一個簡單, 但非常有效, 雙重whammy的想法。

勘探用雜訊網路

Noisy Networks for Exploration

當然, 如果沒有AlphaGo Zero的話, 這個列表還是不完整的。 將策略網路MCTS前後對齊的思想, 即MCTS作為策略改進演算法(以及使NN近似誤差平滑而不是傳播的手段)是傳說的東西。

在沒有人類知識的情況下掌控Go遊戲

Mastering the game of Go without human knowledge

SGD & 優化

對於為什麼SGD在非凸面情況下的工作方式(從廣義誤差角度來看如此難以打敗), 2017年已經是一年一度的成熟了。

今年的“最技術”論文獲得者是Chaudhari。 從SGD和梯度流向PDE幾乎連接了一切。 堪稱遵循並完成“Entropy-SGD”的傑作:

深度放鬆:用於優化深度網路的偏微分方程

Deep Relaxation : PDEs for optimizing deep networks

貝葉斯認為這是Mandt&Hoffman的SGD-VI連接。 如你所知,我多年來一直是一個繁忙的人,原文如此。

SGD作為近似貝葉斯推斷

SGD as approximate Bayesian inference

論文下載連結:https://arxiv.org/pdf/1704.04289.pdf

前面的文章取決於SGD作為隨機微分方程的連續鬆弛(由於CLT,梯度雜訊被視為高斯)。 這解釋了批量大小的影響,並給出了一個非常好的chi-square公式。

批量大小,diffusion近似框架

Batch size matters, a diffusion approximation framework

又一篇受Ornstein-Uhlenbeck啟發的論文,得到了類似的結果,出自Yoshua Bengio實驗室:

影響SGD最小值的三個因素

Three factors influencing minima in SGD

最後,又一篇Chandhari的論文,講述SGD-SDE-VI三位一體:

SGD執行VI,收斂到限制週期

SGD performs VI, converges to limit cycles

理論

我堅信在解釋深度學習為什麼有用方面,答案將來自諧波/二階分析和資訊理論與基於熵的測量之間的交集。 Naftali Tishby的想法雖然因為最近ICLR 2018提交的內容引發了爭議,但這仍然使我們更加接近理解深度學習。

論通過資訊理論揭開深度網路黑箱

Opening the black box of deep networks via information

論深度學習的資訊瓶頸理論

On the information bottleneck theory of deep learning

同樣,來自ICLR2017的一篇漂亮的論文對資訊瓶頸理論採取了一種變化的方法。

深度變分的資訊瓶頸

Deep variational information bottleneck

今年已經有幾十億個生成模型,12億個因數分解對數似然的方法,大都可以歸在凸二元的下面。

A Lagrangian perspective on latent variable modelling

對潛變數建模的拉格朗日觀點

最後這篇論文展示了驚人的技術實力,並且告訴我們,數學深度學習的軍備競賽仍然十分活躍!這篇論文結合了複雜的分析,隨機矩陣理論,自由概率和graph morphisms,得出了對於神經網路損失函數的Hessian特徵值的一個精確的定律,而圖(graph)的形狀只在經驗上是已知的,這一點在Sagun等人的論文中有論述。必讀。

通過RMT看神經網路損失曲面幾何

Geometry of NN loss surfaces via RMT

深度學習非線性RMT

Nonlinear RMT for deep learning

原文位址:https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

2017年已經是一年一度的成熟了。

今年的“最技術”論文獲得者是Chaudhari。 從SGD和梯度流向PDE幾乎連接了一切。 堪稱遵循並完成“Entropy-SGD”的傑作:

深度放鬆:用於優化深度網路的偏微分方程

Deep Relaxation : PDEs for optimizing deep networks

貝葉斯認為這是Mandt&Hoffman的SGD-VI連接。 如你所知,我多年來一直是一個繁忙的人,原文如此。

SGD作為近似貝葉斯推斷

SGD as approximate Bayesian inference

論文下載連結:https://arxiv.org/pdf/1704.04289.pdf

前面的文章取決於SGD作為隨機微分方程的連續鬆弛(由於CLT,梯度雜訊被視為高斯)。 這解釋了批量大小的影響,並給出了一個非常好的chi-square公式。

批量大小,diffusion近似框架

Batch size matters, a diffusion approximation framework

又一篇受Ornstein-Uhlenbeck啟發的論文,得到了類似的結果,出自Yoshua Bengio實驗室:

影響SGD最小值的三個因素

Three factors influencing minima in SGD

最後,又一篇Chandhari的論文,講述SGD-SDE-VI三位一體:

SGD執行VI,收斂到限制週期

SGD performs VI, converges to limit cycles

理論

我堅信在解釋深度學習為什麼有用方面,答案將來自諧波/二階分析和資訊理論與基於熵的測量之間的交集。 Naftali Tishby的想法雖然因為最近ICLR 2018提交的內容引發了爭議,但這仍然使我們更加接近理解深度學習。

論通過資訊理論揭開深度網路黑箱

Opening the black box of deep networks via information

論深度學習的資訊瓶頸理論

On the information bottleneck theory of deep learning

同樣,來自ICLR2017的一篇漂亮的論文對資訊瓶頸理論採取了一種變化的方法。

深度變分的資訊瓶頸

Deep variational information bottleneck

今年已經有幾十億個生成模型,12億個因數分解對數似然的方法,大都可以歸在凸二元的下面。

A Lagrangian perspective on latent variable modelling

對潛變數建模的拉格朗日觀點

最後這篇論文展示了驚人的技術實力,並且告訴我們,數學深度學習的軍備競賽仍然十分活躍!這篇論文結合了複雜的分析,隨機矩陣理論,自由概率和graph morphisms,得出了對於神經網路損失函數的Hessian特徵值的一個精確的定律,而圖(graph)的形狀只在經驗上是已知的,這一點在Sagun等人的論文中有論述。必讀。

通過RMT看神經網路損失曲面幾何

Geometry of NN loss surfaces via RMT

深度學習非線性RMT

Nonlinear RMT for deep learning

原文位址:https://kloudstrifeblog.wordpress.com/2017/12/15/my-papers-of-the-year/

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示