學界｜不通過梯度下降來訓練神經網絡：一個可擴展的ADMM途徑

ID:119948 · 發表于 2016-5-11 23:04

作者：Gavin Taylor, Ryan Burmeister, Zheng Xu, Bharat Singh, Ankit Patel, Tom Goldstein

機器之心編譯
參與：劉宗堯、李亞洲

論文摘要：

隨著大型網絡模型和龐大數據訓練集的重要性日益增長，在訓練神經網絡時GPU 也變得越來越重要。這主要是因為傳統的優化算法依賴于隨機梯度方法，而隨機梯度方法在計算集群大量核中的擴展并不好。此外，所有梯度方法的收斂，包括批量方法，都存在一些共同的問題，如飽和效應、不良的調節和鞍點等。

本文探討了一種非傳統的訓練方法，利用交替方向方法（alternating direction methods）和Bergman 迭代方法無梯度下降步驟的訓練網絡。該方法減少了網絡訓練問題，將其簡化成了一系列最小限度的子步驟，每個子步驟都能閉式全局解決。該方法之所以有益，是因為它繞過了很多注意事項，這些注意事項會造成梯度方法在高度非凸問題上進展緩慢。該方法在分布式環境中展示了強大的擴展能力，即便在分散成千萬個核的狀況下也能產生線性加速度。

論文引言

隨著硬件和算法的進步，神經網絡在很多機器學習任務中的性能也在不斷改善。尤其在這樣的應用中進步非常明顯：可用龐大的數據熟練有眾多參數的模型。因為大型數據集得到的結果總是能超越之前在很多機器學習任務中最先進的方法，因此研究人員也愿意購買諸如 GPU 這樣的硬件，并花費大量的時間去訓練模型、優化參數。

基于梯度的訓練方法有幾個特性，為了滿足這些特性需要專門的硬件。首先，雖然大量數據可以攤分到眾多核中，但是現有的優化方法在并行時依然要忍受。第二，訓練神經網絡需要優化非凸目標，這些目標會帶有鞍點，條件缺乏，梯度消散現象。所有的這些都降低了基于梯度方法的速度，比如隨機梯度下降、共軛梯度以及 BFGS。之前介紹了幾個避免該問題的緩解途徑，包括解決線性單元（ReLu）（Nair & Hinton，2010）、長短期記憶網絡（Hochreiter & Schmidhuber，1997）、RPROP（Riedmiller & Braun，1993）等等，但是最根本的問題依然存在。

在本文中，我們介紹一種訓練神經網絡參數的新的方法，這種方法使用了交替方向乘子算法（ADMM）和Bregman 迭代法。它解決了傳統梯度方法面臨的幾個問題；當跨核數據并行的時候，它展現出了線性擴展的能力，并且對梯度飽和和條件缺乏現象有較好的魯棒性。該方法還將網絡訓練分解成一系列的子步驟，每一個步驟都能得到全局最優性的解決。我們提議方法的擴展性，再加上避免局部最小化、全局解決每一子步驟的能力，能夠達到急劇加速訓練的效果。

在第二章，我們開始介紹這種方法的數學符號和背景，并討論了我們想要解決的基于梯度方法的幾個弱點。第三章和第四章介紹并描述了我們的優化方法，第五章和第六章詳細講解了分布式實現。第七章通過處理兩個不同類型和困難度的問題，給出了一個新方法和標準實現的數個基于梯度方法的實驗性對比。最后，第八章結束討論了這一論文的貢獻和未來需要做的工作。

本文由機器之心編譯

帳號		自動登錄	找回密碼
密碼			立即注冊

久久久久久久999_99精品久久精品一区二区爱城_成人欧美一区二区三区在线播放_国产精品日本一区二区不卡视频_国产午夜视频_欧美精品在线观看免费

學界｜不通過梯度下降來訓練神經網絡：一個可擴展的ADMM途徑