作者:Gavin Taylor, Ryan Burmeister, Zheng Xu, Bharat Singh, Ankit Patel, Tom Goldstein
機器之心編譯
參與:劉宗堯、李亞洲

論文摘要:
隨著大型網(wǎng)絡模型和龐大數(shù)據(jù)訓練集的重要性日益增長,在訓練神經(jīng)網(wǎng)絡時GPU 也變得越來越重要。這主要是因為傳統(tǒng)的優(yōu)化算法依賴于隨機梯度方法,而隨機梯度方法在計算集群大量核中的擴展并不好。此外,所有梯度方法的收斂,包括批量方法,都存在一些共同的問題,如飽和效應、不良的調節(jié)和鞍點等。
本文探討了一種非傳統(tǒng)的訓練方法,利用交替方向方法(alternating direction methods)和Bergman 迭代方法無梯度下降步驟的訓練網(wǎng)絡。該方法減少了網(wǎng)絡訓練問題,將其簡化成了一系列最小限度的子步驟,每個子步驟都能閉式全局解決。該方法之所以有益,是因為它繞過了很多注意事項,這些注意事項會造成梯度方法在高度非凸問題上進展緩慢。該方法在分布式環(huán)境中展示了強大的擴展能力,即便在分散成千萬個核的狀況下也能產(chǎn)生線性加速度。
論文引言
隨著硬件和算法的進步,神經(jīng)網(wǎng)絡在很多機器學習任務中的性能也在不斷改善。尤其在這樣的應用中進步非常明顯:可用龐大的數(shù)據(jù)熟練有眾多參數(shù)的模型。因為大型數(shù)據(jù)集得到的結果總是能超越之前在很多機器學習任務中最先進的方法,因此研究人員也愿意購買諸如 GPU 這樣的硬件,并花費大量的時間去訓練模型、優(yōu)化參數(shù)。
基于梯度的訓練方法有幾個特性,為了滿足這些特性需要專門的硬件。首先,雖然大量數(shù)據(jù)可以攤分到眾多核中,但是現(xiàn)有的優(yōu)化方法在并行時依然要忍受。第二,訓練神經(jīng)網(wǎng)絡需要優(yōu)化非凸目標,這些目標會帶有鞍點,條件缺乏,梯度消散現(xiàn)象。所有的這些都降低了基于梯度方法的速度,比如隨機梯度下降、共軛梯度以及 BFGS。之前介紹了幾個避免該問題的緩解途徑,包括解決線性單元(ReLu)(Nair & Hinton,2010)、長短期記憶網(wǎng)絡(Hochreiter & Schmidhuber,1997)、RPROP(Riedmiller & Braun,1993)等等,但是最根本的問題依然存在。
在本文中,我們介紹一種訓練神經(jīng)網(wǎng)絡參數(shù)的新的方法,這種方法使用了交替方向乘子算法(ADMM)和Bregman 迭代法。它解決了傳統(tǒng)梯度方法面臨的幾個問題;當跨核數(shù)據(jù)并行的時候,它展現(xiàn)出了線性擴展的能力,并且對梯度飽和和條件缺乏現(xiàn)象有較好的魯棒性。該方法還將網(wǎng)絡訓練分解成一系列的子步驟,每一個步驟都能得到全局最優(yōu)性的解決。我們提議方法的擴展性,再加上避免局部最小化、全局解決每一子步驟的能力,能夠達到急劇加速訓練的效果。
在第二章,我們開始介紹這種方法的數(shù)學符號和背景,并討論了我們想要解決的基于梯度方法的幾個弱點。第三章和第四章介紹并描述了我們的優(yōu)化方法,第五章和第六章詳細講解了分布式實現(xiàn)。第七章通過處理兩個不同類型和困難度的問題,給出了一個新方法和標準實現(xiàn)的數(shù)個基于梯度方法的實驗性對比。最后,第八章結束討論了這一論文的貢獻和未來需要做的工作。
本文由機器之心編譯
|