穀歌提出協同機器學習：通過分散的手機更新同一個雲端模型

選自Google Blog

作者：Brendan McMahan、Daniel Ramage

機器之心編譯

參與：微胖、Ellen Han

標準的機器學習方法要求在一個機器或者資料中心集中訓練資料。穀歌已經打造出用於資料處理的最安全、最強健的雲基礎架構之一。現在，為了通過使用者與移動設備交互來訓練模型，我們推出了另一種辦法：聯合學習（federated learning）。

聯合學習可以讓移動手機協同（collaboratively）學習一個共用的預測模型，與此同時所有訓練資料仍保留在設備上，將機器學習與資料儲存在雲端的需求脫鉤。通過在設備上進行模型訓練，這一方法超越了對在移動設備端進行預測的本地模型的使用方式（比如移動視覺 API 以及設備智慧回復）。

手機在本地個性化模型，以你的手機使用方式為基礎（A）。許多用戶的更新會集中（B）起來，形成針對共用模型的協同一致的變更（C），然後重複這個過程。

聯合學習考慮到了讓模型更聰明、延遲更低、更節能而不讓隱私受到威脅。

而且，這一方法還有一個間接好處：除了提供共用模型的更新，你還能立刻使用改善後的模型，根據你使用手機的方式不同，體驗也會不同。

我們目前正在安卓的 Gboard（穀歌鍵盤）上測試聯合學習。當鍵盤提出一個建議問詢時，手機就會在本機存放區相關資訊，比如當前文本，以及你是否點擊了相關建議。聯合學習在設備上處理這一過程，並對鍵盤問詢建議的反覆運算提出改善建議。

為了實現聯合學習，我們不得不克服許多演算法和技術難題。在一個典型的機器學習系統中，一個優化演算法，比如隨機梯度下降（SGD）通常運行在一個大型資料組上，這個大型資料組通常在跨伺服器均質分區。這類高度反覆運算演算法需要低延遲，高通量的資料連接。但是，在聯合學習中，資料分佈跨越數百萬設備，而這些設備的分佈高度不均勻。另外，這些設備還存在明顯的更高延遲、更低通量的連接情況，而且間歇適合於訓練。

將這一技術部署到數以百萬計、使用了穀歌鍵盤的異構手機上，

需要成熟的技術堆疊。設備訓練使用了一個迷你版的 TF。仔細安排日程能確保訓練僅僅發生在設備閒置、處在插電狀態時，並且使用的是無線網路，因此，對手機用戶體驗沒啥影響。

僅當手機不會對你的體驗產生負面影響時，它才會參與到聯合學習中去。

然後，系統需要以一種安全、高效、可擴展以及容錯的方式來聯通並聚合模型更新。只有將研究與這一基礎架構結合起來才能讓聯合學習發揮作用。

不需要將使用者資料存入雲端就能進行聯合學習，但這還不夠。我們已經開發了一個使用密碼技術的安全聚合協定（Secure Aggregation protocol (http://eprint.iacr.org/2017/281)），只有當幾萬或幾十萬用戶參與進來，一個協同伺服器才能解密被平均的更新——在平均化前，個體手機更新是無法被監測到的。在用來解決深度網路大小以及真實世界連接限制問題的這類協議中，這是首例。我們也設計了聯合平均（Federated Averaging），這樣，協同伺服器僅需要平均後的更新，就能使用安全聚合協定；不過，協議是通用的，它還能應用到其他問題上。我們正致力於將這一協定推行到產品中，也期待在不久的將來將其部署到聯合學習的應用中。

我們的工作僅僅觸及了可能性的表層。聯合學習無法解決所有機器學習難題（例如，通過在仔細標注過的樣本上訓練，學會識別不同種類的狗），而且對於許多其他模型來說，必要的訓練資料已經存儲於雲端（例如，為 Gmail 訓練垃圾郵件篩檢程式）。所以，穀歌將繼續推進最新的基於雲的機器學習研究，但是，我們也承諾繼續研究擴大聯合學習解決問題的範圍。比如，除了穀歌鍵盤問詢建議，我們希望根據你在手機上的真實輸入，改善驅動鍵盤的語言模型，以及根據人們查看、分享以及刪除的圖片內容來改善照片排列。

應用聯合學習需要機器學習實踐者採用新工具和新的思維方式：在無法直接接觸或標記初始資料，通信成本有限（communication cost）的情況下，進行模型研發、訓練以及評估。我們相信，聯合學習為用戶帶來的好處讓解決技術挑戰是有價值的，我們也滿懷與機器學習研究社區進行廣泛對話的希望發表自己的研究成果。

我們正致力於將這一協定推行到產品中，也期待在不久的將來將其部署到聯合學習的應用中。