您的位置:首頁>科技>正文

“穀歌大腦”:9個基礎方向研究、6大具體領域成果定義穀歌AI進展

作為穀歌 AI 帝國的重要部分, 穀歌大腦團隊一直致力於通過研究和系統工程來推動人工智慧領域的發展。 去年他們分享了 2016 年的工作總結。 在接下來的一年中, 他們在製造智慧型機器的長期研究中不斷取得進步, 並與來自 Google 和 Alphabet 的其他團隊合作, 利用研究成果來為人類造福。

近日, 該團隊按照慣例, 發表了 2017 年的年度總結。 這份總結由谷歌高級研究員 Jeff Dean 代表整個團隊執筆。 總結分為上下兩篇。 在上篇中主要介紹了 2017 年團隊的基礎研究工作, 開源一些軟體和資料集以及用於機器學習的硬體更新。 下篇將介紹團隊在特定領域的研究,

比如醫療, 機器人, 和一些基礎科學。 以及更多的關於團隊富有的創造力, 公平和包容性的工作, 和跟多關於團隊自身的內容。

核心研究

穀歌大腦團隊的關注的重點是那些可以在機器學習領域提高理解力和解決新問題的能力的研究。 以下是一些研究主題。

1. 自動化機器學習

如我們所知, 機器學習的演算法是由機器學習專家精細設計的, 但是需要解決的新問題層出不窮。 自動化機器學習的目標就是讓電腦自動去解決新的機器學習問題, 而不需要人類機器學習專家在每個新問題上進行干預。 如果我們希望得到真正的智慧系統, 這就是必須的基本能力。

穀歌大腦團隊設計出使用強化學習和演化演算法的新的神經網路設計方法。

這項工作已經被擴展到最新的 ImageNet 分類和檢測, 並展示了如何自動學習新的優化演算法和有效的啟動函數。 團隊積極與穀歌的 Cloud AI 團隊合作, 讓穀歌用戶可以享受這項成果, 同時將這項研究在多個方向上推進。

圖丨神經結構搜索發現的卷積結構

圖丨自動機器學習的網路進行物體探測

2. 語音理解與生成

團隊發展新的技術來改善電腦理解和生成人類語音的能力, 並與穀歌的語音團隊合作為一個多端到端的語音辨識系統研究出多種優化方法。

這使得 Google 的產品——語音辨識系統的相對單詞錯誤率降低了 16%。 這項工作將許多獨立的研究線索彙集到一起。

圖丨Listen-Attend-Spell 端對端語音辨識系統的組成

團隊還與 Google 的 Machine Perception 團隊合作開發了一種新的文本到語音生成方法, Tacotron 2。 它極大地提高了生成的語音的品質。 這個模型達到了 4.53 的平均意見得分(MOS),

相比之下, 有聲讀物中的專業記錄語音的 MOS 為 4.58, 之前的電腦語音生成系統最好成績也僅僅為 4.34。

圖丨Tacotron 2 結構圖

3. 新的機器學習演算法和途徑

團隊一直致力於開發新奇的機器學習演算法和方法, 包括在 capsules 上的研究(明確地尋找啟動特徵協定, 作為在執行視覺任務時評估多種不同噪音假設的方式),sparsely-gated mixtures of experts(使非常大的模型仍能有很高的計算效率),超網路(使用一個模型的權重為另一個模型生成權重),新型多模式模型(在同一模型中跨音訊,視覺和文本輸入執行多工學習),基於注意的機制(替代卷積和迴圈模型),符號和非符號化的學習優化方法,一種通過離散變數的反向傳播技術,以及一些對強化學習演算法改進。

4. 電腦系統領域的機器學習

穀歌大腦團隊對於用機器學習的方法在電腦系統中取代傳統的啟發式應用非常感興趣。他們已經展示了如何使用強化學習來進行放置決策,將計算圖映射到一組計算設備上,而且比人類專家做的更好。團隊還與 Google Research 合作,展示了神經網路建立的索引比傳統資料結構(如 B 樹,散列表和布隆篩檢程式)更快,更小。如 NIPS 關於機器學習系統和系統的機器學習討論會上所說的,穀歌大腦團隊相信,他們正在觸及在核心電腦系統中使用機器學習這一領域。

圖丨用習得的模型作為索引結構

5. 隱私與安全

機器學習及其與安全和隱私的交互一直是團隊關注的焦點。在一篇獲得 ICLR 2017“最佳論文獎”的的論文中,團隊展示了機器學習技術可以提供不同方式的隱私保證。團隊還繼續調查了抗性樣例的性質,包括在現實世界中展現的對抗性樣例,以及在訓練過程中如何充分利用他們來使模型更適應這些對抗性樣例。

6. 理解機器學習系統

雖然人們已經見識到了深度學習的強大能力,但更重要的是理解它為什麼起作用,什麼時候不起作用。在另一篇獲得 ICLR 2017“最佳論文獎”的論文中,團隊向大家闡明,目前的機器學習理論框架無法解釋深度學習方法的一些傑出的結果。團隊展示了,通過最優化方法找到的最小值的“平坦度”,並不像最初想像的那樣與良好的泛化緊密相關。為了更好地理解深層架構下的訓練過程是如何進行的,穀歌大腦團隊發表了一系列分析隨機矩陣的論文,因為它們是大多數訓練方法的出發點。

瞭解深度學習的另一個重要途徑就是更好地衡量他們的效果。在最近的一項對眾多生成對抗網路的比較的研究中,團隊展示了良好的實驗設計和統計嚴謹性的重要性,他們發現許多流行的對生成模型的增強方法實際上並沒有提高它的性能。我們希望這項研究能夠為其他研究人員提供一個可靠的實驗研究的範例。

團隊正在開發能夠更好地解釋機器學習系統的方法。在三月份,團隊與 OpenAI,DeepMind,YC Research 等合作,宣佈推出 Distill,這是一本致力於支持人類對機器學習的進行理解的線上開放式科學雜誌。它因對機器學習概念的清晰闡釋和在出色的互動式視覺化工具而廣受讚譽。在第一年,Distill 上就發表了許多啟發性的文章,旨在瞭解各種機器學習技術的內部工作機理,我們期待 2018 年迎來更多可能。

圖丨特徵視覺化

7. 機器學習研究的開來源資料集

資料集對於機器學習研究的重要性不言而喻。像 MNIST, CIFAR-10, ImageNet, SVHN, and WMT 這樣的開來源資料集一直推動著機器學習飛速發展。穀歌大腦團隊和 Google Research 在過去一年一直積極地為開放式機器學習研究公開有趣的新資料集,提供更多的大型標記資料集,包括:

YouTube-8M: >用 4716 個不同類別標注的 7 百萬 YouTube 視頻

YouTube-Bounding Boxes: 來自 21 萬 Youtube 視頻的五百萬個邊際框標注

Speech Commands Dataset: 成千上萬人所說的簡短的命令字

AudioSet: 用 527 個聲音事件標注的 2 百萬個 10 秒的 YouTube 剪輯

Atomic Visual Actions (AVA): 57000 個視訊短片片段中 21 萬個動作標注

Open Images: 9M 的通過 6000 個類別對創意共用許可圖像進行標注

Open Images with Bounding Boxes: 1.2M 的共計 600 個分類的邊界框標注

圖丨YouTube-Bounding Boxes dataset 的例子:邊界框標注的物體

8.TensorFlow 和開源軟體

縱觀團隊的歷史,許多構建的工具已經在 Google 的許多產品應用,進行機器學習研究並部署機器學習系統。2015 年 11 月,第二代機器學習框架 TensorFlow 開源,團隊希望整個機器學習社區能夠從中受益。在 2017 年 2 月,TensorFlow 1.0 發佈。在 11 月,1.4 版本發佈,這其中包括重要的添加內容:用於互動式命令式程式設計的 Eager execution,TensorFlow 程式的優化編譯器 XLA,以及適用於移動設備和嵌入式設備的羽量級解決方案 TensorFlow Lite。現在,預編譯的 TensorFlow 二進位檔案現在已經在 180 多個國家被下載了超過一千萬次,GitHub 上的原始程式碼現在已經有超過 1200 個貢獻者。

圖丨TensorFlow 用戶分佈圖

今年 2 月,首屆 TensorFlow 開發者峰會成功舉辦,吸引了 450 多人親臨現場參加活動,6500 人觀看直播,在全球 35 多個國家和地區舉辦了超過 85 場的本地觀看活動。所有會談都被記錄下來,主題包括新特性,使用 TensorFlow 的技巧,或者對低層次 TensorFlow 抽象的探討。團隊預計於 2018 年 3 月 30 日在灣區舉辦另一個 TensorFlow 開發者峰會。

在十一月,TensorFlow 慶祝其開放原始程式碼項目兩周年。TensorFlow 是 GitHub 上排名第一的機器學習平臺,也是 GitHub 上的五大軟體庫之一,已經被許多大大小小的公司和機構所使用,包括 GitHub 上超過 24,500 個與 TensorFlow 相關的倉庫。現在,許多研究論文都與開放源碼的 TensorFlow 實現和研究結果一起出版,使社區能夠更容易地理解所使用的確切方法,並重現或擴展工作。

除了 TensorFlow 之外,團隊還在流覽器中發佈了 deeplearn.js,一個開源的硬體加速深度學習的 API 實現(無需下載或安裝任何東西)。deeplearn.js 主頁有許多很好的例子,其中包括 Teachable Machine, 可以使用網路攝像頭訓練的電腦視覺模型,以及 Performance RNN,一個基於即時神經網路的鋼琴作曲和演奏效果的演示。團隊將在 2018 年繼續開展工作,以便將 TensorFlow 模型直接部署到 deeplearn.js 環境中。

作為在執行視覺任務時評估多種不同噪音假設的方式),sparsely-gated mixtures of experts(使非常大的模型仍能有很高的計算效率),超網路(使用一個模型的權重為另一個模型生成權重),新型多模式模型(在同一模型中跨音訊,視覺和文本輸入執行多工學習),基於注意的機制(替代卷積和迴圈模型),符號和非符號化的學習優化方法,一種通過離散變數的反向傳播技術,以及一些對強化學習演算法改進。

4. 電腦系統領域的機器學習

穀歌大腦團隊對於用機器學習的方法在電腦系統中取代傳統的啟發式應用非常感興趣。他們已經展示了如何使用強化學習來進行放置決策,將計算圖映射到一組計算設備上,而且比人類專家做的更好。團隊還與 Google Research 合作,展示了神經網路建立的索引比傳統資料結構(如 B 樹,散列表和布隆篩檢程式)更快,更小。如 NIPS 關於機器學習系統和系統的機器學習討論會上所說的,穀歌大腦團隊相信,他們正在觸及在核心電腦系統中使用機器學習這一領域。

圖丨用習得的模型作為索引結構

5. 隱私與安全

機器學習及其與安全和隱私的交互一直是團隊關注的焦點。在一篇獲得 ICLR 2017“最佳論文獎”的的論文中,團隊展示了機器學習技術可以提供不同方式的隱私保證。團隊還繼續調查了抗性樣例的性質,包括在現實世界中展現的對抗性樣例,以及在訓練過程中如何充分利用他們來使模型更適應這些對抗性樣例。

6. 理解機器學習系統

雖然人們已經見識到了深度學習的強大能力,但更重要的是理解它為什麼起作用,什麼時候不起作用。在另一篇獲得 ICLR 2017“最佳論文獎”的論文中,團隊向大家闡明,目前的機器學習理論框架無法解釋深度學習方法的一些傑出的結果。團隊展示了,通過最優化方法找到的最小值的“平坦度”,並不像最初想像的那樣與良好的泛化緊密相關。為了更好地理解深層架構下的訓練過程是如何進行的,穀歌大腦團隊發表了一系列分析隨機矩陣的論文,因為它們是大多數訓練方法的出發點。

瞭解深度學習的另一個重要途徑就是更好地衡量他們的效果。在最近的一項對眾多生成對抗網路的比較的研究中,團隊展示了良好的實驗設計和統計嚴謹性的重要性,他們發現許多流行的對生成模型的增強方法實際上並沒有提高它的性能。我們希望這項研究能夠為其他研究人員提供一個可靠的實驗研究的範例。

團隊正在開發能夠更好地解釋機器學習系統的方法。在三月份,團隊與 OpenAI,DeepMind,YC Research 等合作,宣佈推出 Distill,這是一本致力於支持人類對機器學習的進行理解的線上開放式科學雜誌。它因對機器學習概念的清晰闡釋和在出色的互動式視覺化工具而廣受讚譽。在第一年,Distill 上就發表了許多啟發性的文章,旨在瞭解各種機器學習技術的內部工作機理,我們期待 2018 年迎來更多可能。

圖丨特徵視覺化

7. 機器學習研究的開來源資料集

資料集對於機器學習研究的重要性不言而喻。像 MNIST, CIFAR-10, ImageNet, SVHN, and WMT 這樣的開來源資料集一直推動著機器學習飛速發展。穀歌大腦團隊和 Google Research 在過去一年一直積極地為開放式機器學習研究公開有趣的新資料集,提供更多的大型標記資料集,包括:

YouTube-8M: >用 4716 個不同類別標注的 7 百萬 YouTube 視頻

YouTube-Bounding Boxes: 來自 21 萬 Youtube 視頻的五百萬個邊際框標注

Speech Commands Dataset: 成千上萬人所說的簡短的命令字

AudioSet: 用 527 個聲音事件標注的 2 百萬個 10 秒的 YouTube 剪輯

Atomic Visual Actions (AVA): 57000 個視訊短片片段中 21 萬個動作標注

Open Images: 9M 的通過 6000 個類別對創意共用許可圖像進行標注

Open Images with Bounding Boxes: 1.2M 的共計 600 個分類的邊界框標注

圖丨YouTube-Bounding Boxes dataset 的例子:邊界框標注的物體

8.TensorFlow 和開源軟體

縱觀團隊的歷史,許多構建的工具已經在 Google 的許多產品應用,進行機器學習研究並部署機器學習系統。2015 年 11 月,第二代機器學習框架 TensorFlow 開源,團隊希望整個機器學習社區能夠從中受益。在 2017 年 2 月,TensorFlow 1.0 發佈。在 11 月,1.4 版本發佈,這其中包括重要的添加內容:用於互動式命令式程式設計的 Eager execution,TensorFlow 程式的優化編譯器 XLA,以及適用於移動設備和嵌入式設備的羽量級解決方案 TensorFlow Lite。現在,預編譯的 TensorFlow 二進位檔案現在已經在 180 多個國家被下載了超過一千萬次,GitHub 上的原始程式碼現在已經有超過 1200 個貢獻者。

圖丨TensorFlow 用戶分佈圖

今年 2 月,首屆 TensorFlow 開發者峰會成功舉辦,吸引了 450 多人親臨現場參加活動,6500 人觀看直播,在全球 35 多個國家和地區舉辦了超過 85 場的本地觀看活動。所有會談都被記錄下來,主題包括新特性,使用 TensorFlow 的技巧,或者對低層次 TensorFlow 抽象的探討。團隊預計於 2018 年 3 月 30 日在灣區舉辦另一個 TensorFlow 開發者峰會。

在十一月,TensorFlow 慶祝其開放原始程式碼項目兩周年。TensorFlow 是 GitHub 上排名第一的機器學習平臺,也是 GitHub 上的五大軟體庫之一,已經被許多大大小小的公司和機構所使用,包括 GitHub 上超過 24,500 個與 TensorFlow 相關的倉庫。現在,許多研究論文都與開放源碼的 TensorFlow 實現和研究結果一起出版,使社區能夠更容易地理解所使用的確切方法,並重現或擴展工作。

除了 TensorFlow 之外,團隊還在流覽器中發佈了 deeplearn.js,一個開源的硬體加速深度學習的 API 實現(無需下載或安裝任何東西)。deeplearn.js 主頁有許多很好的例子,其中包括 Teachable Machine, 可以使用網路攝像頭訓練的電腦視覺模型,以及 Performance RNN,一個基於即時神經網路的鋼琴作曲和演奏效果的演示。團隊將在 2018 年繼續開展工作,以便將 TensorFlow 模型直接部署到 deeplearn.js 環境中。

Next Article
喜欢就按个赞吧!!!
点击关闭提示