您的位置:首頁>正文

穀歌2017AI年度報告

作者:Jeff Dean

「雷克世界」編譯:KABUDA

穀歌大腦團隊(Google Brain team)團隊致力於通過科研和系統工程來提升人工智慧的先進水準, 這也是整個穀歌團隊AI工作的一部分。

去年, 我們分享了2016年工作總結, 從那時起, 我們在機械智慧化的長期研究方面不斷取得進展, 並與Google和Alphabet的許多團隊展開合作, 利用研究成果改善人們的生活。 這兩篇文章中的第一篇, 將重點介紹我們在2017年的一些工作, 包括我們的一些基礎研究工作, 以及開源軟體、資料集和機器學習新硬體方面的新成果。 在第二篇文章中, 我們將對某些特殊領域(對於這些領域而言, 機器學習可能會對其產生重大影響, 如醫療保健、機器人和一些基礎科學領域)展開深入研究, 並介紹我們開展的創造性、公平性、包容性的工作, 以幫助你更好地瞭解我們。

核心研究

我們團隊關注的重點在於科研, 並以此來提高我們的理解能力以及解決機器學習領域新問題的能力。

以下是我們去年研究的幾大主題。

AutoML

自動化機器學習的目標是推動技術發展, 從而讓電腦能夠自動解決機器學習方面的新問題, 而不需要人類機器學習專家來解決每個新問題。 如果我們想擁有真正的智慧系統, 那麼這將是我們需要具備的一項基本技術能力。 我們提出了利用強化學習(reinforcement learning)和進化演算法(evolutionary algorithms)來設計神經網路結構的新方法, 並將這項工作推廣到了ImageNet圖像分類和檢測領域的最新成果, 展示了如何自動學習新的優化演算法(optimization algorithms)和有效的啟動函數(activation functions)。 我們正與穀歌Cloud AI團隊(Google Cloud AI team)展開積極合作, 將此項技術提供給Google客戶, 同時不斷向多個方面推進這項研究。

利用神經網路搜索發現卷積結構

利用AutoML發現的網路進行目標檢測

語言理解與生成

另一項主要工作是開發新技術, 以此來提高我們電腦系統理解和生成人類語音的能力, 其中包括我們與穀歌語音團隊(Google speech team)團隊的合作, 為端到端的語音辨識技術進行了一系列改進, 從而將穀歌語音辨識系統產生的相對詞錯率降低了16%。 這項研究的一個好處是, 它需要將許不同的研究思路整合到一起。

用於語音辨識的Listen-Attend-Spell端到端模型的元件

我們還與穀歌的機器感知團隊( Machine Perception team)的研究同事合作, 開發了一種新的文本到語音(text-to-speech)生成方法(Tacotron 2), 極大地提高了生成語音的品質。 該模型的平均意見得分(MOS)為4.53, 相比之下, 專業錄音的MOS值為4.58(你或許在有聲讀物中看到過), 過去最好的電腦生成語音系統(computer-generated speech system)的MOS值為4.34。 你可以在這裡試聽:https://google.github.io/tacotron/publications/tacotron2/index.html

Tacotron 2的模型架構

機器學習的新演算法和新方法

我們不斷開發機器學習的新演算法和新方法,包括Hinton提出的capsules的工作(在執行視覺任務時,明確尋找啟動特徵中的一致性,作為評估許多不同雜訊假設的方法)、稀疏門控專家混合層(sparsely-gated mixtures of experts)(這使得超大模型仍然具有高計算效率)、超網路(hypernetworks)(用一個模型的權值生成另一個模型的權值)、新的multi-modal模型(在同一個模型上執行音訊、視覺和文本輸入的多個學習任務)、基於attention的機制(作為卷積模型和遞迴模型的替代)、symbolic和non-symbolic學習優化方法、通過離散變數進行反向傳播的技術以及新型強化學習演算法改進的研究。

電腦系統的機器學習

在電腦系統中,利用機器學習取代傳統的啟發方法,也是我們非常感興趣的。我們展示了如何使用強化學習來做出佈局決策(placement decision),以便將計算圖形映射到一組比人類專家更優秀的電腦設備上。與穀歌科研(Google Research)的其他同事一樣,我們在“學習索引結構的案例”一文中證明了神經網路比傳統資料結構(如B-tress、雜湊表和布隆篩檢程式(Bloom filter)速度更快、規模更小。我們相信,正如在NIPS的Machine Learning for Systems and Systems for Machine Learning研討會上所述,對於在核心電腦系統中使用機器學習而言,我們還停留在表面。

學習模型作為Index結構

隱私與安全

機器學習及其與安全和隱私的交叉領域,仍然是我們主要研究的重點。在一篇獲得ICLR 2017最佳論文獎的論文中,我們展示了機器學習技術可以以一種提供不同隱私保證的方式應用。我們還在持續研究對抗樣本的性質,包括在物理世界中展示對抗樣本,以及如何在訓練過程中大規模利用對抗樣本,進而使模型相對於抗樣本而言具有更強的魯棒性。

瞭解機器學習系統

雖然我們在深度學習領域取得了許多令人印象深刻的成果,但重要的是弄清楚它的工作原理,以及它在何種狀態下會停止工作。在另一篇獲得ICLR 2017最佳論文獎的論文中,我們發現了,目前的機器學習理論框架無法解釋深度學習方法中,那些令人印象深刻的成果。我們還發現,通過最優方法尋找最小的“平坦度”(flatness),並不像最初預想的那樣,與良好的泛化緊密相關。為了更好地理解在深層構架下,訓練是如何進行的,我們發表了一系列分析隨機矩陣的論文,因為這是大多數訓練方法的出發點。瞭解深度學習的另一個重要方法是更好地衡量它們的表現。在最近的一項研究中,我們證明了良好的實驗設計以及嚴謹統計的重要性,比較了許多GAN方法,發現許多流行的生成模型增強並沒有提高性能。我們希望這項研究,能夠在其他研究人員進行相關實驗時,提供一個可靠範例。

我們正在研發能夠更好地解釋機器學習系統的方法。並且在3月,我們與OpenAI、DeepMind、YC Research合作,宣佈推出Distill,這是一本致力於幫助人類更好地理解機器學習的線上開放性科學期刊。其清楚地闡釋了機器學習的感念,提供了優秀的互動式視覺化工具,並獲得了良好反響。在刊物發行的第一年,Distill發表了許多有啟發性的文章,旨在瞭解各種機器學習技術的內部工作原理,我們期待在2018年可以取得更多進展。

特徵視覺化

如何有效地利用t-SNE

用於機器學習研究的開放式資料集

像MNIST、CIFAR-10、mageNet、SVHN和WMT這樣的開放資料集,極大地推動了機器學習領域的發展。作為一個集體,我們團隊與穀歌科研(Google Research)在過去一年左右的時間裡,一直通過提供更大的標記資料集,積極地為開放式機器學習提供開放、有趣的新資料集,包括:

•YouTube-8M: 使用4,716個不同類別注釋的700萬YouTube視頻(https://research.google.com/youtube8m/)

•YouTube-Bounding Boxes: 來自210,000個YouTube視頻的500萬個bounding boxes(https://research.googleblog.com/2017/02/advancing-research-on-video.html)

•Speech Commands資料集:包含數千個說話者說的短指令詞(https://research.googleblog.com/2017/08/launching-speech-commands-dataset.html)

•AudioSet:200萬個10秒的YouTube視訊短片,標記有527個不同的聲音事件(https://research.googleblog.com/2017/03/announcing-audioset-dataset-for-audio.html)

•Atomic Visual Actions(AVA):57,000個視訊短片中的21萬個動作標籤(https://research.googleblog.com/2017/10/announcing-ava-finely-labeled-video.html)

•Open Images:使用6000個類別標記的900萬個創作共用許可的圖像(https://research.googleblog.com/2016/09/introducing-open-images-dataset.html)

•Open Images with Boundign Boxes:600個類別的120萬個bounding boxes(https://research.googleblog.com/2017/07/an-update-to-open-images-now-with.html)

來自YouTube- Bounding Boxes資料集:以每秒1幀採樣的視頻片段,圍繞相關專案成功標識邊界框

TensorFlow和開源軟體

顯示TensorFlow使用者廣泛分佈的地圖

縱觀我們團隊的歷史,我們已經開發了一些工具,幫助我們進行機器學習研究,並在穀歌的許多產品中部署了機器學習系統。2015年11月,我們開放了第二代機器學習框架TensorFlow,希望機器學習社區能夠從機器學習軟體工具的投資中獲益。2017年2月,我們發佈了TensorFlow 1.0,2017年11月,我們發佈了v1.4版本,增加了以下重要功能:用於互動式命令式程式設計的Eager execution,用於TensorFlow程式的優化編譯器XLA,以及用於移動設備和嵌入式設備的羽量級解決方案TensorFlow Lite。預編譯的TensorFlow二進位檔案現在已經在180多個國家被下載了超過1000萬次,GitHub上的原始程式碼現在已經有超過1200個貢獻者。

2017年2月,我們舉辦了首屆TensorFlow開發者峰會,超過450多人參加了在山景城的活動,超過6500人觀看了直播,包括在全球35多個國家和地區舉辦了超過85場的本地觀看活動。所有的會談都被記錄了下來,主題包括TensorFlow的新功能、使用TensorFlow的技巧和低層TensorFlow抽象的細節。我們將在2018年3月30日在灣區舉辦第二屆TensorFlow開發者峰會。

視頻載入中...

這個“石頭剪刀布”的科學實驗是TensorFlow的一個創新實踐。 我們對在2017年出現的TensorFlow的各種使用途感到非常興奮,其中包括自動化黃瓜分選、在航拍圖像中尋找海牛、分選切塊馬鈴薯以製作更安全的嬰兒食品、識別皮膚癌、在紐西蘭的一個鳥類保護區解讀鳥類鳴叫、並在坦尚尼亞識別病株。

2017年11月,TensorFlow為開放原始程式碼項目兩周年,舉辦了慶祝活動。 能夠看到一個充滿活力的TensorFlow開發者和用戶群體的出現,無疑是對我們最好的回報。TensorFlow是GitHub上排名第一的機器學習平臺,也是GitHub上五大軟體庫之一,被許多不同規模的公司和機構所使用,Git Hub上有超過24500個與Tensor Flowl相關的獨立軟體庫。現在,許多研究論文都與開放源碼的TensorFlow實現一起出版,以配合研究結果,使社區能夠更容易地理解每篇論文描述的使用方法,並重現或擴展工作。

TensorFlow也受益於其他Google研究團隊的相關開源工作,其中,包括TensorFlow中生成對抗模型的羽量級庫TF-GAN、TensorFlow Lattice、一組基於網格模型的估計器,以及TensorFlow Object Detection API。TensorFlow模型庫隨著模型的增多而持續擴張。

除了Tensor Flower之外,我們還發佈了deeplearn.js,這是一個在流覽器中快速實現深度學習的API開源硬體(無需下載或安裝任何東西)。deeplearn.js的主頁有許多很好的例子,包括Teachable Machine、使用你的網路攝像進行機訓練的電腦視覺模型、Performance RNN、一個基於即時神經網路的鋼琴合成和性能演示。我們將在2018年開展工作,以便將TensorFlow模型直接部署到deeplearn.js環境中。

TPUs

Cloud TPUS提供高達180兆的機器學習加速

大約五年前,我們認識到,深度學習將極大改變我們所需的硬體類型。深度學習計算的計算量非常大,但是它們有兩個特殊的性質:它們主要由密集的線性代數運算(矩陣倍數,向量運算等)組成,它們對精度的降低具有非常好的包容性。我們意識到我們可以利用這兩個屬性,來構建能夠非常有效地運行神經網路計算的專用硬體。我們向穀歌平臺(Google Platforms)團隊提供了設計輸入,他們設計並生產了第一代Tensor Processing Unit(TPU): 一種説明深度學習模型進行加速推理的單晶片ASIC(推理使用已訓練的神經網路,並且訓練方式不同)。第一代TPU已經在我們的資料中心部署了三年,它被用於為穀歌搜索(Google Search)、谷歌翻譯(Google Translate)、穀歌圖片(Google Photos)、李世石和柯潔與Alphago的比賽,以及許多其他研究和產品用途。2017年6月,我們在ISCA 2017上發表了一篇論文,證實第一代TPU比與其同時期的GPU或CPU同類產品,處理速度快15倍- 30倍,性能/功耗節優化30 – 80倍。

Cloud TPU Pod可以提供高達11.5 petaflops的機器學習加速

在Image Net上進行RENET-50訓練的實驗表明,隨著TPU設備數量的增加,實現了近乎完美的加速

推論是很重要的,但是加速訓練過程是一個更重要的問題,也是一個更困難的問題。研究人員越快地嘗試新想法,我們就能取得更多的突破。我們去年5月份在Google I / O上宣佈的第二代TPU,是一個旨在加速訓練和推理過程的一體化系統(定制ASIC晶片、電路板和互連),我們展示了一個設備配置:TPU Pod。我們宣佈這些第二代設備將在穀歌雲平臺(Google Cloud Platform)上作為Cloud TPUs提供。我們還公佈了TensorFlow研究雲計畫(TFRC),該計畫旨在為頂級ML研究人員提供方案,這些人致力於與世界分享他們的工作,以便免費訪問1000個Cloud TPUs集群。在2017年12月,我們展示了一項研究,證實我們可以在22分鐘內,從TPU Pod上訓練一個ResNet-50 ImageNet模型,而在一個典型的工作站上,這需要於幾天或更長時間,相同時間裡,TPU Pod上訓練的模型準確度要高。我們認為以這種方式縮短研發週期,將極大提高穀歌的機器學習團隊和所有使用Could TPUs的組織的工作效率。

原文連結:https://research.googleblog.com/2018/01/the-google-brain-team-looking-back-on.html?m=1

Tacotron 2的模型架構

機器學習的新演算法和新方法

我們不斷開發機器學習的新演算法和新方法,包括Hinton提出的capsules的工作(在執行視覺任務時,明確尋找啟動特徵中的一致性,作為評估許多不同雜訊假設的方法)、稀疏門控專家混合層(sparsely-gated mixtures of experts)(這使得超大模型仍然具有高計算效率)、超網路(hypernetworks)(用一個模型的權值生成另一個模型的權值)、新的multi-modal模型(在同一個模型上執行音訊、視覺和文本輸入的多個學習任務)、基於attention的機制(作為卷積模型和遞迴模型的替代)、symbolic和non-symbolic學習優化方法、通過離散變數進行反向傳播的技術以及新型強化學習演算法改進的研究。

電腦系統的機器學習

在電腦系統中,利用機器學習取代傳統的啟發方法,也是我們非常感興趣的。我們展示了如何使用強化學習來做出佈局決策(placement decision),以便將計算圖形映射到一組比人類專家更優秀的電腦設備上。與穀歌科研(Google Research)的其他同事一樣,我們在“學習索引結構的案例”一文中證明了神經網路比傳統資料結構(如B-tress、雜湊表和布隆篩檢程式(Bloom filter)速度更快、規模更小。我們相信,正如在NIPS的Machine Learning for Systems and Systems for Machine Learning研討會上所述,對於在核心電腦系統中使用機器學習而言,我們還停留在表面。

學習模型作為Index結構

隱私與安全

機器學習及其與安全和隱私的交叉領域,仍然是我們主要研究的重點。在一篇獲得ICLR 2017最佳論文獎的論文中,我們展示了機器學習技術可以以一種提供不同隱私保證的方式應用。我們還在持續研究對抗樣本的性質,包括在物理世界中展示對抗樣本,以及如何在訓練過程中大規模利用對抗樣本,進而使模型相對於抗樣本而言具有更強的魯棒性。

瞭解機器學習系統

雖然我們在深度學習領域取得了許多令人印象深刻的成果,但重要的是弄清楚它的工作原理,以及它在何種狀態下會停止工作。在另一篇獲得ICLR 2017最佳論文獎的論文中,我們發現了,目前的機器學習理論框架無法解釋深度學習方法中,那些令人印象深刻的成果。我們還發現,通過最優方法尋找最小的“平坦度”(flatness),並不像最初預想的那樣,與良好的泛化緊密相關。為了更好地理解在深層構架下,訓練是如何進行的,我們發表了一系列分析隨機矩陣的論文,因為這是大多數訓練方法的出發點。瞭解深度學習的另一個重要方法是更好地衡量它們的表現。在最近的一項研究中,我們證明了良好的實驗設計以及嚴謹統計的重要性,比較了許多GAN方法,發現許多流行的生成模型增強並沒有提高性能。我們希望這項研究,能夠在其他研究人員進行相關實驗時,提供一個可靠範例。

我們正在研發能夠更好地解釋機器學習系統的方法。並且在3月,我們與OpenAI、DeepMind、YC Research合作,宣佈推出Distill,這是一本致力於幫助人類更好地理解機器學習的線上開放性科學期刊。其清楚地闡釋了機器學習的感念,提供了優秀的互動式視覺化工具,並獲得了良好反響。在刊物發行的第一年,Distill發表了許多有啟發性的文章,旨在瞭解各種機器學習技術的內部工作原理,我們期待在2018年可以取得更多進展。

特徵視覺化

如何有效地利用t-SNE

用於機器學習研究的開放式資料集

像MNIST、CIFAR-10、mageNet、SVHN和WMT這樣的開放資料集,極大地推動了機器學習領域的發展。作為一個集體,我們團隊與穀歌科研(Google Research)在過去一年左右的時間裡,一直通過提供更大的標記資料集,積極地為開放式機器學習提供開放、有趣的新資料集,包括:

•YouTube-8M: 使用4,716個不同類別注釋的700萬YouTube視頻(https://research.google.com/youtube8m/)

•YouTube-Bounding Boxes: 來自210,000個YouTube視頻的500萬個bounding boxes(https://research.googleblog.com/2017/02/advancing-research-on-video.html)

•Speech Commands資料集:包含數千個說話者說的短指令詞(https://research.googleblog.com/2017/08/launching-speech-commands-dataset.html)

•AudioSet:200萬個10秒的YouTube視訊短片,標記有527個不同的聲音事件(https://research.googleblog.com/2017/03/announcing-audioset-dataset-for-audio.html)

•Atomic Visual Actions(AVA):57,000個視訊短片中的21萬個動作標籤(https://research.googleblog.com/2017/10/announcing-ava-finely-labeled-video.html)

•Open Images:使用6000個類別標記的900萬個創作共用許可的圖像(https://research.googleblog.com/2016/09/introducing-open-images-dataset.html)

•Open Images with Boundign Boxes:600個類別的120萬個bounding boxes(https://research.googleblog.com/2017/07/an-update-to-open-images-now-with.html)

來自YouTube- Bounding Boxes資料集:以每秒1幀採樣的視頻片段,圍繞相關專案成功標識邊界框

TensorFlow和開源軟體

顯示TensorFlow使用者廣泛分佈的地圖

縱觀我們團隊的歷史,我們已經開發了一些工具,幫助我們進行機器學習研究,並在穀歌的許多產品中部署了機器學習系統。2015年11月,我們開放了第二代機器學習框架TensorFlow,希望機器學習社區能夠從機器學習軟體工具的投資中獲益。2017年2月,我們發佈了TensorFlow 1.0,2017年11月,我們發佈了v1.4版本,增加了以下重要功能:用於互動式命令式程式設計的Eager execution,用於TensorFlow程式的優化編譯器XLA,以及用於移動設備和嵌入式設備的羽量級解決方案TensorFlow Lite。預編譯的TensorFlow二進位檔案現在已經在180多個國家被下載了超過1000萬次,GitHub上的原始程式碼現在已經有超過1200個貢獻者。

2017年2月,我們舉辦了首屆TensorFlow開發者峰會,超過450多人參加了在山景城的活動,超過6500人觀看了直播,包括在全球35多個國家和地區舉辦了超過85場的本地觀看活動。所有的會談都被記錄了下來,主題包括TensorFlow的新功能、使用TensorFlow的技巧和低層TensorFlow抽象的細節。我們將在2018年3月30日在灣區舉辦第二屆TensorFlow開發者峰會。

視頻載入中...

這個“石頭剪刀布”的科學實驗是TensorFlow的一個創新實踐。 我們對在2017年出現的TensorFlow的各種使用途感到非常興奮,其中包括自動化黃瓜分選、在航拍圖像中尋找海牛、分選切塊馬鈴薯以製作更安全的嬰兒食品、識別皮膚癌、在紐西蘭的一個鳥類保護區解讀鳥類鳴叫、並在坦尚尼亞識別病株。

2017年11月,TensorFlow為開放原始程式碼項目兩周年,舉辦了慶祝活動。 能夠看到一個充滿活力的TensorFlow開發者和用戶群體的出現,無疑是對我們最好的回報。TensorFlow是GitHub上排名第一的機器學習平臺,也是GitHub上五大軟體庫之一,被許多不同規模的公司和機構所使用,Git Hub上有超過24500個與Tensor Flowl相關的獨立軟體庫。現在,許多研究論文都與開放源碼的TensorFlow實現一起出版,以配合研究結果,使社區能夠更容易地理解每篇論文描述的使用方法,並重現或擴展工作。

TensorFlow也受益於其他Google研究團隊的相關開源工作,其中,包括TensorFlow中生成對抗模型的羽量級庫TF-GAN、TensorFlow Lattice、一組基於網格模型的估計器,以及TensorFlow Object Detection API。TensorFlow模型庫隨著模型的增多而持續擴張。

除了Tensor Flower之外,我們還發佈了deeplearn.js,這是一個在流覽器中快速實現深度學習的API開源硬體(無需下載或安裝任何東西)。deeplearn.js的主頁有許多很好的例子,包括Teachable Machine、使用你的網路攝像進行機訓練的電腦視覺模型、Performance RNN、一個基於即時神經網路的鋼琴合成和性能演示。我們將在2018年開展工作,以便將TensorFlow模型直接部署到deeplearn.js環境中。

TPUs

Cloud TPUS提供高達180兆的機器學習加速

大約五年前,我們認識到,深度學習將極大改變我們所需的硬體類型。深度學習計算的計算量非常大,但是它們有兩個特殊的性質:它們主要由密集的線性代數運算(矩陣倍數,向量運算等)組成,它們對精度的降低具有非常好的包容性。我們意識到我們可以利用這兩個屬性,來構建能夠非常有效地運行神經網路計算的專用硬體。我們向穀歌平臺(Google Platforms)團隊提供了設計輸入,他們設計並生產了第一代Tensor Processing Unit(TPU): 一種説明深度學習模型進行加速推理的單晶片ASIC(推理使用已訓練的神經網路,並且訓練方式不同)。第一代TPU已經在我們的資料中心部署了三年,它被用於為穀歌搜索(Google Search)、谷歌翻譯(Google Translate)、穀歌圖片(Google Photos)、李世石和柯潔與Alphago的比賽,以及許多其他研究和產品用途。2017年6月,我們在ISCA 2017上發表了一篇論文,證實第一代TPU比與其同時期的GPU或CPU同類產品,處理速度快15倍- 30倍,性能/功耗節優化30 – 80倍。

Cloud TPU Pod可以提供高達11.5 petaflops的機器學習加速

在Image Net上進行RENET-50訓練的實驗表明,隨著TPU設備數量的增加,實現了近乎完美的加速

推論是很重要的,但是加速訓練過程是一個更重要的問題,也是一個更困難的問題。研究人員越快地嘗試新想法,我們就能取得更多的突破。我們去年5月份在Google I / O上宣佈的第二代TPU,是一個旨在加速訓練和推理過程的一體化系統(定制ASIC晶片、電路板和互連),我們展示了一個設備配置:TPU Pod。我們宣佈這些第二代設備將在穀歌雲平臺(Google Cloud Platform)上作為Cloud TPUs提供。我們還公佈了TensorFlow研究雲計畫(TFRC),該計畫旨在為頂級ML研究人員提供方案,這些人致力於與世界分享他們的工作,以便免費訪問1000個Cloud TPUs集群。在2017年12月,我們展示了一項研究,證實我們可以在22分鐘內,從TPU Pod上訓練一個ResNet-50 ImageNet模型,而在一個典型的工作站上,這需要於幾天或更長時間,相同時間裡,TPU Pod上訓練的模型準確度要高。我們認為以這種方式縮短研發週期,將極大提高穀歌的機器學習團隊和所有使用Could TPUs的組織的工作效率。

原文連結:https://research.googleblog.com/2018/01/the-google-brain-team-looking-back-on.html?m=1

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示