您的位置:首頁>科技>正文

今日,穀歌大腦曬出2017成績單!

智東西 編 | CJ

導語:這篇文章介紹了穀歌大腦團隊去年一年所取得的人工智慧方面的成就, 這是第一部分, 重點介紹2017年穀歌所做的一些工作, 包括一些基礎研究工作, 以及開源軟體, 資料集和機器學習新硬體的更新。

谷歌大腦負責人Jeff Dean今天發文曬出了自動機器學習、語義理解和語言生成、機器學習演算法、機器學習系統等核心研究工作成績單, 全面總結穀歌大腦在2017年取得的成績。

核心重點在於做提高我們理解力還有解決機器學習領域新問題的能力。 以下是去年我們研究的幾個主題。

1、自動機器學習(AutoML)

自動機器學習的目標是開發一種技術, 使電腦能自主解決新出現的機器學習問題, 而在這個過程中, 不需要人類機器學習專家來干預每個新問題的解決。 如果我們最終能建立真正智慧的系統, 那麼這是我們需要的最基本的功能。 我們結合強化學習和進化演算法開發了設計神經網路架構的新方法, 這種方法經過ImageNet( 電腦視覺系統識別專案, 是目前世界上圖像識別最大的資料庫)的分類和檢測, 結果顯示是目前最先進的方法。 我們也展示了如何自動學習新的優化演算法和有效的啟動函數。 我們積極地與穀歌的雲人工智慧團隊(Cloud AI)合作, 希望把這種技術帶給穀歌的用戶, 同時也把這項研究往多個方向推進。

2、語義理解和語言生成

穀歌大腦團隊開發了新的技術, 能改進計算系統的語義理解和語言生成能力。 這個過程中, 成功減少了穀歌語音辨識系統16%的相對詞錯誤率。 這項工作的一個很好的方面是, 它需要許多獨立的研究線索(可以在Arxiv上找到:1,2,3,4,5,6,7,8,9)。

同時穀歌大腦團隊也和穀歌機器感知團隊一起開發了語音-文本生成的新方法(Tacotron 2), 大幅提升了生成的語音的品質。 該款模型的平均意見得分(MOS, mean opinion score)達到了4.53, 而一份有聲讀物中的專業記錄的語音的MOS得分為4.58, 同時, 目前最好的電腦語音系統的MOS得分為4.34。

3、新的機器學習演算法和方法

我們繼續開發新穎的機器學習演算法和方法, 包括膠囊工作(capsules)(在執行視覺任務時明確尋找啟動特徵中的一致性作為評估許多不同雜訊假設的方式), 稀疏門控混合專家層( Sparsely-Gated Mixture-of-Experts)(這個方式能使得非常大的模型仍然具有高計算效率), 超網路(hypernetworks)(使用一個模型的權重來生成另一個模型的權重),

新型的多模式模型(new kinds of multi-modal models)(在同一個的模型中, 可以執行跨音訊, 視覺和文本輸入多工學習 ), 注意力機制(attention-based mechanisms)(作為卷積(convolutional models)和遞迴模型( recurrent models)的替代), 符號和非符號學習優化方法, 一種通過離散變數向後傳播的技術, 以及一些新的強化學習演算法改進。

4、電腦系統的機器學習

我們對在電腦系統中使用機器學習取代傳統啟發法(heuristics)有很大興趣。 我們已經展示了如何使用強化學習來做計算圖映射到一組計算設備上的佈置決策, 機器的結果要優於人類專家。 在“學習索引結構的案例The Case for Learned Index Structures ”中, 展示了神經網路,神經網路比傳統資料結構(如b樹,雜湊表,布隆篩檢程式)要更快、更小。

5、隱私和安全

機器學習及其與安全和隱私的交互仍然是我們的主要研究重點。我們展示了機器學習技術可以以一種提供不同隱私保證的方式應用,在一篇獲得ICLR 2017最佳論文獎的論文中。我們還繼續調查了對抗性實例的性質,其中包括物理世界裡的對抗性實例,以及如何在訓練過程中大規模利用敵對實例,從而使模型在敵對實例面前更強大。

6、瞭解機器學習系統

雖然我們在深入的學習中看到了令人印象深刻的成果,但重要的是理解它為什麼起作用,什麼時候不起作用。在ICLR 2017最佳論文獎中,我們發現目前的機器學習理論框架無法解釋深度學習方法現在取得的重大成果。同時,我們還發現最優化方法找到的最小值的“平坦度”並不像最初想像的那樣與其良好泛化能力緊密相關。為了更好地理解深層架構下的訓練是如何進行的,我們發表了一系列分析隨機矩陣的論文,因為隨機矩陣是大多數訓練方法的起點。瞭解深度學習的另一個重要途徑是更好地衡量他們的表現。在最近的一項研究中,我們展示了良好實驗設計和嚴謹統計的重要性,比較了許多生成對抗網路(GAN,Generative Adversarial Networks)方法,發現許多流行的生成模型的優化處理並沒有提高其性能。我們希望這項研究能夠為其他研究人員提供一個可靠的實驗研究的例子。

我們正在開發可以更好地解釋機器學習系統的方法。並於3月份與OpenAI,DeepMind,YC Research等合作,宣佈推出Distill,這是一本致力於支持人類理解機器學習的線上開放性科學期刊。它機器學習概念的清晰闡釋和出色的互動式視覺化工具贏得了一致好評。在第一年,Distill發表了許多眼前一亮的文章,旨在瞭解各種機器學習技術的內部工作,我們期待2018年更有可能。

7、機器學習研究的開放資料集

像MNIST,CIFAR-10,ImageNet,SVHN和WMT這樣的開放資料集,極大地推動了機器學習領域的發展。 作為一個整體,我們的團隊和Google Research在過去一年左右一直積極地為開放式機器學習研究開放有趣的新資料集,通過提供更多的大型標記資料集,包括:

YouTube-8M:使用4,716個不同類別注釋的700萬YouTube視頻

YouTube邊界框:來自210,000個YouTube視頻的500萬個邊界框

語音指令資料集:成千上萬的發言者用簡短的命令語

AudioSet:200萬個10秒的YouTube剪輯,標有527個不同的聲音事件

原子視覺行動(AVA):57,000個視訊短片中的21萬個動作標籤

開放圖片:9M創意共用授權圖片,標有6000個類別

有邊界框的開放圖像:600個類的1.2M邊界框

8、TensorFlow和開源軟體

縱觀我們團隊的歷史,我們已經構建了一些工具,幫助我們在Google的許多產品中進行機器學習研究並部署機器學習系統。 2015年11月,我們開放了第二代機器學習框架TensorFlow,希望機器學習社區能夠從機器學習軟體工具的投資中受益。今年二月份,我們發佈了TensorFlow 1.0,在十一月份,我們發佈了1.4版本,包括:互動式命令式程式設計的熱切執行,TensorFlow程式的優化編譯器XLA和TensorFlow Lite,嵌入式設備。預編譯的TensorFlow二進位檔案現在已經在180多個國家下載了超過一千萬次,GitHub上的原始程式碼現在已經有超過1200個貢獻者。

今年2月,我們舉辦了第一屆TensorFlow開發者峰會,450多人參加了Mountain View的活動,在全球35多個國家和地區舉辦了超過85場的本地觀看活動,觀看了超過6500人的觀看活動。所有的會談都被記錄下來,主題包括新功能,使用TensorFlow的技巧,或者低級TensorFlow抽象的細節。我們將在2018年3月30日在灣區舉辦另一個TensorFlow開發者峰會。立即註冊以保存日期並保持最新消息的更新。

在十一月,TensorFlow慶祝其開放原始程式碼項目兩周年。看到一個充滿活力的TensorFlow開發人員和用戶群體出現,這是非常有益的。 TensorFlow是GitHub上的第一個機器學習平臺,也是GitHub上的五大軟體庫之一,被許多公司和組織所使用,包括GitHub上與TensorFlow相關的超過24,500個不同的軟體倉庫。現在,許多研究論文都與開放源碼的TensorFlow實現一起出版,以配合研究結果,使社區能夠更容易地理解所使用的確切方法,並重現或擴展工作。

TensorFlow也受益於其他Google研究團隊的開源相關工作,其中包括TensorFlow中的生成對抗模型的羽量級庫TF-GAN,TensorFlow Lattice,用於處理晶格模型的一組估計器,以及TensorFlow Object Detection API。 TensorFlow模型庫隨著越來越多的模型不斷發展。

除了TensorFlow,我們還在流覽器中發佈了deeplearn.js,一個開源的硬體加速深度學習API實現(無需下載或安裝任何東西)。 deeplearn.js主頁有許多很好的例子,其中包括您可以使用網路攝像頭訓練的電腦視覺模型的“教育機器”,以及基於即時神經網路的鋼琴演奏和演奏演示“演奏RNN”。我們將在2018年開展工作,以便將TensorFlow模型直接部署到deeplearn.js環境中。

9、TPUs

大約五年前,我們認識到深度學習會大大改變我們所需要的硬體種類。深度學習計算的計算量非常大,但它們有兩個特殊的性質:它們主要由密集的線性代數運算(矩陣倍數,向量運算等)組成,它們對精度的降低有非常高的容忍度。我們意識到我們可以利用這兩個屬性來構建能夠非常有效地運行神經網路計算的專用硬體。我們為Google的平臺團隊提供了設計輸入,他們設計並生產了我們的第一代Tensor Processing Unit(TPU):一種旨在加速推理深度學習模型的單晶片ASIC(推理是使用已經過訓練的神經網路,與訓練不同)。這款第一代TPU已經在我們的資料中心部署了三年,並且已經被用於在每個Google搜索查詢,Google翻譯,Google相冊中的圖片,用在了AlphaGo與Lee Sedol還有與柯潔的對弈,還用在了其他許多研究和產品。六月份,我們在ISCA 2017上發表了一篇論文,顯示這款第一代TPU比現代GPU或CPU同類產品快15倍–30倍,性能/功耗約為30X – 80X。

推理很重要,但加速訓練過程是一個更重要的問題 – 也更難。研究人員可以更快嘗試一個新的想法,我們就可以做出更多的突破。我們在5月份的Google I / O上發佈的第二代TPU是一個旨在加速訓練和推理的整個系統(定制ASIC晶片,電路板和互連),我們展示了單個器件配置以及多層深度學習超級電腦配置稱為TPU Pod。我們宣佈這些第二代設備將作為雲端TPU在Google雲端平臺上提供。我們還公佈了TensorFlow研究雲計畫(TFRC),該計畫旨在為頂級ML研究人員提供方案,他們致力於與世界分享他們的工作,以便免費訪問1000個雲端TPU的集群。在十二月份,我們展示了一個工作,表明我們可以在22分鐘內在TPU Pod上訓練一個ResNet-50 ImageNet模型,而在一個典型的工作站上,相比於幾天或更長時間,這個模型的準確度要高。我們認為以這種方式縮短研究周轉時間將大大提高Google的機器學習團隊以及所有使用雲端TPU的組織的工作效率。

5、隱私和安全

機器學習及其與安全和隱私的交互仍然是我們的主要研究重點。我們展示了機器學習技術可以以一種提供不同隱私保證的方式應用,在一篇獲得ICLR 2017最佳論文獎的論文中。我們還繼續調查了對抗性實例的性質,其中包括物理世界裡的對抗性實例,以及如何在訓練過程中大規模利用敵對實例,從而使模型在敵對實例面前更強大。

6、瞭解機器學習系統

雖然我們在深入的學習中看到了令人印象深刻的成果,但重要的是理解它為什麼起作用,什麼時候不起作用。在ICLR 2017最佳論文獎中,我們發現目前的機器學習理論框架無法解釋深度學習方法現在取得的重大成果。同時,我們還發現最優化方法找到的最小值的“平坦度”並不像最初想像的那樣與其良好泛化能力緊密相關。為了更好地理解深層架構下的訓練是如何進行的,我們發表了一系列分析隨機矩陣的論文,因為隨機矩陣是大多數訓練方法的起點。瞭解深度學習的另一個重要途徑是更好地衡量他們的表現。在最近的一項研究中,我們展示了良好實驗設計和嚴謹統計的重要性,比較了許多生成對抗網路(GAN,Generative Adversarial Networks)方法,發現許多流行的生成模型的優化處理並沒有提高其性能。我們希望這項研究能夠為其他研究人員提供一個可靠的實驗研究的例子。

我們正在開發可以更好地解釋機器學習系統的方法。並於3月份與OpenAI,DeepMind,YC Research等合作,宣佈推出Distill,這是一本致力於支持人類理解機器學習的線上開放性科學期刊。它機器學習概念的清晰闡釋和出色的互動式視覺化工具贏得了一致好評。在第一年,Distill發表了許多眼前一亮的文章,旨在瞭解各種機器學習技術的內部工作,我們期待2018年更有可能。

7、機器學習研究的開放資料集

像MNIST,CIFAR-10,ImageNet,SVHN和WMT這樣的開放資料集,極大地推動了機器學習領域的發展。 作為一個整體,我們的團隊和Google Research在過去一年左右一直積極地為開放式機器學習研究開放有趣的新資料集,通過提供更多的大型標記資料集,包括:

YouTube-8M:使用4,716個不同類別注釋的700萬YouTube視頻

YouTube邊界框:來自210,000個YouTube視頻的500萬個邊界框

語音指令資料集:成千上萬的發言者用簡短的命令語

AudioSet:200萬個10秒的YouTube剪輯,標有527個不同的聲音事件

原子視覺行動(AVA):57,000個視訊短片中的21萬個動作標籤

開放圖片:9M創意共用授權圖片,標有6000個類別

有邊界框的開放圖像:600個類的1.2M邊界框

8、TensorFlow和開源軟體

縱觀我們團隊的歷史,我們已經構建了一些工具,幫助我們在Google的許多產品中進行機器學習研究並部署機器學習系統。 2015年11月,我們開放了第二代機器學習框架TensorFlow,希望機器學習社區能夠從機器學習軟體工具的投資中受益。今年二月份,我們發佈了TensorFlow 1.0,在十一月份,我們發佈了1.4版本,包括:互動式命令式程式設計的熱切執行,TensorFlow程式的優化編譯器XLA和TensorFlow Lite,嵌入式設備。預編譯的TensorFlow二進位檔案現在已經在180多個國家下載了超過一千萬次,GitHub上的原始程式碼現在已經有超過1200個貢獻者。

今年2月,我們舉辦了第一屆TensorFlow開發者峰會,450多人參加了Mountain View的活動,在全球35多個國家和地區舉辦了超過85場的本地觀看活動,觀看了超過6500人的觀看活動。所有的會談都被記錄下來,主題包括新功能,使用TensorFlow的技巧,或者低級TensorFlow抽象的細節。我們將在2018年3月30日在灣區舉辦另一個TensorFlow開發者峰會。立即註冊以保存日期並保持最新消息的更新。

在十一月,TensorFlow慶祝其開放原始程式碼項目兩周年。看到一個充滿活力的TensorFlow開發人員和用戶群體出現,這是非常有益的。 TensorFlow是GitHub上的第一個機器學習平臺,也是GitHub上的五大軟體庫之一,被許多公司和組織所使用,包括GitHub上與TensorFlow相關的超過24,500個不同的軟體倉庫。現在,許多研究論文都與開放源碼的TensorFlow實現一起出版,以配合研究結果,使社區能夠更容易地理解所使用的確切方法,並重現或擴展工作。

TensorFlow也受益於其他Google研究團隊的開源相關工作,其中包括TensorFlow中的生成對抗模型的羽量級庫TF-GAN,TensorFlow Lattice,用於處理晶格模型的一組估計器,以及TensorFlow Object Detection API。 TensorFlow模型庫隨著越來越多的模型不斷發展。

除了TensorFlow,我們還在流覽器中發佈了deeplearn.js,一個開源的硬體加速深度學習API實現(無需下載或安裝任何東西)。 deeplearn.js主頁有許多很好的例子,其中包括您可以使用網路攝像頭訓練的電腦視覺模型的“教育機器”,以及基於即時神經網路的鋼琴演奏和演奏演示“演奏RNN”。我們將在2018年開展工作,以便將TensorFlow模型直接部署到deeplearn.js環境中。

9、TPUs

大約五年前,我們認識到深度學習會大大改變我們所需要的硬體種類。深度學習計算的計算量非常大,但它們有兩個特殊的性質:它們主要由密集的線性代數運算(矩陣倍數,向量運算等)組成,它們對精度的降低有非常高的容忍度。我們意識到我們可以利用這兩個屬性來構建能夠非常有效地運行神經網路計算的專用硬體。我們為Google的平臺團隊提供了設計輸入,他們設計並生產了我們的第一代Tensor Processing Unit(TPU):一種旨在加速推理深度學習模型的單晶片ASIC(推理是使用已經過訓練的神經網路,與訓練不同)。這款第一代TPU已經在我們的資料中心部署了三年,並且已經被用於在每個Google搜索查詢,Google翻譯,Google相冊中的圖片,用在了AlphaGo與Lee Sedol還有與柯潔的對弈,還用在了其他許多研究和產品。六月份,我們在ISCA 2017上發表了一篇論文,顯示這款第一代TPU比現代GPU或CPU同類產品快15倍–30倍,性能/功耗約為30X – 80X。

推理很重要,但加速訓練過程是一個更重要的問題 – 也更難。研究人員可以更快嘗試一個新的想法,我們就可以做出更多的突破。我們在5月份的Google I / O上發佈的第二代TPU是一個旨在加速訓練和推理的整個系統(定制ASIC晶片,電路板和互連),我們展示了單個器件配置以及多層深度學習超級電腦配置稱為TPU Pod。我們宣佈這些第二代設備將作為雲端TPU在Google雲端平臺上提供。我們還公佈了TensorFlow研究雲計畫(TFRC),該計畫旨在為頂級ML研究人員提供方案,他們致力於與世界分享他們的工作,以便免費訪問1000個雲端TPU的集群。在十二月份,我們展示了一個工作,表明我們可以在22分鐘內在TPU Pod上訓練一個ResNet-50 ImageNet模型,而在一個典型的工作站上,相比於幾天或更長時間,這個模型的準確度要高。我們認為以這種方式縮短研究周轉時間將大大提高Google的機器學習團隊以及所有使用雲端TPU的組織的工作效率。

Next Article
喜欢就按个赞吧!!!
点击关闭提示