華文網

2017年你錯過了哪些AI圈大事?最全盤點,值得收藏!

大資料文摘作品

編譯:彭湘偉、呂征達、小明同學、林海、Yawei Xia

假設你在2017年昏睡了一年,忽然驚醒的時候,想要瞭解這個世界在今年有哪些最值得驕傲的成就,這篇文章值得你花幾十分鐘讀一讀。

這一年,穀歌發佈了Google Translate的新模型,並詳細描述了網路結構——迴圈神經網路。Facebook的聊天機器人,因為失控創造了自己的語言被關閉。DeepMind 的研究員在他們的文章中展示了如何生成語音。一個已經成功超越人類的深度學習成就叫做唇語識別。

本文將帶你流覽2017年幾乎所有最有意義的AI研究,

從文本、語音、電腦視覺到強化學習和最重要的新聞。

其中的大部分事件,文摘菌都在其發生之時做過相關報導,回憶起來,感慨萬分,我們也在相應部分附上了報導連結,方便查看細節。

1:文本

1.1穀歌神經機器翻譯

大約一年前,穀歌發佈了Google Translate的新模型,並詳細描述了網路結構——迴圈神經網路。

連結:

https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4

關鍵成果:與人類翻譯的準確率之差縮小了55%-85% (研究者使用6分制打分標準評估得到)。

如果不依賴谷歌龐大的資料庫進行訓練,這一結果很難複現。

1.2: 談判

你可能聽過這個謠言:Facebook的聊天機器人,因失控創造自己的語言而被關閉。

點擊查看大資料文摘相關報導《Facebook謀殺“失控”機器人?一個常見bug引發的恐慌鬧劇》

該聊天機器人原本被設計用來談判,其目的是與其他機器人(代理)進行文本談判並達成協議:如何在兩個人之間分配物品(書籍和帽子等)。每一個機器人(代理)有對方不掌握的交易資訊。同時,談判的設定是不達成交易就不終止。

他們收集了一個人類談判的資料庫,並訓練出了一個監督式的迴圈網路。隨後,他們讓強化訓練後的機器人,通過自我對話的方式繼續訓練,

直到與人類語言近似到一定程度為止。

該機器人已經學會了一種真正的談判技巧——對交易中的某些因素假裝表現出興趣,隨後僅僅通過犧牲它們來達成真正目的。

新聞裡聲稱機器人發明了一種新語言,這種說法有點過於誇張。當用同一個機器人來訓練的時候,它沒有被限制必須用與人類語言,所以演算法進行了一些變異,這很正常。

文章連結:

https://blog.statsbot.co/machine-learning-translation-96f0ed8f19e4

在過去的一年裡,迴圈網路得到了很大的改進,

並被應用於諸多領域。RNN的結構也越來越複雜,但是在某些領域,簡約前向網路(DSSM)都取得了相似的結果。例如,在郵件智慧回復方面,穀歌取得了與LSTM之前一樣的效果。另外,Yandex基於這套網路,發佈了新的搜尋引擎。

2:語音

2.1:WaveNet,一種針對音源的生成模型

DeepMind 的研究員在他們的文章中展示了如何生成語音。簡單的說,他們基於之前生成圖像的方法,PixelRNN 和PixelCNN,創造了一個自回歸全卷積的WaveNet模型。

該網路被以點到點的方式訓練:文本作為輸入,語音作為輸出。最終研究人員取得了極好的結果。在語音生成方面,機器人與人類的差距縮小了50%。

該網路的主要缺陷在於效率低下。因為使用了自回歸技術,音訊是按順序生成,並且每1-2分鐘,才能生成一秒語音。

如果去掉對文字輸入的依賴,僅僅基於前期產生的語音,該網路會產生出類似人類的語言。但這樣並沒有實際意義。

這一模型不僅僅可以用於語音生成,也可以用於音樂創作。設想,在不依賴輸入資料的情況下,僅僅被鋼琴遊戲的資料庫訓練,該模型便可生成音訊。

2.2:唇語識別

唇語識別是另外一個已經成功超越人類的深度學習成就。

點擊查看大資料文摘相關報導《穀歌DeepMind AI再次完爆人類 讀唇語正確率勝專家(附論文下載)》

《Lip ReadingSentences in the Wild》。Google Deepmind 在這篇于牛津大學合作發表的論文中,公佈了他們給予電視資料訓練的模型。該模型性能超越了BBC頻道專業的唇語閱讀員。

該資料集包括10萬條配有音訊和視頻的語句。LSTM訓練音訊,CNN+LSTM訓練視頻。最後將兩者的狀態向量作為最終LSTM模型的輸入,以產生文字輸出。

訓練中,使用不同的資料類型,包括音訊,視頻以及音訊+視頻。換句話說,這是個多管道模型。

2.3:合成奧巴馬——從音訊中同步嘴唇動作

華盛頓大學進行了一項研究,以合成美國前總統奧巴馬的嘴唇動作。選擇他為物件的原因在於,在網路上有大量他的視頻(17小時的高清視頻)。

點擊查看大資料文摘相關報導《你看到的可能是假的奧巴馬?沒錯,還真是假的!》

他們不能過多地直接使用網路模型輸出的合成畫面。因此,論文的作者使用了一些技巧來改善紋理的時間方面的問題。

效果如此令人震驚。也許不久的將來,即使是總統演講視頻都有可能是合成的。

3.電腦視覺

3.1:OCR——谷歌地圖和街景

穀歌大腦團隊在他們公佈的文章中,介紹了他們如何將新一代OCR(光學字元辨識)引擎引入穀歌地圖中,以實現街道標誌和店鋪標誌的自動識別。

點擊查看大資料文摘相關報導《超級實習生Ian Goodfellow留給谷歌地圖的演算法被完善,識別800億街景圖文字(附論文)》

在開發過程中,穀歌解碼了新的FSNS(法語街道名標示),有很多複雜的場景。

為了識別出每一個標誌,網路模型最多使用了標誌的四張圖片。特徵通過CNN提取後,經過空間變化(考慮圖元座標)再輸入到LSTM模型中。

相似的方法被用於識別佈告牌中店鋪名稱的的項目。但是該專案的圖像資料有很多無關資訊,網路模型必須對焦正確的資訊進行讀取。這一演算法已經被應用于800億張圖片上。

3.2:視覺推理

另一種稱做視覺推理的任務,是要讓神經網路利用圖片中資訊來回答問題。例如:圖片中有於黃色金屬圓柱體一般大的橡膠物品麼?這種問題對演算法來講很難,到目前為止,準確率只有68.5%。

點擊查看大資料文摘相關報導:《乾貨 | 一文帶你讀懂DeepMind新論文,關聯推理為什麼是智慧最重要的特徵》

DeepMind在這一領域取得了突破,在CLEVR資料集中,他們取得了95.5% 的超高準確率。

這一網路模型的結構很有意思:

1. 通過預訓練好的LSTM模型,從文字問題中抽象出問題。

2. 使用4層的CNN模型,從圖片中得到特徵圖(下圖中的黃色,藍色,和紅色部分),再加入座標,將其與文字對應起來。

3. 之後,再用另一個網路模型處理並集成這三類特徵。

4. 最終,通過一個前回饋網路中的柔性最大啟動函數(softmax),將答案呈現出來。

3.3:Pix2Code——使用者圖形介面代碼自動生成

Uizard(一家哥本哈根創業公司)開發了一款趣味十足的基於神經網路的應用程式:它能夠根據介面設計師的截屏圖片生成GUI(圖形化使用者介面)的佈局代碼。

這是一款十分實用的神經網路應用程式,它能夠讓軟體發展變得更加容易。開發者(作者)聲稱該應用可以達到77%的準確率。不過,這款應用程式仍處在研究階段,尚未投入實際使用。

現在暫無項目的開原始程式碼和資料集,但是該公司承諾未來會在網上發佈。

3.4:SketchRNN——教會機器如何作畫

也許你已經見識過了穀歌的“Quick,Draw!”,一款讓用戶在20秒內畫出不同物體草圖的小程式。穀歌公司收集該程式的資料集來教會神經網路如何作畫,正如他們在博客和文章中介紹的那樣。

公司收集到的資料集中包含70000張草圖,這個資料集現已公開。草圖不是以圖片的形式表示的,而是以圖中線條的詳細的向量形式表示。

研究人員使用RNN訓練出序列到序列的變分自動編碼器來作為編碼/解碼機制。

最後,為了適應自動編碼器,模型接收描述原始圖片特徵的特徵向量(隱向量)作為輸入。

而解碼器可以從輸入的向量中提取出一個圖,並且可以通過改變輸入向量獲得新的草圖。

甚至可以通過向量運算創造出“catpig”(貓豬)的形象。

3.5:生成對抗網路(GANS)

生成對抗網路(GANS)是深度學習中最受關注的主題之一。多數情況下,這個網路是用來處理圖像的。

點擊大資料文摘相關報導

《一文看懂生成式對抗網路GANs:介紹指南及前景展望》

《“未卜先知”、“自學成才”:GANs奇思妙想TOP10榜單》

《生成對抗網路(GANs)最新家譜:為你揭秘GANs的前世今生》

文章連結:

https://blog.statsbot.co/generative-adversarial-networks-gans-engine-and-applications-f96291965b47

GANS的思想是兩個網路——生成器和鑒別器——的競爭。第一個網路生成一張圖片,第二個網路則是試圖分辨出該圖片是真正的圖片還是生成的圖片。

GANS的示意圖如下所示:

在訓練過程中,生成器首先通過一個隨機向量(噪音)生成圖像,然後把它輸入能夠判別圖像真假的鑒別器中。來自真實世界的圖像同樣會被輸入到鑒別器中。

這樣的結構難以訓練,因為很難找到兩個網路之間的平衡點。多數情況鑒別器獲勝然後訓練過程陷入停滯。不過,該系統的優點是可以解決鑒別器的損失函數(比如,提高照片的品質)難以設置的問題。

經典的GAN訓練結果樣例是臥室圖片以及人臉圖片:

先前我們討論了自動編碼(Sketch-RNN),即將原始資料編碼成一個潛在的表示形式。生成器的工作原理也是一樣的。

使用向量生成圖像的想法在這個專案中的人臉生成樣例中有很好的體現。你可以通過改變向量來觀察人臉是如何改變的。

同樣的演算法也適用於潛空間:

“戴眼鏡的男人”-“男人”+“女人”= “戴眼鏡的女人”

3.6:通過GANS改變臉部年齡

如果在訓練過程中,你賦予潛向量一個被控參數,那麼當你生成該向量時,你就可以通過改變它來管理圖片中必需的圖像了。這種方法稱為條件GAN(conditional GAN)。

“Face Aging With Conditional Generative Adversarial Networks.” 的作者們就是這樣做的。通過IMDB資料集中年齡已知的演員的照片來訓練模型,研究人員們就有機會來改變他們的臉部年齡。

3.7:專業照片

穀歌又找到了一個GAN的趣味應用——篩選並改善照片。GAN由專業圖片資料集訓練而來:生成器要改善不盡人意的照片),而鑒別器要做到區分“改善後的”照片和真實的專業照片。

訓練好的演算法通過谷歌街景全景尋找最佳的構圖,同時獲得一些專業的、半專業品質的圖片。(根據攝像師的等級)

3.8:通過文本描述生成圖像

一個令人印象深刻的GANs的例子是通過文本生成圖像。

這項研究的作者提出不僅要將文本嵌入生成器(條件GAN)的輸入中,還要嵌入到鑒別器中,以便驗證文本和圖片的相關性。為了確保鑒別器能夠學習並執行預期的功能,除了正常的訓練過程,他們還添加了錯誤描述真實圖片的文本及相應圖片,並一起投入訓練。

3.9:Pix2pix

2016年度引人注目的文章之一是BAIR的“Image-to-Image Translation with Conditional AdversarialNetworks” 。研究人員解決了由圖像生成圖像的問題,比如當需要由衛星圖像生成地圖或者通過草圖繪製物體的真實紋理。

點擊查看大資料文摘相關報導《根本停不下來!給它一個輪廓,TensorFlow還你一隻完整的喵 (附論文下載)》

這是條件GAN的又一個出色表現的例子。在這個例子中,條件由整個圖片決定。圖像分割中的熱門技術UNet被用來作為生成器的結構,新提出的PatchGAN分類器被用來作為鑒別器以防圖像難以區分。(圖片被分割為N小塊,每一塊的真假分別預測)

Christopher Hesse做了一個貓的演示,這個演示引起了使用者對Pix2pix的極大興趣。

3.10:CycleGAN

為了應用Pix2pix,你需要來自不同領域的對應成對的圖片資料集。比如,在這種情況下,通過紙牌來生成這樣的資料集並不是件難事兒。然而,如果你想做些更複雜的,像“改變”圖片中的物體或圖片風格,從原則上來講這樣的資料集無法獲取。

點擊查看大資料文摘相關報導《深度學習中的怪圈》

因此,Pix2pix的作者們繼續深入思考並提出了CycleGAN來實現不同領域圖片之間的轉換而不需要明確的匹配——“Unpaired Image-to-Image Translation.”

CycleGAN的思路是訓練兩對生成器-鑒別器來把圖像從一個領域轉變到另一個領域再轉變回來,這樣的話需要保證週期一致性——在一系列的轉變之後,要得到與原始L1損失相近的圖像。週期損失則是保證生成器轉變後的圖片不會與原始圖片完全不相關。

這個方法能讓你把馬變成斑馬:

這樣的轉變並不穩定,經常會出現失敗案例:

3.11:腫瘤分子的發展

機器學習同樣在醫藥領域大展身手。除了超聲波圖像、核磁共振圖像和診斷識別外,機器學習還可以用於尋找新的抗癌藥物。

我們曾經報導過該研究的詳細內容。簡單來說就是在對抗自編碼器(AEE)的幫助下,可以得到分子的潛在表示並用以尋找新的分子。基於此,已有69種新分子被發現,約有35種已經投入到對抗癌症的使用中,其餘的分子也擁有巨大潛力。

3.12:對抗性攻擊

很多學者都對對抗性攻擊這個主題展開了積極探索。什麼是對抗性攻擊?舉個例子,在ImageNet上訓練得到的標準網路在受到特殊雜訊影響的圖片上進行分類會變得十分不穩定。在下面的例子中可以看到,人眼觀察到經過雜訊影響的圖像與原始圖像相比基本沒有變化,但是模型卻出現預測錯誤的問題。

點擊查看大資料文摘相關報導:

《用100元的支票騙到100萬:看看對抗性攻擊是怎麼為非作歹的》

《自帶迷幻劑技能的小貼紙:忽悠神經網路,讓它將一切都當作烤麵包機!》

模型的穩定通過FGSM演算法已經實現:通過調節模型的參數,可以朝著期望類別的方向改變一個或多個梯度步長,並且改變原始圖片。

Kaggle上的一個項目就與此相關:參賽者需要創造萬能的攻擊/防禦圖片,最終決出誰是最好的。

為什麼還應該研究攻擊呢?第一,如果我們想要保護自己的產品,可以在驗證碼上添加雜訊來阻止垃圾資訊傳播者自動識別它們。第二,演算法逐漸融入到我們的生活中——人臉識別和自動駕駛。這時候,攻擊者就可以利用演算法的弱點了。

下面是一個特殊眼鏡欺騙人臉識別系統並“冒充他人”的例子。因此,在訓練模型的時候我們應該把可能遭受的攻擊納入考慮範圍內。

這樣處理後的指示牌也是無法正確識別的。

4.強化學習

強化學習是機器學習中最有意思且最有活力的發展路徑之一。

這種路徑的核心在於學習agent的成功行為,而這基於一個通過經驗給予獎勵的環境,就和人類通過他們的生活學習一樣。

強化學習被積極應用于遊戲、機器人和系統控制中(比如交通系統)

當然很多人都已經聽說“阿法狗”在比賽中戰勝了頂級的職業選手。研究人員使用“加強學習”訓練機器人,機器人通過自己的演練,來提升自己的策略。

4.1:強化訓練與不受控制的輔助任務

在過去的幾年裡,DeepMind已經學會了使用深度強化學習來玩遊戲,甚至比人類玩得更好。目前,演算法已經學會玩更複雜的遊戲,比如Doom。

大部分的注意力集中於加速學習,因為在與環境的交互作用下,agent的經驗需要在modern GPUs上進行大量訓練。

在他的博客中,Deepmind報告說,引入額外的損耗(輔助任務),比如預測幀的變化(圖元控制),使agent更好地理解行為的結果,從而顯著加快學習速度。

學習結果:

在OpenAI中,他們通過虛擬環境中的人已經積極研究出了agent的培養方式,與現實生活相比較而言,這對於實驗來說更安全。

在其中一項研究中,研究小組展示了one-shot learning的可能性:一個人在虛擬實境中展示如何執行一項特定的任務,而一個演示足以讓演算法學會它,然後在實際情況下進行複製。

4.2:學習人類的偏好

OpenAI和DeepMind都在這個問題上進行了研究探索。項目的底線是每一個agent有一個任務,該演算法為人提供兩種可能的解決方案,並指出哪一個更好。這個過程反覆運算重複,並且從人學習如何解決這個問題的過程中得到900位元回饋(二進位標記)。

點擊查看大資料文摘相關報導《OpenAI聯手DeepMind發佈增強學習新突破,最佳獎勵函數可智慧化生成(附論文)》

在訓練過程中,有一個問題需要認真思考 - 我們正在教給機器什麼。例如,電腦決定該演算法真的想要獲取這個物件,但實際上,他只是模擬了這個動作。

4.3:在複雜環境中的運動

還有另一項來自DeepMind的研究。教機器人複雜的行為(行走、跳躍等),甚至做得和人類很相似。你必須大量地參與到損耗功能的選擇中,這將鼓勵期望的行為。然而,如果演算法自己能通過簡單的獎勵來學習複雜行為,就更好了。

研究人員成功地做到了這一點:他們通過構建一個帶有障礙物的複雜環境以及用簡單的獎勵來教agent(身體模擬器)完成複雜的動作,促進運動的進展。

通過視頻你可以看到機器人已經做得很好了。

5:其它

5.1:冷卻資料中心

在2017年7月,穀歌宣稱他們利用Deep Mind在機器學習開發中的優勢成果,來減少其資料中心的能源損耗。

點擊查看大資料文摘相關報導《小紮曝Facebook北極資料中心圖片 最先進資料中心都建在哪?》

基於來自資料中心的上千個感測器所傳遞的資訊,谷歌的開發人員編寫了一個模型來預測PUE(能源使用效率)以及更高效的資料中心管理模式。該項目意義深遠。

5.2:全能模型

訓練模型在任務與任務間的轉換很差,每一個任務都需要特定的模型加以對應,在一篇題為“萬能模型”的文章中提到,穀歌大腦的模型在適用的普遍性上已小有成就。

論文連結:https://arxiv.org/abs/1706.05137

研究人員已經編寫了一個可以在不同領域(文本、語音和圖像)執行8個任務的模型。例如,翻譯不同的語言,文本解析,圖像和聲音識別。

為了實現這一點他們搭建了一個複雜的網路架構,並利用不同的模組處理輸入的資料和生成的結果。編碼與解碼的模組主要有三種類型:卷積、attention、混合專家系統。

主要成果:獲得了近乎完美的模型(作者沒有對超參數進行微調)。

不同領域間的知識轉換,也就是說,在擁有充分資料的專案預測中,模型表現很穩定。

不同任務所需要的模組之間不僅不會相互干擾而且還會彼此增益,比如MoE用於 Imagenet 任務。

順便說一下,這個模型存出現於T2T之中……

5.3:一小時學習Imagenet

在他們的帖子裡,Facebook的工作人員告訴我們,他們的工程師們僅用一個小時內就能在Imagenet上教授resnet - 50模型。這需要256個gpu(特斯拉P100)的集群。

他們使用Gloo和caffe2來進行分散式學習。為了使過程有效,必須要大量的整學習策略 (8192個元素):梯度平均、預熱階段、特殊學習速率等。

因此,當從8擴展到256 GPU時,可以達到90%的效率。現在,來自Facebook的研究人員可以更快進行實驗。

6.新聞

6.1:自動駕駛汽車

自動駕駛汽車領域正在快速發展,也進入了積極的測試階段。最近行業內的大事件主要有Intel MobilEye的收購,Uber和谷歌前雇員盜取技術的醜聞,使用自動駕駛儀造成的第一起死亡事故。

點擊查看大資料文摘相關報導

《Uber創始人正式辭職,未卜的繼任者面臨這些大坑》

《穀歌、蘋果、Uber等科技巨頭們,為何紛紛暫緩研發自動駕駛》

穀歌Waymo正在推出一個beta程式。谷歌是該領域的先驅,技術廣受認可,他們的汽車已經累計行駛了超過300萬英里。

最近美國各州已經允許自動駕駛汽車運行上路了。

6.2:醫療保健

機械學習正在被引入醫學。例如,穀歌與醫療中心合作幫助病患診斷。

點擊查看大資料文摘相關連結:

《從HoloLens到AI輔助結核病治療,17年AI在醫療領域幾個最重要的應用突破》

Deepmind甚至建立了一個獨立的業務單元。

今年,在“Data Science Bowl”的項目下,舉辦了一項獎金為100萬美元競賽,競賽內容是以高清圖像為基礎,對肺癌一年內的發病率進行預測。

6.3:投資

就像之前大量資本進入大資料產業一樣,機器學習也在投資界受到熱捧。

中國在人工智慧領域投資1500億美元,成為該領域的先驅。

我們看一組對比資料。百度研究院雇傭了1300人,在同領域臉書只雇了80個。

學習“機器學習”永遠不會算太晚。無論如何,隨著時間的推移,所有開發人員都將使用機器學習,這將成為一項通用技能,就像今天大家都會使用資料庫一樣。

原文連結:https://blog.statsbot.co/deep-learning-achievements-4c563e034257

該網路被以點到點的方式訓練:文本作為輸入,語音作為輸出。最終研究人員取得了極好的結果。在語音生成方面,機器人與人類的差距縮小了50%。

該網路的主要缺陷在於效率低下。因為使用了自回歸技術,音訊是按順序生成,並且每1-2分鐘,才能生成一秒語音。

如果去掉對文字輸入的依賴,僅僅基於前期產生的語音,該網路會產生出類似人類的語言。但這樣並沒有實際意義。

這一模型不僅僅可以用於語音生成,也可以用於音樂創作。設想,在不依賴輸入資料的情況下,僅僅被鋼琴遊戲的資料庫訓練,該模型便可生成音訊。

2.2:唇語識別

唇語識別是另外一個已經成功超越人類的深度學習成就。

點擊查看大資料文摘相關報導《穀歌DeepMind AI再次完爆人類 讀唇語正確率勝專家(附論文下載)》

《Lip ReadingSentences in the Wild》。Google Deepmind 在這篇于牛津大學合作發表的論文中,公佈了他們給予電視資料訓練的模型。該模型性能超越了BBC頻道專業的唇語閱讀員。

該資料集包括10萬條配有音訊和視頻的語句。LSTM訓練音訊,CNN+LSTM訓練視頻。最後將兩者的狀態向量作為最終LSTM模型的輸入,以產生文字輸出。

訓練中,使用不同的資料類型,包括音訊,視頻以及音訊+視頻。換句話說,這是個多管道模型。

2.3:合成奧巴馬——從音訊中同步嘴唇動作

華盛頓大學進行了一項研究,以合成美國前總統奧巴馬的嘴唇動作。選擇他為物件的原因在於,在網路上有大量他的視頻(17小時的高清視頻)。

點擊查看大資料文摘相關報導《你看到的可能是假的奧巴馬?沒錯,還真是假的!》

他們不能過多地直接使用網路模型輸出的合成畫面。因此,論文的作者使用了一些技巧來改善紋理的時間方面的問題。

效果如此令人震驚。也許不久的將來,即使是總統演講視頻都有可能是合成的。

3.電腦視覺

3.1:OCR——谷歌地圖和街景

穀歌大腦團隊在他們公佈的文章中,介紹了他們如何將新一代OCR(光學字元辨識)引擎引入穀歌地圖中,以實現街道標誌和店鋪標誌的自動識別。

點擊查看大資料文摘相關報導《超級實習生Ian Goodfellow留給谷歌地圖的演算法被完善,識別800億街景圖文字(附論文)》

在開發過程中,穀歌解碼了新的FSNS(法語街道名標示),有很多複雜的場景。

為了識別出每一個標誌,網路模型最多使用了標誌的四張圖片。特徵通過CNN提取後,經過空間變化(考慮圖元座標)再輸入到LSTM模型中。

相似的方法被用於識別佈告牌中店鋪名稱的的項目。但是該專案的圖像資料有很多無關資訊,網路模型必須對焦正確的資訊進行讀取。這一演算法已經被應用于800億張圖片上。

3.2:視覺推理

另一種稱做視覺推理的任務,是要讓神經網路利用圖片中資訊來回答問題。例如:圖片中有於黃色金屬圓柱體一般大的橡膠物品麼?這種問題對演算法來講很難,到目前為止,準確率只有68.5%。

點擊查看大資料文摘相關報導:《乾貨 | 一文帶你讀懂DeepMind新論文,關聯推理為什麼是智慧最重要的特徵》

DeepMind在這一領域取得了突破,在CLEVR資料集中,他們取得了95.5% 的超高準確率。

這一網路模型的結構很有意思:

1. 通過預訓練好的LSTM模型,從文字問題中抽象出問題。

2. 使用4層的CNN模型,從圖片中得到特徵圖(下圖中的黃色,藍色,和紅色部分),再加入座標,將其與文字對應起來。

3. 之後,再用另一個網路模型處理並集成這三類特徵。

4. 最終,通過一個前回饋網路中的柔性最大啟動函數(softmax),將答案呈現出來。

3.3:Pix2Code——使用者圖形介面代碼自動生成

Uizard(一家哥本哈根創業公司)開發了一款趣味十足的基於神經網路的應用程式:它能夠根據介面設計師的截屏圖片生成GUI(圖形化使用者介面)的佈局代碼。

這是一款十分實用的神經網路應用程式,它能夠讓軟體發展變得更加容易。開發者(作者)聲稱該應用可以達到77%的準確率。不過,這款應用程式仍處在研究階段,尚未投入實際使用。

現在暫無項目的開原始程式碼和資料集,但是該公司承諾未來會在網上發佈。

3.4:SketchRNN——教會機器如何作畫

也許你已經見識過了穀歌的“Quick,Draw!”,一款讓用戶在20秒內畫出不同物體草圖的小程式。穀歌公司收集該程式的資料集來教會神經網路如何作畫,正如他們在博客和文章中介紹的那樣。

公司收集到的資料集中包含70000張草圖,這個資料集現已公開。草圖不是以圖片的形式表示的,而是以圖中線條的詳細的向量形式表示。

研究人員使用RNN訓練出序列到序列的變分自動編碼器來作為編碼/解碼機制。

最後,為了適應自動編碼器,模型接收描述原始圖片特徵的特徵向量(隱向量)作為輸入。

而解碼器可以從輸入的向量中提取出一個圖,並且可以通過改變輸入向量獲得新的草圖。

甚至可以通過向量運算創造出“catpig”(貓豬)的形象。

3.5:生成對抗網路(GANS)

生成對抗網路(GANS)是深度學習中最受關注的主題之一。多數情況下,這個網路是用來處理圖像的。

點擊大資料文摘相關報導

《一文看懂生成式對抗網路GANs:介紹指南及前景展望》

《“未卜先知”、“自學成才”:GANs奇思妙想TOP10榜單》

《生成對抗網路(GANs)最新家譜:為你揭秘GANs的前世今生》

文章連結:

https://blog.statsbot.co/generative-adversarial-networks-gans-engine-and-applications-f96291965b47

GANS的思想是兩個網路——生成器和鑒別器——的競爭。第一個網路生成一張圖片,第二個網路則是試圖分辨出該圖片是真正的圖片還是生成的圖片。

GANS的示意圖如下所示:

在訓練過程中,生成器首先通過一個隨機向量(噪音)生成圖像,然後把它輸入能夠判別圖像真假的鑒別器中。來自真實世界的圖像同樣會被輸入到鑒別器中。

這樣的結構難以訓練,因為很難找到兩個網路之間的平衡點。多數情況鑒別器獲勝然後訓練過程陷入停滯。不過,該系統的優點是可以解決鑒別器的損失函數(比如,提高照片的品質)難以設置的問題。

經典的GAN訓練結果樣例是臥室圖片以及人臉圖片:

先前我們討論了自動編碼(Sketch-RNN),即將原始資料編碼成一個潛在的表示形式。生成器的工作原理也是一樣的。

使用向量生成圖像的想法在這個專案中的人臉生成樣例中有很好的體現。你可以通過改變向量來觀察人臉是如何改變的。

同樣的演算法也適用於潛空間:

“戴眼鏡的男人”-“男人”+“女人”= “戴眼鏡的女人”

3.6:通過GANS改變臉部年齡

如果在訓練過程中,你賦予潛向量一個被控參數,那麼當你生成該向量時,你就可以通過改變它來管理圖片中必需的圖像了。這種方法稱為條件GAN(conditional GAN)。

“Face Aging With Conditional Generative Adversarial Networks.” 的作者們就是這樣做的。通過IMDB資料集中年齡已知的演員的照片來訓練模型,研究人員們就有機會來改變他們的臉部年齡。

3.7:專業照片

穀歌又找到了一個GAN的趣味應用——篩選並改善照片。GAN由專業圖片資料集訓練而來:生成器要改善不盡人意的照片),而鑒別器要做到區分“改善後的”照片和真實的專業照片。

訓練好的演算法通過谷歌街景全景尋找最佳的構圖,同時獲得一些專業的、半專業品質的圖片。(根據攝像師的等級)

3.8:通過文本描述生成圖像

一個令人印象深刻的GANs的例子是通過文本生成圖像。

這項研究的作者提出不僅要將文本嵌入生成器(條件GAN)的輸入中,還要嵌入到鑒別器中,以便驗證文本和圖片的相關性。為了確保鑒別器能夠學習並執行預期的功能,除了正常的訓練過程,他們還添加了錯誤描述真實圖片的文本及相應圖片,並一起投入訓練。

3.9:Pix2pix

2016年度引人注目的文章之一是BAIR的“Image-to-Image Translation with Conditional AdversarialNetworks” 。研究人員解決了由圖像生成圖像的問題,比如當需要由衛星圖像生成地圖或者通過草圖繪製物體的真實紋理。

點擊查看大資料文摘相關報導《根本停不下來!給它一個輪廓,TensorFlow還你一隻完整的喵 (附論文下載)》

這是條件GAN的又一個出色表現的例子。在這個例子中,條件由整個圖片決定。圖像分割中的熱門技術UNet被用來作為生成器的結構,新提出的PatchGAN分類器被用來作為鑒別器以防圖像難以區分。(圖片被分割為N小塊,每一塊的真假分別預測)

Christopher Hesse做了一個貓的演示,這個演示引起了使用者對Pix2pix的極大興趣。

3.10:CycleGAN

為了應用Pix2pix,你需要來自不同領域的對應成對的圖片資料集。比如,在這種情況下,通過紙牌來生成這樣的資料集並不是件難事兒。然而,如果你想做些更複雜的,像“改變”圖片中的物體或圖片風格,從原則上來講這樣的資料集無法獲取。

點擊查看大資料文摘相關報導《深度學習中的怪圈》

因此,Pix2pix的作者們繼續深入思考並提出了CycleGAN來實現不同領域圖片之間的轉換而不需要明確的匹配——“Unpaired Image-to-Image Translation.”

CycleGAN的思路是訓練兩對生成器-鑒別器來把圖像從一個領域轉變到另一個領域再轉變回來,這樣的話需要保證週期一致性——在一系列的轉變之後,要得到與原始L1損失相近的圖像。週期損失則是保證生成器轉變後的圖片不會與原始圖片完全不相關。

這個方法能讓你把馬變成斑馬:

這樣的轉變並不穩定,經常會出現失敗案例:

3.11:腫瘤分子的發展

機器學習同樣在醫藥領域大展身手。除了超聲波圖像、核磁共振圖像和診斷識別外,機器學習還可以用於尋找新的抗癌藥物。

我們曾經報導過該研究的詳細內容。簡單來說就是在對抗自編碼器(AEE)的幫助下,可以得到分子的潛在表示並用以尋找新的分子。基於此,已有69種新分子被發現,約有35種已經投入到對抗癌症的使用中,其餘的分子也擁有巨大潛力。

3.12:對抗性攻擊

很多學者都對對抗性攻擊這個主題展開了積極探索。什麼是對抗性攻擊?舉個例子,在ImageNet上訓練得到的標準網路在受到特殊雜訊影響的圖片上進行分類會變得十分不穩定。在下面的例子中可以看到,人眼觀察到經過雜訊影響的圖像與原始圖像相比基本沒有變化,但是模型卻出現預測錯誤的問題。

點擊查看大資料文摘相關報導:

《用100元的支票騙到100萬:看看對抗性攻擊是怎麼為非作歹的》

《自帶迷幻劑技能的小貼紙:忽悠神經網路,讓它將一切都當作烤麵包機!》

模型的穩定通過FGSM演算法已經實現:通過調節模型的參數,可以朝著期望類別的方向改變一個或多個梯度步長,並且改變原始圖片。

Kaggle上的一個項目就與此相關:參賽者需要創造萬能的攻擊/防禦圖片,最終決出誰是最好的。

為什麼還應該研究攻擊呢?第一,如果我們想要保護自己的產品,可以在驗證碼上添加雜訊來阻止垃圾資訊傳播者自動識別它們。第二,演算法逐漸融入到我們的生活中——人臉識別和自動駕駛。這時候,攻擊者就可以利用演算法的弱點了。

下面是一個特殊眼鏡欺騙人臉識別系統並“冒充他人”的例子。因此,在訓練模型的時候我們應該把可能遭受的攻擊納入考慮範圍內。

這樣處理後的指示牌也是無法正確識別的。

4.強化學習

強化學習是機器學習中最有意思且最有活力的發展路徑之一。

這種路徑的核心在於學習agent的成功行為,而這基於一個通過經驗給予獎勵的環境,就和人類通過他們的生活學習一樣。

強化學習被積極應用于遊戲、機器人和系統控制中(比如交通系統)

當然很多人都已經聽說“阿法狗”在比賽中戰勝了頂級的職業選手。研究人員使用“加強學習”訓練機器人,機器人通過自己的演練,來提升自己的策略。

4.1:強化訓練與不受控制的輔助任務

在過去的幾年裡,DeepMind已經學會了使用深度強化學習來玩遊戲,甚至比人類玩得更好。目前,演算法已經學會玩更複雜的遊戲,比如Doom。

大部分的注意力集中於加速學習,因為在與環境的交互作用下,agent的經驗需要在modern GPUs上進行大量訓練。

在他的博客中,Deepmind報告說,引入額外的損耗(輔助任務),比如預測幀的變化(圖元控制),使agent更好地理解行為的結果,從而顯著加快學習速度。

學習結果:

在OpenAI中,他們通過虛擬環境中的人已經積極研究出了agent的培養方式,與現實生活相比較而言,這對於實驗來說更安全。

在其中一項研究中,研究小組展示了one-shot learning的可能性:一個人在虛擬實境中展示如何執行一項特定的任務,而一個演示足以讓演算法學會它,然後在實際情況下進行複製。

4.2:學習人類的偏好

OpenAI和DeepMind都在這個問題上進行了研究探索。項目的底線是每一個agent有一個任務,該演算法為人提供兩種可能的解決方案,並指出哪一個更好。這個過程反覆運算重複,並且從人學習如何解決這個問題的過程中得到900位元回饋(二進位標記)。

點擊查看大資料文摘相關報導《OpenAI聯手DeepMind發佈增強學習新突破,最佳獎勵函數可智慧化生成(附論文)》

在訓練過程中,有一個問題需要認真思考 - 我們正在教給機器什麼。例如,電腦決定該演算法真的想要獲取這個物件,但實際上,他只是模擬了這個動作。

4.3:在複雜環境中的運動

還有另一項來自DeepMind的研究。教機器人複雜的行為(行走、跳躍等),甚至做得和人類很相似。你必須大量地參與到損耗功能的選擇中,這將鼓勵期望的行為。然而,如果演算法自己能通過簡單的獎勵來學習複雜行為,就更好了。

研究人員成功地做到了這一點:他們通過構建一個帶有障礙物的複雜環境以及用簡單的獎勵來教agent(身體模擬器)完成複雜的動作,促進運動的進展。

通過視頻你可以看到機器人已經做得很好了。

5:其它

5.1:冷卻資料中心

在2017年7月,穀歌宣稱他們利用Deep Mind在機器學習開發中的優勢成果,來減少其資料中心的能源損耗。

點擊查看大資料文摘相關報導《小紮曝Facebook北極資料中心圖片 最先進資料中心都建在哪?》

基於來自資料中心的上千個感測器所傳遞的資訊,谷歌的開發人員編寫了一個模型來預測PUE(能源使用效率)以及更高效的資料中心管理模式。該項目意義深遠。

5.2:全能模型

訓練模型在任務與任務間的轉換很差,每一個任務都需要特定的模型加以對應,在一篇題為“萬能模型”的文章中提到,穀歌大腦的模型在適用的普遍性上已小有成就。

論文連結:https://arxiv.org/abs/1706.05137

研究人員已經編寫了一個可以在不同領域(文本、語音和圖像)執行8個任務的模型。例如,翻譯不同的語言,文本解析,圖像和聲音識別。

為了實現這一點他們搭建了一個複雜的網路架構,並利用不同的模組處理輸入的資料和生成的結果。編碼與解碼的模組主要有三種類型:卷積、attention、混合專家系統。

主要成果:獲得了近乎完美的模型(作者沒有對超參數進行微調)。

不同領域間的知識轉換,也就是說,在擁有充分資料的專案預測中,模型表現很穩定。

不同任務所需要的模組之間不僅不會相互干擾而且還會彼此增益,比如MoE用於 Imagenet 任務。

順便說一下,這個模型存出現於T2T之中……

5.3:一小時學習Imagenet

在他們的帖子裡,Facebook的工作人員告訴我們,他們的工程師們僅用一個小時內就能在Imagenet上教授resnet - 50模型。這需要256個gpu(特斯拉P100)的集群。

他們使用Gloo和caffe2來進行分散式學習。為了使過程有效,必須要大量的整學習策略 (8192個元素):梯度平均、預熱階段、特殊學習速率等。

因此,當從8擴展到256 GPU時,可以達到90%的效率。現在,來自Facebook的研究人員可以更快進行實驗。

6.新聞

6.1:自動駕駛汽車

自動駕駛汽車領域正在快速發展,也進入了積極的測試階段。最近行業內的大事件主要有Intel MobilEye的收購,Uber和谷歌前雇員盜取技術的醜聞,使用自動駕駛儀造成的第一起死亡事故。

點擊查看大資料文摘相關報導

《Uber創始人正式辭職,未卜的繼任者面臨這些大坑》

《穀歌、蘋果、Uber等科技巨頭們,為何紛紛暫緩研發自動駕駛》

穀歌Waymo正在推出一個beta程式。谷歌是該領域的先驅,技術廣受認可,他們的汽車已經累計行駛了超過300萬英里。

最近美國各州已經允許自動駕駛汽車運行上路了。

6.2:醫療保健

機械學習正在被引入醫學。例如,穀歌與醫療中心合作幫助病患診斷。

點擊查看大資料文摘相關連結:

《從HoloLens到AI輔助結核病治療,17年AI在醫療領域幾個最重要的應用突破》

Deepmind甚至建立了一個獨立的業務單元。

今年,在“Data Science Bowl”的項目下,舉辦了一項獎金為100萬美元競賽,競賽內容是以高清圖像為基礎,對肺癌一年內的發病率進行預測。

6.3:投資

就像之前大量資本進入大資料產業一樣,機器學習也在投資界受到熱捧。

中國在人工智慧領域投資1500億美元,成為該領域的先驅。

我們看一組對比資料。百度研究院雇傭了1300人,在同領域臉書只雇了80個。

學習“機器學習”永遠不會算太晚。無論如何,隨著時間的推移,所有開發人員都將使用機器學習,這將成為一項通用技能,就像今天大家都會使用資料庫一樣。

原文連結:https://blog.statsbot.co/deep-learning-achievements-4c563e034257