微軟推出AI畫家AttnGAN，動嘴就能生成照片

【獵雲網（微信號：ilieyun）】1月29日報導（編譯：葉展盛）

在我眼中，這些鳥兒看起來非常真實，其中一隻的腹部長滿了蓬鬆的黃色羽毛。另一只有著綠色的尾巴和長長的喙。

而這些照片完全都是虛構的。微軟最新的人工智慧AttnGAN能根據你的想像直接給出圖片，你只需要給這個系統輸入一個句子（比如“這只鳥是紅色和白色的，它的喙非常短”），那麼它們就能生成圖片。也就是說AttnGAN能夠“無中生有”出這些高清的、圖元為256 x 256的照片。

這個項目的主管研究員Xiaodong He表示：“四年前，不會有人相信這樣的技術能夠實現。 ”

在過去的五年裡，他研究了語言和圖片之間的關係，並訓練人工智慧去執行這類任務。最初他創造了一個名為CaptionBot的人工智慧，它能用文字去描述一張圖片——這種功能可以為視力受損者提供幫助。之後他設計了一種人工智慧可以回答你針對某張圖片提出的特定問題，讓研究又更進一步。

如今的AttnGAN讓他完成了最後一步。簡單的說，微軟的人工智慧可以通過寥寥幾個詞彙生成圖片。

其名字“AttnGAN”就是源於它的設計過程。微軟的研究員讓兩個人工智慧互相“角力”（也就是所謂的對抗生成網路， Generative Adversarial Network，即“GAN”的由來），這兩種人工智慧都通過大量的語言和圖片資料集進行訓練，但其中一個主要去生產圖片，另一個負責給出評論。從最初的模糊圖片到最後高清圖片，第二個人工智慧會在這其中的三個階段給出評論。這種持續的“對抗”會不斷優化AttnGAN，讓它們最終生成你今天所能看到的圖片。

儘管圖元比較低，但這些圖片還是非常逼真的。除了逼真，它還會特別強調細節。這裡講的也就是“AttnGAN”之中的“attention”部分，人工智慧會根據語言的描述，對圖片進行非常小範圍的微調。比如說一隻鳥，它有非常多的細節，例如藍色的喙、黃色的羽毛、長的或短的喙等。這種設計細節的“即興創作”遠比谷歌的廣義描述人工智慧複雜得多。甚至Adobe的怪誕圖片製作工具也都是始于一張實際照片的，而不是一張“白紙”。

當然AttnGAN也被發現存在一定的局限性。比如研究員要求它畫一輛紅色的雙層巴士，同時它還飄在湖上。結果它畫出來的更像是一艘模糊的紅色和白色的船。語境似乎對主題產生了影響，它將兩個東西混合成了一個，畢竟巴士是不可能在水裡開的，所以AttnGAN畫了一艘船。

在另一個案例中，研究員要它畫一個“正在吃一大塊披薩的女孩”。女孩的樣子畫的倒是有板有眼，但圖片裡的其他東西就不如人意了，它更像是經過了某種奇特的渲染。

本文來自獵雲網，如若轉載，請注明出處：http://www.lieyunwang.com/archives/408184