關於人工智慧的圖像識別應用, 相信小夥伴兒已經接觸了許多, 比如面部識別、情緒識別和視覺搜索等。 作為科技業巨頭之一的微軟, 在該領域同樣有過許多嘗試:在牛津項目(Project Oxford)中, AI能識別圖片中人物的情緒;在CaptionBot應用中, AI不僅能識別使用者上傳的圖片, 還能給出一段有趣的描述。
如今, 微軟在AI圖片研究方面更近一步, 帶來了AI繪圖功能:你只需給出說明(比如文字描述), AI就可以自動生成圖片。 據悉, 與之前考慮過的頂級技術相比, drawing bot帶來了三重改進。 比如上圖就是AI根據“一隻擁有黃色身軀、黑色翅膀和短喙的小鳥(a bird with a yellow body, black wings and a short beak)”這一說明, 繪製出來的小鳥。
AI繪圖背後的技術原理
據介紹, drawing bot基於生成對抗網路(GANs)技術, 而且微軟研究人員更進一步, 使用被稱為AttnGAN(Attentional Generative Adversarial Network)的技術, 能將輸入的句子分成獨立的單詞, 並與圖像的特定區域匹配起來。 研究人員提到AttnGAN時表示, 這是用算術替代了專注這一概念,
據悉, 研究人員以數學演算法, 為AI提供了注意力模型(The attention model)和DAMSM模型(Deep Attentional Multimodal Similarity Model)。 其中, 注意力模型擁有文字特徵和圖片特徵兩種輸入資料(input)。 DAMSM則包括了text encoder、image encoder和基於attention model的attention-driven image-text matching score模組, 能學習映射圖像和單詞分區兩個神經網路的公共語義空間,
想瞭解更多技術細節, 請查看研究人員發佈的論文:https://arxiv.org/abs/1711.10485v1
AI繪圖未來大有可為
據悉, 該研究團隊最初借助名為CaptionBot的AI系統來深入研究電腦視覺和自然語言處理問題(該系統可以自動為照片添加字幕);此後, 研究團隊又創建了名為SeeingAI的AI系統, 它的作用是説明盲人群體認識世界(通過識別圖像給出地點、物體屬性等回答);然後, 研究團隊想通過文字來生成圖像, “這意味著你需要AI的機器學習演算法能想像圖片中丟失的部分。 ”
有趣的是, 得益于研究人員提供的訓練資料, drawing bot也擁有了一點基本常識和想像力, 能填補圖像的一些細節。 以小鳥為例, 即使文本中並沒提到樹枝, drawing bot也經常會畫出一隻站在樹枝上的鳥, 那是因為最初給它輸入的圖像大部分都是這樣的。
微軟研究員強調, 該AI系統不是根據描述去尋找網路中對應的圖片, 而是完全靠自己創作出來的, “AI畫出來的鳥可能並不存在於真實世界——這些鳥只不過是電腦想像力的結果而已!”據悉,
隨著技術的進步, 這項技術甚至還能在生成基於劇本的動畫電影, 為動畫電影製作人提供助力。 當然, 目前該技術還存在瑕疵, 不過微軟已經邁出了非常重要的一步。 如果未來真的有根據文本描述繪畫的AI投入實用, 你會有什麼感想呢?