華文網

谷歌讓機器學會畫簡筆劃,媽媽再也不用擔心我手殘了

近日,谷歌開發了一款名為“AutoDraw”的應用,這款應用受到網友的追捧:它拯救了一些不會畫畫的人,還讓低齡塗鴉畫變成美術作品。

從上面的這個動圖中可以看到,這款程式能從簡單的幾筆劃像中識別特徵,並給出一個更完美的簡筆劃。

谷歌的研究人員正訓練自己的人工智慧程式,希望它能像人類一樣繪畫和概括抽象概念。4月11日,穀歌大腦專案研究員David Ha和Douglas Eck發表了一篇名為《繪製簡筆劃的神經表徵》(A Neural Representation of Sketch Drawings)的論文。

在這篇論文中,谷歌利用神經網路(RNN)訓練了一個實驗性的應用程式,可以協助藝術家創作以及幫助老師教學生繪畫。那麼這個程式究竟是如何做到的?

首先,大家需要瞭解什麼是神經網路模型。在人工智慧領域,神經網路最重要的用途是分類和識別。舉例說明,把一張貓的照片交給電腦讓其識別,

電腦可以通過神經網路對這張照片的圖元資訊進行逐層分析,每一層都會有若干個神經元負責分解畫面上的資訊。

目前,科學家們利用神經網路,在訓練圖像識別和圖像生成上已經有大量的實踐經驗。例如,谷歌的研究人員將圖片輸入搭建好的神經網路模型,讓它識別該圖片中的一個特徵,而後修改圖片以強調這項特徵。接著,修改後的圖像被回饋到神經網路,

讓神經網路再次識別其他特徵並強調它們。但這樣的訓練方法有個限制:如果神經網路被要求識別更複雜的圖像,例如識別一頭動物,它就會產生一些令人不安的奇幻圖景:3只或更多眼睛的貓和多隻頭的狗(如下圖)。

在新的這篇論文中,

谷歌的研究員對上述情況作了改進。“我們從原始資料中選了75個類型的資料來構建快速畫畫模型。每一個類型中都含有7萬個訓練樣本,再加上額外的2.5萬個驗證和測試樣本。”兩位研究員在論文中寫道。除了大量資料外,研究員還在系統中增加了噪音(編注:噪音的增加會導致模型複雜度提高,因為為了擬合所有的樣本需要的多項式項數變多了。),以確保機器不會簡單地重複真實的圖片,
而必須學習將圖片的特徵提取出來,表示為一個帶雜訊的特徵向量。神經網路的解碼器接收到它後,會產生一系列構建新圖片的活動。

研究員以貓為例做了解釋。當開發者們將一幅繪有三隻眼的貓圖片輸入時,模型會生成一隻只有兩隻眼睛的貓作為輸出,這表明這一模型已經學習到貓類一般只有兩隻眼睛(如下圖)。同時,為了證明這一模型不僅簡單地從大量的貓類圖片中記住了最接近正常外表的貓,開發者還嘗試以完全不同於貓類的牙刷圖片作為輸入。最後,一個像貓、長有鬍鬚、模仿了牙刷特徵和朝向的圖就生成了。

這表明網路已經學會將輸入圖片編碼為一組抽象的貓類概念,嵌入到特徵向量中,再基於該特徵向量重建一個全新的圖片。

“這個程式的關鍵在於研究了人們在畫畫時做了什麼。比如朝哪個方向移動,什麼時候起筆,什麼時候停止繪畫等。” David Ha說。他還強調,這個程式並不是在分析圖片,而是進行了繪畫創作。

開發者還嘗試以完全不同於貓類的牙刷圖片作為輸入。最後,一個像貓、長有鬍鬚、模仿了牙刷特徵和朝向的圖就生成了。

這表明網路已經學會將輸入圖片編碼為一組抽象的貓類概念,嵌入到特徵向量中,再基於該特徵向量重建一個全新的圖片。

“這個程式的關鍵在於研究了人們在畫畫時做了什麼。比如朝哪個方向移動,什麼時候起筆,什麼時候停止繪畫等。” David Ha說。他還強調,這個程式並不是在分析圖片,而是進行了繪畫創作。