您的位置:首頁>正文

穀歌發佈NIMA,一個有品位的CNN模型

編者按:谷歌今日發文介紹新型深度CNN模型——NIMA(Neural Image Assessment), 它能以接近人類的水準判斷出哪張圖片最好看。 以下是論智對穀歌博客內容的編譯。

圖像品質和美學的量化一直是影像處理和電腦視覺長期存在的問題。 技術品質評估測量的是圖像在圖元級別的損壞, 例如雜訊、模糊、人為壓縮等等, 而對藝術的評估是為了捕捉圖像中的情感和美麗在語義級別的特徵。 最近, 用帶有標記的資料訓練的深度卷積神經網路(CNNs)已被用於解決特殊圖像(例如景觀)圖像品質的主觀屬性。 然而, 這些方法通常簡單地將圖像分為低品質和高品質的兩類,

範圍有些狹窄。 為了得到更準確的圖像品質預測, 我們提出的方法可以得不出同的預測評級, 更接近於真實的評級, 更適用於一般圖像。

在NIMA:Neural Image Assessment這篇論文中, 我們介紹了一個深度卷積神經網路, 通過訓練, 它可以判斷哪些是使用者認為技術精湛的圖片(technically), 哪些是有吸引力的圖片(aesthetically)。 正是有了最先進的能夠識別物體的深度神經網路, NIMA才能在此基礎上理解更多類別的物體, 不論有什麼變化。 我們提出的網路不僅能給圖像打一個靠譜的分數、接近人類的感知水準, 同時還能用於各種需要大量勞動力和主觀任務中, 例如智慧照片編輯、優化視覺品質, 或者在pipeline中發現視覺錯誤。

背景

一般來說, 圖像品質評估可分為全參考和無參考兩種方法。

如果作為參考的理想圖片可用, 則就會使用諸如PSNR、SSIM等衡量圖像品質的尺度。 當參考圖像不可用時, 無參考方法就會依靠統計模型來預測圖像品質。 這兩種方法的主要目標是預測一個與人類感知十分相近的品質分數。 在利用深度卷積神經網路對圖像品質進行評估時, 需要通過在與物件分類器相關的資料集上進行訓練(例如ImageNet), 以初始化權重。 然後對注釋資料進行微調, 以進行感知品質評估任務。

NIMA

通常判斷一幅圖像是否有吸引力是將其分成高低兩種品質。 這忽略了一個事實, 即訓練資料中的每個圖像都與人類評分的長條圖相關聯, 而非簡單的二分類。 人類評價長條圖是評價圖像整體品質的指標,

也是所有打分者的平均數。 而在我們的新方法中, NIMA模型不是簡單地將圖像分為高或低品質, 或者進行回歸得到平均分, 而是對任意給定的圖像產出評級分佈——分數從1到10, NIMA計算出各個分數的可能性。 這也與訓練資料的來源相一致, 並且當與其他方法對比時, 我們的方法更勝一籌。

接著, 就可以使用NIMA的向量分數的各種功能按照吸引力排列圖像了。 下面展示了利用NIMA排名的圖片, 他們都來自AVA資料集。 在測試中, AVA中的每張圖片都由200人共同評分, 訓練結束後, NIMA對這些圖片的美感排名與人類評分員的平均分數非常接近。 我們發現NIMA在其他資料集上表現同樣很出色, 對圖像品質的預測和人類接近。

AVA中帶有“風景”標籤的圖片排名。 括弧中是人類打分, 括弧外是NIMA的預測分數

NIMA的分數也可以比較經過扭曲的圖片與原圖的品質差別, 以下是TID2013測試集的一部分, 其中包含各種類型和級別的圖像失真。

圖像感知增強(Perceptual Image Enhancement)

正如我們在另一篇論文中所提到的, 品質和吸引力分數也可以用來調整圖像增強operators。 換句話說, 將NIMA分數最大化作為損失函數的一部分, 能夠提升圖像增強的感知品質。 下圖中的例子表明, NIMA可以作為訓練損失來調整色調增強演算法。 我們發現對美感的基準評分可以通過NIMA的評分指導的對比調整來改善。 因此,我們的模型能夠引導一個深度卷積神經網路濾波器,以找到參數中接近最佳設置的位置,例如亮度、高光和陰影。

用CNN和NIMA改變原圖的色調和對比度

展望未來

NIMA的結果表明,基於機器學習的品質評估模型可能用途非常廣泛。比如,我們可以讓用戶很輕易地找出最好的照片,甚至實現在用戶拍照時進行即時回饋。在後期處理上,該模型可以產生更優秀的結果。

簡單地說,NIMA以及其他類似的網路可以滿足人類對圖像甚至視頻的審美,雖然還不夠完美,但已經比較可行了。俗話說,蘿蔔青菜各有所愛,每個人對一張照片的評價也各不相同,所以想要瞭解所有人的審美水準是非常困難的。但我們將繼續訓練測試模型,期待有更多的成果。

因此,我們的模型能夠引導一個深度卷積神經網路濾波器,以找到參數中接近最佳設置的位置,例如亮度、高光和陰影。

用CNN和NIMA改變原圖的色調和對比度

展望未來

NIMA的結果表明,基於機器學習的品質評估模型可能用途非常廣泛。比如,我們可以讓用戶很輕易地找出最好的照片,甚至實現在用戶拍照時進行即時回饋。在後期處理上,該模型可以產生更優秀的結果。

簡單地說,NIMA以及其他類似的網路可以滿足人類對圖像甚至視頻的審美,雖然還不夠完美,但已經比較可行了。俗話說,蘿蔔青菜各有所愛,每個人對一張照片的評價也各不相同,所以想要瞭解所有人的審美水準是非常困難的。但我們將繼續訓練測試模型,期待有更多的成果。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示