穀歌發佈NIMA，一個有品位的CNN模型

編者按：谷歌今日發文介紹新型深度CNN模型——NIMA（Neural Image Assessment），它能以接近人類的水準判斷出哪張圖片最好看。以下是論智對穀歌博客內容的編譯。

圖像品質和美學的量化一直是影像處理和電腦視覺長期存在的問題。技術品質評估測量的是圖像在圖元級別的損壞，例如雜訊、模糊、人為壓縮等等，而對藝術的評估是為了捕捉圖像中的情感和美麗在語義級別的特徵。最近，用帶有標記的資料訓練的深度卷積神經網路（CNNs）已被用於解決特殊圖像（例如景觀）圖像品質的主觀屬性。然而，這些方法通常簡單地將圖像分為低品質和高品質的兩類，

範圍有些狹窄。為了得到更準確的圖像品質預測，我們提出的方法可以得不出同的預測評級，更接近於真實的評級，更適用於一般圖像。

在NIMA：Neural Image Assessment這篇論文中，我們介紹了一個深度卷積神經網路，通過訓練，它可以判斷哪些是使用者認為技術精湛的圖片（technically），哪些是有吸引力的圖片（aesthetically）。正是有了最先進的能夠識別物體的深度神經網路， NIMA才能在此基礎上理解更多類別的物體，不論有什麼變化。我們提出的網路不僅能給圖像打一個靠譜的分數、接近人類的感知水準，同時還能用於各種需要大量勞動力和主觀任務中，例如智慧照片編輯、優化視覺品質，或者在pipeline中發現視覺錯誤。

背景

一般來說，圖像品質評估可分為全參考和無參考兩種方法。

如果作為參考的理想圖片可用，則就會使用諸如PSNR、SSIM等衡量圖像品質的尺度。當參考圖像不可用時，無參考方法就會依靠統計模型來預測圖像品質。這兩種方法的主要目標是預測一個與人類感知十分相近的品質分數。在利用深度卷積神經網路對圖像品質進行評估時，需要通過在與物件分類器相關的資料集上進行訓練（例如ImageNet），以初始化權重。然後對注釋資料進行微調，以進行感知品質評估任務。

NIMA

通常判斷一幅圖像是否有吸引力是將其分成高低兩種品質。這忽略了一個事實，即訓練資料中的每個圖像都與人類評分的長條圖相關聯，而非簡單的二分類。人類評價長條圖是評價圖像整體品質的指標，

也是所有打分者的平均數。而在我們的新方法中， NIMA模型不是簡單地將圖像分為高或低品質，或者進行回歸得到平均分，而是對任意給定的圖像產出評級分佈——分數從1到10， NIMA計算出各個分數的可能性。這也與訓練資料的來源相一致，並且當與其他方法對比時，我們的方法更勝一籌。

接著，就可以使用NIMA的向量分數的各種功能按照吸引力排列圖像了。下面展示了利用NIMA排名的圖片，他們都來自AVA資料集。在測試中， AVA中的每張圖片都由200人共同評分，訓練結束後， NIMA對這些圖片的美感排名與人類評分員的平均分數非常接近。我們發現NIMA在其他資料集上表現同樣很出色，對圖像品質的預測和人類接近。

AVA中帶有“風景”標籤的圖片排名。括弧中是人類打分，括弧外是NIMA的預測分數

NIMA的分數也可以比較經過扭曲的圖片與原圖的品質差別，以下是TID2013測試集的一部分，其中包含各種類型和級別的圖像失真。

圖像感知增強（Perceptual Image Enhancement）

正如我們在另一篇論文中所提到的，品質和吸引力分數也可以用來調整圖像增強operators。換句話說，將NIMA分數最大化作為損失函數的一部分，能夠提升圖像增強的感知品質。下圖中的例子表明， NIMA可以作為訓練損失來調整色調增強演算法。我們發現對美感的基準評分可以通過NIMA的評分指導的對比調整來改善。因此，我們的模型能夠引導一個深度卷積神經網路濾波器，以找到參數中接近最佳設置的位置，例如亮度、高光和陰影。

用CNN和NIMA改變原圖的色調和對比度

展望未來

NIMA的結果表明，基於機器學習的品質評估模型可能用途非常廣泛。比如，我們可以讓用戶很輕易地找出最好的照片，甚至實現在用戶拍照時進行即時回饋。在後期處理上，該模型可以產生更優秀的結果。

簡單地說，NIMA以及其他類似的網路可以滿足人類對圖像甚至視頻的審美，雖然還不夠完美，但已經比較可行了。俗話說，蘿蔔青菜各有所愛，每個人對一張照片的評價也各不相同，所以想要瞭解所有人的審美水準是非常困難的。但我們將繼續訓練測試模型，期待有更多的成果。

因此，我們的模型能夠引導一個深度卷積神經網路濾波器，以找到參數中接近最佳設置的位置，例如亮度、高光和陰影。

用CNN和NIMA改變原圖的色調和對比度

展望未來