CSIG 圖像圖形學科前沿講習班，曠視和中科院帶來生物特徵識別精彩報告（一）

雷鋒網 AI 科技評論按：2018 年 4 月 14 日-15 日，中國圖像圖形學學會圍繞「生物特徵識別」這一主題，在中科院自動化所成功舉辦了第四期「CSIG 圖像圖形學科前沿講習班」。

生物特徵識別（BIOMETRICS），是指通過電腦利用人體所固有的生理特徵（指紋、虹膜、面相、DNA等）或行為特徵(步態、擊鍵習慣等)來進行個人身份鑒定的技術。

本期講習班邀請有曠視科技首席科學家孫劍，中科院研究員孫哲南、山世光、赫然、王亮，清華副教授馮建江、徐明星，中山大學教授鄭偉詩等八位學者分別就人臉、虹膜、指紋、步態、音紋等人體特徵的研究現狀做了詳細報告。

雷鋒網在本文中將對 14 日孫劍、孫哲南、赫然、馮建江的 4 場精彩報告進行介紹。 15 日的精彩報告見下篇文章。

孫劍：慧眼識人，讓機器像人一樣看懂人

曠視科技的首席科學家、曠視研究院院長孫劍做了首場報告，在一個多小時的時間裡孫劍主要介紹了他在視覺領域的一些核心工作。

孫劍博士在報告中介紹道他們電腦視覺的主要任務是理解圖片，挖掘圖片中的價值，例如人臉、動作、文字等。他將自己在視覺領域的核心工作分為分類檢測、分割學習、區分學習，對圖像層、區域層和圖元層的識別。同時，他也介紹了圖像識別的發展過程。

最早做圖像識別的方法是建模——數學簡單建模或者基於統計的建模。之後引入了學習的方法，

但由於當時計算能力很弱，這種方法下的自然圖像識別效果並不好。再然後就有了 Feature based 的方法，首先提取圖像的各種特徵進行量化，最後再做一個分類器進行識別或者特徵提取。這個方法對於識別性能的提升並不高，優化很困難，所以並不被當時的研究者看好。

2006 年時出現了一些新變化，神經網路訓練在語音辨識領域表現比較好，然後在圖像領域也取得了一些突破性的進展。但優化困難、訓練錯誤的問題還是存在。直至 2015 年，孫劍博士團隊在微軟研發出 resnet，可以直接訓練上百層的網路，同時極大地降低了訓練錯誤率。孫劍博士簡單概括 resnet 的原理是在系統非常深、層數比較多時進行變換，一是直接學習變換，

二是學習殘差信號。其中殘差網路更容易優化。

以上是識別問題，孫劍博士還提到一個比較重要的問題——檢測問題。伯克利的博士後羅斯在這個領域上做出了突破性工作，他使用位置分類，使用位置框將物體框出來，這個方法將檢測性能提升了很多倍，目前使用廣泛。羅斯為優化檢測問題進一步提出將 feature 納入學習的方法，孫建博士團隊提出了 Faster-RCNN 解決該方法遇到的計算量問題。當前 Faster-RCNN 也是大家廣泛使用的方法。

孫劍博士補充道在應用方面，無論是安防還是零售，跨攝像頭追蹤都是一項比較重要的工作。為了讓他們團隊的 ReID 模型正確的學習，他們引入了動態規劃的方法。這種方法表現出的效果很好，甚至可以超過人。同時該方法也適用於分割問題。

孫劍博士認為研究生物識別還有一個比較重要的問題是研究如何在不同的環境中設計網路。這裡他介紹的他們的另一項工作 ShuffleNet。這項工作已經被應用到手機的人臉識別和 AI 相機等功能上面。 AI 相機的自動調焦、曝光等功能充分證明了 ShuffleNet 即使是在手機的計算能力下也可以表現的很好。

報告最後孫劍博士介紹自己的研究方向是認知智慧，之後會著力提升模型的推廣能力。

孫哲南：虹膜識別研究進展與發展趨勢

接著中科院自動化所研究員孫哲南做了關於虹膜識別的報告。

孫哲南研究員介紹了虹膜識別的概念。虹膜是黑色瞳孔和白色鼓膜之間的區域，虹膜的尺寸比較小但信息量非常的大。

因為虹膜不具備基因遺傳性，容易受到發育環境的影響。且虹膜在發育到一定階段後非常穩定，所以虹膜的紋理具有很強的唯一性。

接著他介紹了虹膜識別的特殊優勢，首先就是很高的唯一性，其次就是使用的廣泛性。在超大規模人群中，虹膜識別具有獨特的優勢，因此在門禁、機場、邊檢口岸等有廣泛的應用，目前最大的虹膜識別應用當屬印度的身份證系統。印度的 UID 專案已經採集了 12 億的虹膜特徵，經過大規模的應用測試，事實證明虹膜識別精度很高，且識別速度很快。

整個虹膜識別的標準流程包括三個。第一是採集，第二是預處理，第三是分析與對比。其中採集部分需要用到光學等模組包括鏡紅外主動光，需要 CCD 和 CMOS，還需要人機交互模組以及視覺回饋模組。在虹膜採集過程中他們一般採用多模態的生物特徵識別，包括人臉，這樣可以進行多模態的身份驗證。

虹膜獲取之後就是預處理環節。預處理的第一步是虹膜的檢測，檢測主要是確定虹膜的位置，以及虹膜精確的邊界。預處理的第二步是活體虹膜的檢測，主要是防止虹膜造假。孫哲南團隊為此提出了一個層次化的分類方法，這種方法在人種分類、活體分類以及資料庫檢索方面表現良好。第三步是虹膜品質評價。最後虹膜預處理還需解決虹膜紋理的非線性縮變。

預處理結束就可以進行虹膜圖像特徵的提取與比對。對於目標特徵的提取和識別，孫哲南團隊提出了品質測量特徵。為了解決提取雜訊問題，他們提出了定性變數的方法，提取之後的對比問題上，他們採用基於全連接的連接的方法，一舉解決了深度神經網路比對速度慢的問題

在介紹完技術後，孫哲南研究員將虹膜識別的發展歷史概括為如下七個階段：

一：近距離，人不動，人配合機器

二：人不動，主動配合

三：人不動，遠距離識別

四：距離遠，但機器配合人

五：人移動也能識別

六：移動中主動抓拍識別

七：監控場景多攝像頭抓拍識別

孫哲南研究員總結到現在使用深度學習的方法可以在分割、屬性分析、識別等方面得到更加精確的結果。但是還有很多技術難題需要攻克，比如一次識別多個虹膜等。

赫然：大規模人臉圖像編輯理論、方法及應用

赫然研究員在下午做了人臉圖像編輯的報告。

人臉圖像編輯即是通過機器對圖像進行處理得到一些新的圖像。這項技術目前在日常生活中擁有廣泛的應用，如照片美化等。

人臉編輯涉及光譜變換、屬性遷移、年齡變換、圖像生成等方面的內容。理論基礎涉及全光人臉分析、視覺拓撲優先、生成對抗結構、身份保持結構等。人臉採集會應用到全光函數，赫然研究員介紹道人臉編輯的目標是符合人的視覺認知，人類視覺認知涉及拓撲感知機制。

至於圖片生成演算法的最基本的理念則是對話生成網路，其中最基本的概念就是 GAN。這個模型分為生成式模型和判別式模型。通過生成器與判別器的博弈來生成儘量真實的圖像。

在生成器生成過程中涉及到身份保持的問題，即生成男性圖像不會變為女性。赫然研究員採用定距度量的方式，同時借鑒了神經學中的側向抑制來解決該問題。

目前赫然研究員的工作開放了兩個版本，一個是 LightCNN9，另一個是 LightCNN29。這兩個都是通用模型，且在所有公開資料中都取得了最好的結果。

接下來赫然研究員介紹了他們研究中心的相關工作，包括超解析度、視角旋轉、上妝去妝、表情編輯、年齡變換、圖元補充、跨光譜合成等。

赫然研究員總結他們的工作，首先是人臉合成，這是人臉分析裡面比較重要的一部分，而人臉生成的目標是符合人的視覺認知。他們會在接下來的工作中力求越來越準確。

馮建江：指紋識別現狀與研究進展

馮建江教授接著做了指紋識別的報告。他表示，指紋的唯一性和穩定性非常好。隨著年齡的增長只會有些許變化，很適合用作識別。

首先指紋識別裡面有三個模組——圖像採集、特徵提取和匹配。指紋採集分兩種，早期的離線採集即油墨採集，現在的線上採集即光學採集等。指紋特徵的提取分為兩級，先提取第一級特徵，在第一級特徵的指引下提取第二級特徵。在匹配階段進行一個帶方向的細節點匹配。

馮建江教授強調目前指紋識別的難題有低品質指紋識別率太低、大資料庫下識別率和效率需要提高、理論極限不清楚、偽指紋難識別、範本不安全等。

馮建江教授著重介紹了低品質指紋的識別問題。他們採取了指紋字典的方法，用高品質指紋訓練字典。訓練出的字典裡面有各種指紋脊線真實的方向場。在處理糟糕指紋的時候通過字典來選擇候選方向場，然後對比連續性來選出品質比較好的方向場。這是全域字典。全域字典的壞處是容易在局部出現不可能圖案，於是馮建江教授又提出了局部字典。先通過全域字典生成指紋，再用局部字典進行修正。

指紋採集後就是細節點的提取以及扭曲場估計，扭曲場估計用來處理同一個人不同狀態指紋的差異問題。馮建江老師在扭曲場估計中一個比較重要的工作是稠密配置。

報告的最後馮建江教授表示使用深度學的方法來研究指紋識別，在低品質指紋識別上較過去的傳統方法在性能上有了明顯改善。

孫劍、孫哲南、赫然、馮建江的 4 場精彩報告介紹如上，敬請期待雷鋒網AI 科技評論的後續報導。

需要 CCD 和 CMOS，還需要人機交互模組以及視覺回饋模組。在虹膜採集過程中他們一般採用多模態的生物特徵識別，包括人臉，這樣可以進行多模態的身份驗證。