唇語識別真會是語言交互的終極戰場？

2017-12-20 09:48 快速評論

看似應用方向很多，最重要的還是輔助語音辨識

文 | 夏汀

在今年的烏鎮世界互聯網大會上，搜狗展出了一項黑科技——唇語識別，

12月14號搜狗在北京又公開演示了這項技術。作為行業領先的唇語識別系統，搜狗在非特定開放口語測試中，通用識別的準確率在60%以上，而在車載、智慧家居等垂直場景下，已達到90%的準確率。

雖說搜狗是國內第一家公開演示這項技術的公司，但早在2017年3月，海雲資料創始人兼CEO馮一村在亞洲大資料可視分析峰會上，就發佈了重慶市公安科研所與海雲資料共同研發的唇語識別技術，它的中文識別模型準確率已達到70%。

而穀歌DeepMind團隊，在2016年利用BBC視頻對他們的AI系統進行了5000個小時的訓練，測試時唇語識別正確率達到了46.8%。

這並不是場獨角戲，那唇語識別到底是何物？未來又有著怎樣的想像空間？

唇語識別只是語言識別的進化

雖說唇語識別近期才進入公眾視野，

但唇語識別技術的發展可以追溯到上世紀80年代。

當時，語音辨識技術迅速發展，出現了許多實用的語音辨識系統，然而這些系統抗干擾能力不強，在有背景雜音與交叉談話的情況下，它們的性能會大幅降低。而在自然應用環境中，噪音現象十分常見，研究者們為了解決上述缺陷，一方面採用降噪技術降低干擾，另一方面開始尋求其它解決方法。

那唇語識別技術是怎麼發展來的呢？語音辨識的研究者們突然發現，其實人類的語言識別系統是由兩個感知過程構成的，聲音雖然是人類語言認知過程中最重要的方式，但在日常交流中，我們還會用眼睛看著對方的口型、對方的表情等，

來更加準確的理解對方所講的內容。受此啟發，研究者們開始研究唇語識別。因為唇語識別完全不會受到雜訊干擾，在多人對話中也能有效進行區分，這就有望解決語音辨識的缺陷。事實上也是，將唇語識別與語音辨識結合起來能夠大大提高系統的正確率和抗干擾能力，於是唇語識別便有了更多的發揮空間。

換湯沒換藥，近30年的發展，核心步驟還是三步

經過研究各類資料，智慧相對論（微信id：aixdlun）發現，唇語識別技術從攝像頭輸入到理解輸出，中間最重要的是這三個單元——視覺前段、視覺特徵提取、以及唇動識別。

（圖為：唇語識別的步驟）

其中，視覺前段包括人臉檢測與唇的檢測和定位，早期檢測方法比較笨拙，不允許人臉自由移動，有些還會手動添加特定標誌來跟蹤唇動。目前的檢測方法主要是基於演算法，先用人臉檢測演算法得到人臉然後有針對性的定位唇動；或者利用最佳閩值二值化演算法，以唇的邊緣是平滑的，和左右形狀對稱為條件，

作為二值化閩值選定的約束條件，得到平滑而對稱的唇圖像。

視覺特徵提取是對獲取的唇圖像進行處理得到對應特徵，特徵提取方法主要分為兩大類：基於圖元的方法和基於模型的方法。所謂基於圖元的方法，就是利用包含嘴的灰度級圖像或利用經過預處理後得到的特徵向量的一類方法。這種方法的缺陷在於對二維或三維的縮放、旋轉、平移、光照變化以及說話人的變化都很敏感，會造成提取過程中特徵丟失的情況，不能得到完整的特徵資訊。而搜狗所用的基於模型的方法就是，對唇的輪廓建立一個模型，將特徵資訊包含在這個模型之中，並對模型中特徵資訊的變化用一個小的參數來描述。這類方法的優點是重要特徵被表示成二維參數，不會因光照、縮放、旋轉、平移而改變，缺點是忽略了細微的三維資訊，可能會對後面的識別過程造成影響。

目前唇動識別採用的技術大多是隱瑪律可夫模型，該技術基本思想是，認為唇動信號在極短時間內是線性的，可以用線性參數模型來表示，然後將許多線性模型在時間上串接起來，組成一條瑪律可夫鏈。瑪律可夫鏈可以用來描述統計特徵資訊的變化，並且這種變化過程與人的唇動過程是相吻合的，所以隱瑪律可夫模型能夠識別唇動並與相應語句匹配轉化成文字。

看似應用方向很多，最重要的還是輔助語音辨識

唇語識別技術的應用方向有很多，比如手語和聽力障礙患者的輔助教育、國防反恐方面的情報獲取、個人的身份識別以及公共安全領域等都擁有巨大的應用潛力。但在目前來看最大的應用還是輔助語音辨識，畢竟它自誕生之初就是為了解決語音辨識的噪音問題而研發的，這也會使得語音交互更加完善。

說到這裡就不得不提到智慧音箱，其實除搜狗之外，很多大公司也在佈局語音交互，國內有阿裡巴巴、百度、科大訊飛，國外有蘋果、穀歌、微軟、亞馬遜。在今年7月阿裡巴巴就發佈了一款智慧音響天貓精靈，可以接受各種語音指令，搭載中文人機交流系統AliGenie，有望成為家庭智慧小助手。在11月16日百度也推出了首款智慧音響raven H，其採用19x19的點陣觸控式螢幕，內置DuerOS 2.0語音交互系統，擁有語音和控制器兩種對話模式。其餘還有京東的叮咚智慧音響，小米的小愛同學，喜馬拉雅的小雅音響等智慧音響產品。對於這些公司而言，似乎不出一個智慧音響都不好意思說自己在人工智慧領域混。

那智慧音響到底與唇語識別有啥關係？大廠們紛紛推出智慧音響的原因是看到了新型對話模式的大趨勢，但是智慧音響能夠滿足需求的場景較少，且智慧音響還有兩大頑疾——抗噪音能力與遠場交互能力較低。

根據聲學線上的測試，即便是市面上最主流的智慧音響，在抗噪音能力與遠場交互能力上的表現也不盡如人意，5米的中短距離上有很多失誤。

（圖為：5m 距離智慧音響喚醒失敗次數統計）

而且，傳統語音交互對輸入音訊要求高，在背景雜音大時很容易失效，若人與機器再隔得遠一點，失效的情況就更加嚴重了。但唇語識別就可以解決這兩個問題。

若要快速普及，還有兩個問題待解

自出現唇語識別技術出現起，就有聲音說唇語識別是語言交互的高階戰，甚至可能帶來一場革命。不過，根據智慧相對論（微信ID：aixdlun）的觀察，目前來說，唇語識別還不能快速普及。這主要的問題在：

一、攝像頭錄入存在很大的限制，不能完全滿足日常交互需求。在目前的唇語識別系統中，獲得的嘴唇視覺特徵資訊都是正向的，這就意味著你與它交互時，必須時刻正對著它，第一視角被其牢牢佔據，這在真實應用場景下難以達到。要能夠應用更多的場景，應該使人在側著身子說話時也能被檢測識別，這要求在人臉識別、唇的檢測與定位方面研究出更強的定位、跟蹤演算法，提高演算法的普適性，使之適用於非特定姿勢和位置的識別定位，並且唇動識別技術也要提高，使之能處理非正向的、較不完整的視覺特徵資訊。

二、識別的準確度也是一個關鍵的問題，在有關安全的場景下，準確度是不容有差的。但我們知道其實口型與拼音序列是一對的多關係，如 zhi、chi、shi對應的口型序列是一樣的，單純利用視覺特徵難以區分，會造成資訊識別錯誤，處理這個問題，傳統的技術方法是文法型語言模型，它基於人工編制的語言學文法，這種語言模型一般用於分析特定領域內的語句，無法處理大規模的真實文本。目前很多識別系統是人工限定的框架，在某一場景中對可能會出現的語句進行了很多設置，這是搜狗唇語識別系統在垂直場景（如車載）中表現得很好的原因，這同樣也是它還不能大規模應用到其他場景的原因，因為要對所有場景進行設定，幾乎是不可能的。

不過，我們依然要滿懷信心，隨著人類社會的發展，真實資訊越來越多，處理資料的手段也越來越豐富，基於語料庫的統計語言模型發展迅速，借助於統計語言模型的概率參數，可以估算出自然語言中每個句子出現的可能性，並通過對語料庫進行深層加工、統計和學習，獲取自然語言中的語言知識，從而可以處理大規模真實文本，並能識別出語言中細微的差別。目前在通用識別場景的準確率只有60%到70%，雖然稍顯不足，但可以預見，隨著大資料與人工智慧的發展，未來的識別準確率會達到更高。

這看起來，一個新的時代正向我們迎面走來。

智能相對論（微信id:aixdlun）：2個前人工智慧行業管理諮詢老鳥+1個老媒體人組成的三人幫，深挖人工智慧這口井，評出鹹淡，講出黑白，道出深淺。

本文經「原本」原創認證，作者智能相對論，訪問yuanben.io查詢【2FM2VTB0】獲取授權資訊。

不會因光照、縮放、旋轉、平移而改變，缺點是忽略了細微的三維資訊，可能會對後面的識別過程造成影響。

看似應用方向很多，最重要的還是輔助語音辨識

根據聲學線上的測試，即便是市面上最主流的智慧音響，在抗噪音能力與遠場交互能力上的表現也不盡如人意，5米的中短距離上有很多失誤。

（圖為：5m 距離智慧音響喚醒失敗次數統計）

若要快速普及，還有兩個問題待解

這看起來，一個新的時代正向我們迎面走來。

智能相對論（微信id:aixdlun）：2個前人工智慧行業管理諮詢老鳥+1個老媒體人組成的三人幫，深挖人工智慧這口井，評出鹹淡，講出黑白，道出深淺。

本文經「原本」原創認證，作者智能相對論，訪問yuanben.io查詢【2FM2VTB0】獲取授權資訊。