您的位置:首頁>科技>正文

在讀純技術上,人工智慧完勝人類好幾條街!

從鍵盤打字到觸控屏, 再到現在的語音交互和手勢交互, 人工智慧技術的發展正在促使人機對話模式向更加多元化方向變革。 而就在12月初的世界互聯網大會上, 搜狗發佈了一項“唇語識別”技術。 通過機器視覺識別, 不用聽聲音, 僅靠識別說話人唇部動作, 就能解讀說話者所說的內容。 唇語識別完全不會受到雜訊干擾, 在多人對話中也能有效進行區分, 這就有望解決語音辨識的缺陷。

眾所周知, 讀唇是非常困難的, 人類僅僅是依靠視覺的觀察來判斷。 但對於機器來說, 對於這種無音訊的詞彙能夠進行有效的識別。 搜索這一技術的問世, 瞬間就引起了關注, 這也是業內首個公開演示的唇語識別系統。 據搜狗介紹, 唇語識別在非特定開放口語測試中, 通用識別的準確率在60%以上, 而在車載、智慧家居等垂直場景下, 已達到90%的準確率。

唇語識別技術的推出將引領整個人機智能交互行業進入一個全新的發展方向。 唇語識別技術的應用方向有很多, 比如手語和聽力障礙患者的輔助教育、國防反恐方面的情報獲取、個人的身份識別以及公共安全領域等都擁有巨大的應用潛力。 但在目前來看最大的應用還是輔助語音辨識,

畢竟它自誕生之初就是為了解決語音辨識的噪音問題而研發的, 這也會使得語音交互更加完善。

但作為新興技術, 如果要想語音辨識一樣快讀普及還是需要時間。 同時也面臨一些實際問題。 主要是攝像頭在捕捉的時候具有很大局限性, 不能完全滿足日常的交互需求。 再就是識別的準確度問題, 尤其是應用在對精度要求很高的領域, 比如反恐、安防等, 準確度是不能有絲毫誤差的。 目前最多的應用效果比較的一般是人工限定的場景範圍, 比如在汽車內部(車載), 但如果應用到大規模的戶外場景, 整體的場景設定就比較難了。

當然, 在人工智慧領域, 唇讀是最具挑戰性的難題之一,

目前在通用識別場景的準確率只有60%到70%, 雖然稍顯不足, 但隨著大資料與人工智慧的發展, 未來的識別準確率會達到更高。 目前除了搜狗外, 國內許多互聯網巨頭都在研發佈局人機交互這塊, 像百度、科大訊飛等。 可以預見的是, 同人臉識別、語音交互一樣, 唇語識別這項AI黑科技, 將來也會給我們的工作和生活帶來更多妙不可言的新體驗。

Next Article
喜欢就按个赞吧!!!
点击关闭提示