CCR 2017召開搜狗COO茹立雲：AI推動五項核心圖像技術取得突破

10月12-15日，中華醫學會第24次全國放射學學術大會（CCR 2017）在上海世博中心拉開帷幕，聚集了國內外一流的專家學者及業內人士共6000余人，集中展示和交流了中國影像醫學的歷史傳承與跨越式發展。搜狗公司COO茹立雲受邀出席此次大會，以“人工智慧在圖像領域的進展”為題，分享了人工智慧推動圖像技術取得的五項重大突破，並指出人工智慧技術在醫療領域應用前景廣闊，未來將能發揮更大作用。

（搜狗公司COO茹立雲出席CCR2017並發表主題演講）

隨著移動互聯網及社交網路的發展，圖片成為主要的資訊載體，在這種情況下，電腦的圖像識別技術就顯得尤為重要。茹立雲介紹， 21世紀初，圖像的檢索基本上是由人工去定義特徵，在機器上做簡單的匹配。人工智慧技術的發展，讓機器對圖像中內容的理解能力實現了全面提升。具體而言，面對一張圖片時，機器會最先判斷“圖像裡有什麼”，

精准識別圖像中的內容；其次判斷“圖像中物體在哪兒”，以精准定位物體的位置；最後會對“圖像內容表達什麼”進行智慧語義分析。

“機器對圖像理解能力的提升，則直接推動了OCR文字識別、識圖搜索、人臉識別、圖文翻譯、圖像生成這五大圖像技術的突破。其中，前三項技術主要用於解決‘圖像裡有什麼’和‘圖像中物體在哪兒’的問題，後兩項則對應解決‘圖像內容表達什麼’的問題。 ”茹立雲指出，並一一介紹了這五大技術突破的具體發展情況。

在文字識別方面，其目標是檢測並識別圖像中的文字。 “傳統文字檢測方法步驟繁瑣、人工設計流程多，且無法應對複雜背景和低品質文字。現有技術體現了深度學習模型的端到端的特點，

減少了中間環節，從而能降低識別錯誤率。圖片中的文字無論是印刷體、手寫體或者夾雜在複雜背景中，都能被機器準確讀出來。 ”茹立雲還以搜狗翻譯APP最新推出的“功能表翻譯”功能為例，展示了文字識別技術的具體應用。這項功能基於搜狗領先的圖像識別技術，對於使用者從任意角度掃描的中英文功能表，均可準確識別，並在原功能表的對應位置標識出相應的翻譯結果。

（圖：“功能表翻譯”功能翻譯前後對比截圖）

識圖搜索則旨在解決圖像分類、查找相同圖、相似圖等問題。茹立雲表示，當前的識圖搜索技術，以深度學習演算法替代了人工設計，有效提升了相同圖和相似圖搜索結果的品質。 “如搜狗圖片的拍照購物功能，用戶只需將喜歡的衣服拍照上傳，或者從手機裡上傳相關照片，系統即可對上傳照片進行快速處理，並與資料庫中上億張商品圖片進行高速比對，為用戶找到相同和相近的商品。再如搜狗圖片的‘識狗’、‘識花’功能，用戶只需上傳相關照片，

即可直接識別出狗或者花的種類。 ”茹立雲舉例說。

人臉識別方面，他指出，在深度學習以及大資料的驅動下，人工智慧在人臉識別的某些方面已遠超人類的識別能力。並且，人臉識別的實際應用場景也已日趨成熟，已經越來越多地應用到了機場安檢、人流監控、疑犯查找、身份認證等場景下。例如商店的監控器，就可以利用人臉識別技術，對經常出入店鋪的熟客進行針對性行銷，將能更好提升銷量。

圖文翻譯技術，其目的是使機器準確理解圖像背後的語義。 “傳統的圖像識別技術，只能粗略識別出圖像中的基本內容，如圖像中有一個人。而人工智慧支援下的圖文翻譯技術，不僅能告訴你圖片中有一個人，還能分辨出這個人的性別、他手上拿的東西、他周圍有什麼物體等更細緻的內容。”茹立雲說，這項技術的突破，也能給人帶來極大便利，例如盲人朋友以前只能通過聲音或者文字轉化成的聲音來獲取資訊，現在還能把圖片資訊轉化成的聲音，讓他更好瞭解視覺化的世界。

而人工智慧技術發展到更高階段，則是圖像生成技術，目前這一技術也已被廣泛應用到了人臉合成、圖像修復、風格遷移等方面。“例如圖像修復方面，AI能通過深度學習，將帶馬賽克或者畫面遮擋的圖片修復成完整圖片，再如黑白照片上色變成彩色照片，等等。”茹立雲舉例說。

回到大會核心話題——影像醫學領域，茹立雲指出，未來圖像AI在醫療領域的應用前景將會非常廣闊，主要包括三方面：首先是輔助診斷，人工智慧可以學習更多醫學影像方面的資料，進一步輔助醫生診斷決策；其次是療效評估，對於腫瘤等重大疾病，可依據AI大資料分析，在治療前判斷治療方案對患者的療效；再次是預後預測，科學預測患者生存期，提取患者特徵，建立模型，定量分析，給出預後預測。

還能分辨出這個人的性別、他手上拿的東西、他周圍有什麼物體等更細緻的內容。”茹立雲說，這項技術的突破，也能給人帶來極大便利，例如盲人朋友以前只能通過聲音或者文字轉化成的聲音來獲取資訊，現在還能把圖片資訊轉化成的聲音，讓他更好瞭解視覺化的世界。

CCR 2017召開 搜狗COO茹立雲：AI推動五項核心圖像技術取得突破

CCR 2017召開搜狗COO茹立雲：AI推動五項核心圖像技術取得突破