10月12-15日, 中華醫學會第24次全國放射學學術大會(CCR 2017)在上海世博中心拉開帷幕, 聚集了國內外一流的專家學者及業內人士共6000余人, 集中展示和交流了中國影像醫學的歷史傳承與跨越式發展。 搜狗公司COO茹立雲受邀出席此次大會, 以“人工智慧在圖像領域的進展”為題, 分享了人工智慧推動圖像技術取得的五項重大突破, 並指出人工智慧技術在醫療領域應用前景廣闊, 未來將能發揮更大作用。
(搜狗公司COO茹立雲出席CCR2017並發表主題演講)
隨著移動互聯網及社交網路的發展, 圖片成為主要的資訊載體, 在這種情況下, 電腦的圖像識別技術就顯得尤為重要。 茹立雲介紹, 21世紀初, 圖像的檢索基本上是由人工去定義特徵, 在機器上做簡單的匹配。 人工智慧技術的發展, 讓機器對圖像中內容的理解能力實現了全面提升。 具體而言, 面對一張圖片時, 機器會最先判斷“圖像裡有什麼”,
“機器對圖像理解能力的提升, 則直接推動了OCR文字識別、識圖搜索、人臉識別、圖文翻譯、圖像生成這五大圖像技術的突破。 其中, 前三項技術主要用於解決‘圖像裡有什麼’和‘圖像中物體在哪兒’的問題, 後兩項則對應解決‘圖像內容表達什麼’的問題。 ”茹立雲指出, 並一一介紹了這五大技術突破的具體發展情況。
在文字識別方面, 其目標是檢測並識別圖像中的文字。 “傳統文字檢測方法步驟繁瑣、人工設計流程多, 且無法應對複雜背景和低品質文字。 現有技術體現了深度學習模型的端到端的特點,
(圖:“功能表翻譯”功能翻譯前後對比截圖)
識圖搜索則旨在解決圖像分類、查找相同圖、相似圖等問題。 茹立雲表示, 當前的識圖搜索技術, 以深度學習演算法替代了人工設計, 有效提升了相同圖和相似圖搜索結果的品質。 “如搜狗圖片的拍照購物功能, 用戶只需將喜歡的衣服拍照上傳, 或者從手機裡上傳相關照片, 系統即可對上傳照片進行快速處理, 並與資料庫中上億張商品圖片進行高速比對, 為用戶找到相同和相近的商品。 再如搜狗圖片的‘識狗’、‘識花’功能, 用戶只需上傳相關照片,
人臉識別方面, 他指出, 在深度學習以及大資料的驅動下, 人工智慧在人臉識別的某些方面已遠超人類的識別能力。 並且, 人臉識別的實際應用場景也已日趨成熟, 已經越來越多地應用到了機場安檢、人流監控、疑犯查找、身份認證等場景下。 例如商店的監控器, 就可以利用人臉識別技術, 對經常出入店鋪的熟客進行針對性行銷, 將能更好提升銷量。
圖文翻譯技術, 其目的是使機器準確理解圖像背後的語義。 “傳統的圖像識別技術, 只能粗略識別出圖像中的基本內容, 如圖像中有一個人。 而人工智慧支援下的圖文翻譯技術, 不僅能告訴你圖片中有一個人, 還能分辨出這個人的性別、他手上拿的東西、他周圍有什麼物體等更細緻的內容。”茹立雲說,這項技術的突破,也能給人帶來極大便利,例如盲人朋友以前只能通過聲音或者文字轉化成的聲音來獲取資訊,現在還能把圖片資訊轉化成的聲音,讓他更好瞭解視覺化的世界。
而人工智慧技術發展到更高階段,則是圖像生成技術,目前這一技術也已被廣泛應用到了人臉合成、圖像修復、風格遷移等方面。“例如圖像修復方面,AI能通過深度學習,將帶馬賽克或者畫面遮擋的圖片修復成完整圖片,再如黑白照片上色變成彩色照片,等等。”茹立雲舉例說。
回到大會核心話題——影像醫學領域,茹立雲指出,未來圖像AI在醫療領域的應用前景將會非常廣闊,主要包括三方面:首先是輔助診斷,人工智慧可以學習更多醫學影像方面的資料,進一步輔助醫生診斷決策;其次是療效評估,對於腫瘤等重大疾病,可依據AI大資料分析,在治療前判斷治療方案對患者的療效;再次是預後預測,科學預測患者生存期,提取患者特徵,建立模型,定量分析,給出預後預測。
還能分辨出這個人的性別、他手上拿的東西、他周圍有什麼物體等更細緻的內容。”茹立雲說,這項技術的突破,也能給人帶來極大便利,例如盲人朋友以前只能通過聲音或者文字轉化成的聲音來獲取資訊,現在還能把圖片資訊轉化成的聲音,讓他更好瞭解視覺化的世界。而人工智慧技術發展到更高階段,則是圖像生成技術,目前這一技術也已被廣泛應用到了人臉合成、圖像修復、風格遷移等方面。“例如圖像修復方面,AI能通過深度學習,將帶馬賽克或者畫面遮擋的圖片修復成完整圖片,再如黑白照片上色變成彩色照片,等等。”茹立雲舉例說。
回到大會核心話題——影像醫學領域,茹立雲指出,未來圖像AI在醫療領域的應用前景將會非常廣闊,主要包括三方面:首先是輔助診斷,人工智慧可以學習更多醫學影像方面的資料,進一步輔助醫生診斷決策;其次是療效評估,對於腫瘤等重大疾病,可依據AI大資料分析,在治療前判斷治療方案對患者的療效;再次是預後預測,科學預測患者生存期,提取患者特徵,建立模型,定量分析,給出預後預測。