深度學習在美團點評的應用

作者｜文竹李彪曉明

編輯｜小智

近年來，深度學習在語音、圖像、自然語言處理等領域取得非常突出的成果，成了最引人注目的技術熱點之一。

深度學習本身是一個非常龐大的知識體系，如果學習純理論會感覺吃力的話，美團點評的技術實踐也許能讓你收穫更多。

寫在前面

美團點評這兩年在深度學習方面進行了一些探索，其中在自然語言處理領域，我們將深度學習技術應用于文本分析、語義匹配、搜尋引擎的排序模型等；在電腦視覺領域，我們將其應用於文字識別、目標檢測、圖像分類、圖像品質排序等。下面我們就以語義匹配、圖像品質排序及文字識別這三個應用場景為例，來詳細介紹美團點評在深度學習技術及應用方面的經驗和方法論。

基於深度學習的語義匹配

語義匹配技術，在資訊檢索、搜尋引擎中有著重要的地位，在結果召回、精准排序等環節發揮著重要作用。

傳統意義上講的語義匹配技術，更加注重文字層面的語義吻合程度，我們暫且稱之為語言層的語義匹配；而在美團點評這樣典型的O2O應用場景下，我們的結果呈現除了和使用者表達的語言層語義強相關之外，還和使用者意圖、使用者狀態強相關。

用戶意圖即用戶是來幹什麼的？比如用戶在百度上搜索“關內關外”，他的意圖可能是想知道關內和關外代表的地理區域範圍， “關內”和“關外”被作為兩個詞進行檢索，而在美團上搜索“關內關外”，用戶想找的就是“關內關外”這家飯店， “關內關外”被作為一個詞來對待。

再說使用者狀態，一個在北京和另一個在武漢的用戶，在百度或淘寶上搜索任何一個詞條，

可能得到的結果不會差太多；但是在美團這樣與地理位置強相關的場景下就會完全不一樣。比如我在武漢搜“黃鶴樓”，用戶找的可能是景點門票，而在北京搜索“黃鶴樓”，用戶找的很可能是一家飯店。

如何結合語言層資訊和使用者意圖、狀態來做語義匹配呢？

我們的思路是在短文本外引入部分O2O業務場景相關特徵，融入到設計的深度學習來做語義匹配的框架中，通過點擊/下單數據來指引語義匹配模型的優化方向，最終把訓練出的點擊相關性模型應用到搜索相關業務中。下圖是針對美團點評場景設計的點擊相似度框架ClickNet，是比較羽量級的模型，兼顧了效果和性能兩方面，能很好地推廣到線上應用。

展示層

對Query和商家名分別用語義和業務特徵表示，其中語義特徵是核心，通過DNN/CNN/RNN/LSTM/GRU方法得到短文本的整體向量表示，另外會引入業務相關特徵，比如使用者或商家的相關資訊，比如使用者和商家距離、商家評價等，最終結合起來往上傳。

學習層

通過多層全連接和非線性變化後，

預測匹配得分，根據得分和Label來調整網路以學習出Query和商家名的點擊匹配關係。

在該演算法框架上要訓練效果很好的語義模型，還需要根據場景做模型調優：首先，我們從訓練語料做很多優化，比如考慮樣本不均衡、樣本重要度、位置Bias等方面問題。其次，在模型參數調優時，考慮不同的優化演算法、網路大小層次、超參數的調整等問題。經過模型訓練優化，我們的語義匹配模型已經在美團點評平臺搜索、廣告、酒店、旅遊等召回和排序系統中上線，有效提升了訪購率/收入/點擊率等指標。

小結

深度學習應用在語義匹配上，需要針對業務場景設計合適的演算法框架，此外，深度學習演算法雖然減少了特徵工程工作，但模型調優上難度會增加，因此可以從框架設計、業務語料處理、模型參數調優三方面綜合起來考慮，實現一個效果和性能兼優的模型。

基於深度學習的圖像品質排序

國內外各大互聯網公司（比如騰訊、阿裡和Yelp）的線上廣告業務都在關注展示什麼樣的圖像能吸引更多點擊。在美團點評，商家的首圖是由商家或運營人工指定的，如何選擇首圖才能更好地吸引用戶呢？圖像品質排序演算法目標就是做到自動選擇更優質的首圖，以吸引用戶點擊。

傳統的圖像品質排序方法主要從美學角度進行品質評價，通過顏色統計、主體分佈、構圖等來分析圖片的美感。但在實際業務場景中，使用者對圖片品質優劣的判斷主觀性很強，難以形成統一的評價標準。比如:

有的用戶對清晰度或解析度更敏感；

有的用戶對色彩或構圖更敏感；

有的使用者偏愛有視覺衝擊力的內容而非平淡無奇的環境圖。

因此我們使用深度學習方法，去挖掘圖片的哪些屬性會影響使用者的判斷，以及如何有效融合這些屬性對圖片進行評價。

我們使用AlexNet去提取圖片的高層語義描述，學習美感、可記憶度、吸引度、品類等High Level特徵，並補充人工設計的Low Level特徵（比如色彩、銳度、對比度、角點）。在獲得這些特徵後，訓練一個淺層神經網路對圖像整體打分。該框架（如圖2所示）的一個特點是聯合了深度學習特徵與傳統特徵，既引入高層語義又保留了低層通用描述，既包括全域特徵又有局部特徵。

關於品類屬性的學習，我們將美團一級品類和常見二級品類作為圖片標籤。基於上述品質排序模型，我們為廣告POI挑選最合適的優質首圖進行展示，起到吸引用戶點擊，提高業務指標的目的。圖3給出了基於品質排序的首圖優選結果。

基於深度學習的OCR

為了提升用戶體驗，O2O產品對OCR技術的需求已滲透到上單、支付、配送和用戶評價等環節。OCR在美團點評業務中主要起著兩方面作用。一方面是輔助錄入，比如在移動支付環節通過對銀行卡卡號的拍照識別，以實現自動綁卡，又如輔助BD錄入功能表中菜品資訊。

另一方面是審核校驗，比如在商家資質審核環節對商家上傳的身份證、營業執照和餐飲許可證等證件照片進行資訊提取和核驗以確保該商家的合法性，比如機器過濾商家上單和用戶評價環節產生的包含違禁詞的圖片。相比于傳統OCR場景（印刷體、掃描文檔），美團的OCR場景主要是針對手機拍攝的照片進行文字資訊提取和識別，考慮到線下用戶的多樣性，因此主要面臨以下挑戰：

成像複雜：雜訊、模糊、光線變化、形變；

文字複雜：字體、字型大小、色彩、磨損、筆劃寬度不固定、方向任意；

背景複雜：版面缺失，背景干擾。

對於上述挑戰，傳統的OCR解決方案存在著以下不足：

通過版面分析（二值化，連通域分析）來生成文本行，要求版面結構有較強的規則性且前背景可分性強（例如文檔圖像、車牌），無法處理前背景複雜的隨意文字（例如場景文字、功能表、廣告文字等）。

通過人工設計邊緣方向特徵（例如HOG）來訓練字元識別模型，此類單一的特徵在字體變化，模糊或背景干擾時泛化能力迅速下降。

過度依賴字元切分的結果，在字元扭曲、粘連、雜訊干擾的情況下，切分的錯誤傳播尤其突出。

針對傳統OCR解決方案的不足，我們嘗試基於深度學習的OCR。

1. 基於Faster R-CNN和FCN的文字定位

首先，我們根據是否有先驗資訊將版面劃分為受控場景（例如身份證、營業執照、銀行卡）和非受控場景（例如菜單、門頭圖）。

對於受控場景，我們將文字定位轉換為對特定關鍵字目標的檢測問題。主要利用Faster R-CNN進行檢測，如下圖所示。為了保證回歸框的定位精度同時提升運算速度，我們對原有框架和訓練方式進行了微調:

考慮到關鍵字目標的類內變化有限，我們裁剪了ZF模型的網路結構，將5層卷積減少到3層。

訓練過程中提高正樣本的重疊率閾值，並根據業務需求來適配RPN層Anchor的寬高比。

對於非受控場景，由於文字方向和筆劃寬度任意變化，目標檢測中回歸框的定位細微性不夠，我們利用語義分割中常用的全卷積網路（FCN）來進行圖元級別的文字/背景標注，如下圖所示。為了同時保證定位的精度和語義的清晰，我們不僅在最後一層進行反卷積，而且融合了深層Layer和淺層Layer的反卷積結果。

2. 基於序列學習框架的文字識別

為了有效控制字元切分和識別後處理的錯誤傳播效應，實現端到端文字識別的可訓練性，我們採用如下圖所示的序列學習框架。框架整體分為三層：卷積層，遞迴層和翻譯層。其中卷積層提特徵，遞迴層既學習特徵序列中字元特徵的先後關係，又學習字元的先後關係，翻譯層實現對時間序列分類結果的解碼。

由於序列學習框架對訓練樣本的數量和分佈要求較高，我們採用了真實樣本+合成樣本的方式。真實樣本以美團點評業務來源（例如功能表、身份證、營業執照）為主，合成樣本則考慮了字體、形變、模糊、雜訊、背景等因素。基於上述序列學習框架和訓練資料，在多種場景的文字識別上都有較大幅度的性能提升，如下圖所示。

寫在最後

本文主要以深度學習在自然語言處理、影像處理兩個領域的應用為例進行了介紹，但深度學習在美團點評可能發揮的價值遠遠不限於此。未來，我們將繼續在各個場景深入挖掘，比如在智慧交互、配送調度、智慧運營等，在美團點評產品的智慧化道路上貢獻一份力量。

作者簡介

文竹，美團點評美團平臺與酒旅事業群智慧技術中心負責人，2010年從清華碩士畢業後，加入百度，先後從事機器翻譯的研發及多個技術團隊的管理工作。2015年4月加入美團，負責智慧技術中心的管理工作，致力於推動自然語言處理、影像處理、機器學習、用戶畫像等技術在公司業務上的落地。

李彪，美團點評美團平臺及酒旅事業群NLP技術負責人，曾就職搜狗、百度。2015年加入美團點評，致力於NLP技術積累和業務的落地，負責的工作包括深度學習平臺和模型，文本分析在搜索、廣告、推薦等業務上應用，智慧客服和交互。

曉明，美團點評平臺及酒旅事業群圖像技術負責人，曾就職于三星研究院。2015年加入美團點評，主要致力於圖像識別技術的積累和業務落地，作為技術負責人主導了圖像機審、首圖優選和OCR等項目的上線，推進了美團產品的智慧化體驗和人力成本的節省。

華南地區技術大事件

Facebook工程總監：Facebook如何進行大型軟體發展？

騰訊運維總監：騰訊十年運維積累的四大創新技術如何落地？

阿裡巴巴安全部首席架構師：如何從多個維度剖析對抗架構設計的複雜性？

……

100+前沿技術案例將彙聚深圳，架構師應該把握哪些技術趨勢？ArchSummit全球架構師峰會7月開啟，點擊「閱讀原文」瞭解更多大會內容，即刻報名華南地區的技術大事件，盡享8折優惠。

今日薦文

點擊下方圖片即可閱讀

程式師為什麼要學深度學習？

但模型調優上難度會增加，因此可以從框架設計、業務語料處理、模型參數調優三方面綜合起來考慮，實現一個效果和性能兼優的模型。