12段話，瞭解今日頭條演算法的秘密

▲資深演算法架構師曹歡歡講解今日頭條演算法原理

1月11日，一場問診演算法、建言演算法的 “讓演算法公開透明” 分享交流，在北京今日頭條總部舉辦。

資深演算法架構師、中國科學技術大學曹歡歡博士，介紹了今日頭條的推薦演算法原理。同時，解答大家對演算法的疑問，接受大家對演算法的建議。

中央電視臺、新華社、人民日報等媒體機構從業者，和阿裡、騰訊、百度、美團、新浪、網易等科技公司的演算法工程師、產品經理等100多人，參加了活動。

資訊推薦系統本質上要解決使用者、環境和資訊的匹配。

今日頭條演算法推薦系統，主要輸入三個維度的變數。

一是內容特徵，圖文、視頻、UGC小視頻、問答、微頭條等，每種內容有很多自己的特徵，需要分別提取。二是使用者特徵，包括興趣標籤、職業、年齡、性別、機型等，以及很多模型刻畫出的使用者隱藏興趣。三是環境特徵，

不同的時間不同的地點不同的場景（工作/通勤/旅遊等），使用者對資訊的偏好有所不同。結合這三方面緯度，今日頭條的推薦模型做預估，這個內容在這個場景下對這個用戶是否合適。

點擊率、閱讀時間、點贊、評論、轉發，這些都是可以量化的。但一個大體量的推薦系統，服務使用者眾多，不能完全由指標評估，引入資料以外的要素，也很重要。有些演算法可以完成，有些演算法還做不到、做的不好，這就需要內容干預。

沒有一套通用的模型架構，適用所有的推薦場景。我們需要一個非常靈活的演算法實驗平臺，這個演算法不行，馬上試另一個演算法，實際上是各種演算法的一個複雜組合。西瓜視頻、火山小視頻、抖音短視頻、悟空問答，

都在用頭條這一套推薦系統，但具體到每套系統，架構都不一樣，需要不斷去試。

演算法推薦要達到不錯的效果，需要解決好這四類特徵：相關性特徵、環境特徵、熱度特徵和協同特徵。

相關性特徵，解決內容和使用者的匹配。環境特徵，解決基礎特徵和匹配。熱度特徵，在冷開機上很有效。協同特徵，考慮相似使用者的興趣，在一定程度上解決所謂演算法越推越窄的問題。

今日頭條有一個世界範圍內比較大的線上訓練推薦模型，包括幾百億特徵和幾十億的向量特徵。

完全依賴模型推薦成本過高，因此有了簡化策略的召回模型。基於召回策略，把一個海量、無法把握的內容庫，變成一個相對小、可以把握的內容庫，再進入推薦模型。這樣有效平衡了計算成本和效果。

在今日頭條工作前三年，我收到用戶回饋最大的一個問題，就是， “怎麼老給我推重複的？”

其實，每個人對重複的定義不一樣。有人昨天看到一篇講巴薩的文章，今天又看到兩篇，可能就覺得煩了。

但對於一個重度球迷來講，比如巴薩的球迷，可能恨不得所有的報導都看一遍。解決這個，實際上需要精確抽取文本特徵，比如哪些文章說的是一個事兒，哪些文章基本一樣等等。

文本特徵對於推薦的獨特價值在於，沒有文本特徵，推薦引擎無法工作，同時，文本特徵顆粒度越細，冷開機能力越強。

語義標籤的效果，是檢查一個公司NLP（自然語言處理）的試金石。

頻道、興趣表達等重要產品功能，需要一個有明確定義、容易理解的文本標籤體系。所以，在隱式語義特徵已經可以很好地説明推薦，且做好語義標籤需要投入遠大於隱式語義特徵的情況下，我們仍然需要做好語義標籤。

除了用戶的自然標籤，推薦還需要考慮很多複雜的情況：

1）過濾雜訊：過濾停留時間短的點擊，打擊標題黨；2）懲罰熱點：用戶在熱門文章上的動作做降權處理；3）時間衰減：隨著使用者動作的增加，老的特徵權重會隨時間衰減，新動作貢獻的特徵權重會更大；4）懲罰展現：如果一篇推薦給用戶的文章沒有被點擊，相關特徵（類別、關鍵字、來源）權重會被懲罰；5）考慮全域背景：考慮給定特徵的人均點擊比例。

比起批量計算用戶標籤，採用流式計算框架，可以大大節省電腦資源，可以准即時完成使用者興趣模型的更新。幾十台機器就可以支撐每天數千萬使用者的興趣模型更新，99%的使用者可以實現發生動作後10分鐘模型更新。

影響推薦效果的因素有很多，我們需要一個完備的評估體系，不能只看單一指標，點擊率、留存、收入或是互動，我們需要看很多指標，做綜合評估：兼顧短期指標和長期指標，兼顧用戶指標和生態指標，注意協同效應的影響，有時候需要做徹底的統計隔離等。

有人問，所有的這些指標，能合成唯一的一個公式嗎？我們苦苦探索了幾年，目前還沒有做到。

很多公司的演算法做得不好，不是人的問題，是實驗平臺的問題。

如果A/B Test，每次資料都是錯的，不是這兒錯就是那兒錯，總上不了線，這個事就廢了。而一個強大的實驗平臺，可以實現每天數百個實驗同時線上，高效管理和分配實驗流量，降低實驗分析成本，提高演算法反覆運算效率。

頭條現在擁有健全的內容安全機制。除了人工審核團隊，我們還有技術識別。包括風險內容識別技術，構建千萬張圖片樣本集的鑒黃模型，超過百萬樣本庫的低俗模型和謾駡模型等，以及泛低質內容識別技術。

我們一直按行業最高的標準要求自己。

語義標籤的效果，是檢查一個公司NLP（自然語言處理）的試金石。

除了用戶的自然標籤，推薦還需要考慮很多複雜的情況：

有人問，所有的這些指標，能合成唯一的一個公式嗎？我們苦苦探索了幾年，目前還沒有做到。

很多公司的演算法做得不好，不是人的問題，是實驗平臺的問題。

我們一直按行業最高的標準要求自己。