▲資深演算法架構師曹歡歡講解今日頭條演算法原理
1月11日, 一場問診演算法、建言演算法的 “讓演算法公開透明” 分享交流, 在北京今日頭條總部舉辦。
中央電視臺、新華社、人民日報等媒體機構從業者, 和阿裡、騰訊、百度、美團、新浪、網易等科技公司的演算法工程師、產品經理等100多人, 參加了活動。
1資訊推薦系統本質上要解決使用者、環境和資訊的匹配。
今日頭條演算法推薦系統, 主要輸入三個維度的變數。
一是內容特徵, 圖文、視頻、UGC小視頻、問答、微頭條等, 每種內容有很多自己的特徵, 需要分別提取。 二是使用者特徵, 包括興趣標籤、職業、年齡、性別、機型等, 以及很多模型刻畫出的使用者隱藏興趣。 三是環境特徵,
點擊率、閱讀時間、點贊、評論、轉發, 這些都是可以量化的。 但一個大體量的推薦系統, 服務使用者眾多, 不能完全由指標評估, 引入資料以外的要素, 也很重要。 有些演算法可以完成, 有些演算法還做不到、做的不好, 這就需要內容干預。
3沒有一套通用的模型架構, 適用所有的推薦場景。 我們需要一個非常靈活的演算法實驗平臺, 這個演算法不行, 馬上試另一個演算法, 實際上是各種演算法的一個複雜組合。 西瓜視頻、火山小視頻、抖音短視頻、悟空問答,
演算法推薦要達到不錯的效果, 需要解決好這四類特徵:相關性特徵、環境特徵、熱度特徵和協同特徵。
相關性特徵, 解決內容和使用者的匹配。 環境特徵, 解決基礎特徵和匹配。 熱度特徵, 在冷開機上很有效。 協同特徵, 考慮相似使用者的興趣, 在一定程度上解決所謂演算法越推越窄的問題。
今日頭條有一個世界範圍內比較大的線上訓練推薦模型, 包括幾百億特徵和幾十億的向量特徵。
完全依賴模型推薦成本過高, 因此有了簡化策略的召回模型。 基於召回策略, 把一個海量、無法把握的內容庫, 變成一個相對小、可以把握的內容庫, 再進入推薦模型。 這樣有效平衡了計算成本和效果。
6在今日頭條工作前三年, 我收到用戶回饋最大的一個問題, 就是, “怎麼老給我推重複的?”
其實, 每個人對重複的定義不一樣。 有人昨天看到一篇講巴薩的文章, 今天又看到兩篇, 可能就覺得煩了。
文本特徵對於推薦的獨特價值在於, 沒有文本特徵, 推薦引擎無法工作, 同時, 文本特徵顆粒度越細, 冷開機能力越強。
7
語義標籤的效果,是檢查一個公司NLP(自然語言處理)的試金石。
頻道、興趣表達等重要產品功能,需要一個有明確定義、容易理解的文本標籤體系。所以,在隱式語義特徵已經可以很好地説明推薦,且做好語義標籤需要投入遠大於隱式語義特徵的情況下,我們仍然需要做好語義標籤。
8除了用戶的自然標籤,推薦還需要考慮很多複雜的情況:
1)過濾雜訊:過濾停留時間短的點擊,打擊標題黨;2)懲罰熱點:用戶在熱門文章上的動作做降權處理;3)時間衰減:隨著使用者動作的增加,老的特徵權重會隨時間衰減,新動作貢獻的特徵權重會更大;4)懲罰展現:如果一篇推薦給用戶的文章沒有被點擊,相關特徵(類別、關鍵字、來源)權重會被懲罰;5)考慮全域背景:考慮給定特徵的人均點擊比例。
9比起批量計算用戶標籤,採用流式計算框架,可以大大節省電腦資源,可以准即時完成使用者興趣模型的更新。幾十台機器就可以支撐每天數千萬使用者的興趣模型更新,99%的使用者可以實現發生動作後10分鐘模型更新。
10影響推薦效果的因素有很多,我們需要一個完備的評估體系,不能只看單一指標,點擊率、留存、收入或是互動,我們需要看很多指標,做綜合評估:兼顧短期指標和長期指標,兼顧用戶指標和生態指標,注意協同效應的影響,有時候需要做徹底的統計隔離等。
有人問,所有的這些指標,能合成唯一的一個公式嗎?我們苦苦探索了幾年,目前還沒有做到。
11很多公司的演算法做得不好,不是人的問題,是實驗平臺的問題。
如果A/B Test,每次資料都是錯的,不是這兒錯就是那兒錯,總上不了線,這個事就廢了。而一個強大的實驗平臺,可以實現每天數百個實驗同時線上,高效管理和分配實驗流量,降低實驗分析成本,提高演算法反覆運算效率。
12頭條現在擁有健全的內容安全機制。除了人工審核團隊,我們還有技術識別。包括風險內容識別技術,構建千萬張圖片樣本集的鑒黃模型,超過百萬樣本庫的低俗模型和謾駡模型等,以及泛低質內容識別技術。
我們一直按行業最高的標準要求自己。
7語義標籤的效果,是檢查一個公司NLP(自然語言處理)的試金石。
頻道、興趣表達等重要產品功能,需要一個有明確定義、容易理解的文本標籤體系。所以,在隱式語義特徵已經可以很好地説明推薦,且做好語義標籤需要投入遠大於隱式語義特徵的情況下,我們仍然需要做好語義標籤。
8除了用戶的自然標籤,推薦還需要考慮很多複雜的情況:
1)過濾雜訊:過濾停留時間短的點擊,打擊標題黨;2)懲罰熱點:用戶在熱門文章上的動作做降權處理;3)時間衰減:隨著使用者動作的增加,老的特徵權重會隨時間衰減,新動作貢獻的特徵權重會更大;4)懲罰展現:如果一篇推薦給用戶的文章沒有被點擊,相關特徵(類別、關鍵字、來源)權重會被懲罰;5)考慮全域背景:考慮給定特徵的人均點擊比例。
9比起批量計算用戶標籤,採用流式計算框架,可以大大節省電腦資源,可以准即時完成使用者興趣模型的更新。幾十台機器就可以支撐每天數千萬使用者的興趣模型更新,99%的使用者可以實現發生動作後10分鐘模型更新。
10影響推薦效果的因素有很多,我們需要一個完備的評估體系,不能只看單一指標,點擊率、留存、收入或是互動,我們需要看很多指標,做綜合評估:兼顧短期指標和長期指標,兼顧用戶指標和生態指標,注意協同效應的影響,有時候需要做徹底的統計隔離等。
有人問,所有的這些指標,能合成唯一的一個公式嗎?我們苦苦探索了幾年,目前還沒有做到。
11很多公司的演算法做得不好,不是人的問題,是實驗平臺的問題。
如果A/B Test,每次資料都是錯的,不是這兒錯就是那兒錯,總上不了線,這個事就廢了。而一個強大的實驗平臺,可以實現每天數百個實驗同時線上,高效管理和分配實驗流量,降低實驗分析成本,提高演算法反覆運算效率。
12頭條現在擁有健全的內容安全機制。除了人工審核團隊,我們還有技術識別。包括風險內容識別技術,構建千萬張圖片樣本集的鑒黃模型,超過百萬樣本庫的低俗模型和謾駡模型等,以及泛低質內容識別技術。
我們一直按行業最高的標準要求自己。