人工智慧和機器學習領域的學術論文汗牛充棟。 每年的各大頂級會議、研討班錄用好幾千篇論文, 即便是親臨現場也很難追蹤到所有的前沿資訊。 在時間精力有限的情況下, 選擇精讀哪些論文, 學習哪些熱門技術就成為了AI學者和從業人員所頭痛的問題。 這個欄目就是要幫助大家篩選出有意思的論文, 解讀出論文的核心思想, 為精讀提供閱讀指導。
資料採擷和機器學習應用的頂級會議The Tenth ACM International Conference on Web Search and Data Mining (WSDM 2017)今年2月已經在英國劍橋圓滿舉行。 正值WSDM十周年, 會議上對WSDM的發展進行了回顧和展望。 縱觀過去十年的發展,
Unbiased Learning-to-Rank with Biased Feedback
概要:這篇文章獲得了WSDM 2017最佳論文。 在實際生產中, 我們大量獲得的是 “有偏差”(Biased)的資料。 那麼, 如何從這些 “有偏差”的資料中, 進行“無偏差”(Unbiased)的機器學習就成為了過去很長一段時間以來, 實際生產中非常急迫解決的問題。
這篇文章來自康奈爾大學的Thorsten Joachims以及他的學生。 Thorsten在上一個十年的學術研究中, 因為開發SVMLight而名聲顯赫。 他也是最早思考如何利用使用者回饋資料進行排序模型(Ranking Model)訓練的學者。 那麼, 這篇獲獎論文主要是要解決一個什麼樣的問題?其實, 這篇文章要嘗試解決的問題在學術和工業界的應用中非常普遍, 可以說是一個困擾學者和普通的工程人員已久的問題。 那就是, 如何從“有偏差”使用者回饋資料中, 訓練“無偏差”的排序模型。 為什麼使用者回饋資料會“有偏差”?道理很簡單, 使用者在和系統交互的時候, 受到各方面因素的干擾, 從而只對部分資訊進行了回饋而忽略了其他資訊。
Real-Time Bidding by Reinforcement Learning in Display Advertising
摘要:傳統中, Real-Time Bidding(RTB)把Bidding考慮成為靜態的決策過程。 這篇文章, 則是把Reinforcement Learning(強化學習)引入到RTB的應用中, 從而提高RTB的效率和整體效果。
這篇文章的作者團隊來自上海交大和倫敦大學學院(University College London)。 此文是繼強化學習被應用到搜索和推薦領域之後,又一個把強化學習應用到一個重要領域的嘗試。與推薦和搜索不同的是,RTB因為其即時性,更加講究能夠對於一個決策過程進行動態調整,從而能夠提供最優的解決方案。目前大多數Bidding演算法或者是策略(Strategy)的核心問題,就是他們都是靜態的一個決策過程。那麼,這篇文章的主要思路就是用Markov Decision Process(MDP)來對RTB進行建模。MDP的一般建模,需要三個必備元素,那就是State、Action和Reward。這裡,State是一個(當前時間,剩餘預算,當前Feature Vector)三元組;Action則是以State為輸入,輸出一個少於當前預算的Bid;Reward在這篇文章裡定義為在當前Feature Vector為輸入情況下的點擊率(CTR)或者是0(沒有贏得Auction的情況)。MDP除了這三個要素以外,一般還需要定義從每一個狀態跳轉另外狀態的轉移概率。文章中,轉移概率是一個Feature Vector的概率分佈和市場價格分佈的一個乘積。市場價格分佈取決於現在的Feature Vector和當前的Bid價格。整個MDP的佈局設置好以後,RTB的問題就轉換成為了如何在MDP中找到最優Action的決策問題。和傳統的MDP一樣,文章介紹了通過Value Iteration的方式來找到最佳的Value函數,然後通過找到的Value函數,來找到最佳的Bidding策略。然而,這樣的方法,只適合在比較小規模的資料上,原因是第一個階段的得到最佳Value函數的步驟太過於耗時。文章介紹了一種在大規模資料上的思路,通過小資料來學習Value函數的表達,然後應用到大規模資料上。文章在兩個資料集上做了實驗,一個是PinYou的資料,另一個是YOYI的資料,數量都算是當前比較大的RTB資料集了。從實驗結果上來看,採用MDP的方法能夠比其他方法大幅度有效提高CTR,以及各項指標。除了在這兩個資料集上的結果以外,這篇文章還在Vlion DSP的線上系統進行了評測,在CTR基本和以前方法持平的情況下,CPM和eCPC都更加有效。總之,這篇文章對於希望探索強化學習在廣告或者是推薦以及搜索等領域的應用有著一定的借鑒意義。從目前的情況來看,演算法依然比較複雜,而且Value函數的逼近可能有不小的性能損失。另外,參考文獻部分十分詳盡,對於想瞭解RTB的朋友來說,是一個不可多得的言簡意賅的介紹。
摘要:線上A/B實驗最大的困擾就是所需要觀測的指標(Metric)常常需要很長時間觀測到統計意義的變化抑或需要很多的使用者數量。這篇文章就是要嘗試解決這麼一個問題,探討如何通過Variance Reduction的辦法來讓尋找到的Metrics能夠更加容易觀測,並且和用戶的指標相匹配。
這篇文章來自俄羅斯搜尋引擎團隊Yandex。近幾年以來,Yandex的研究人員已經陸續發表了一系列的文章來推動線上A/B實驗的研究和實踐。這篇文章是要解決什麼問題呢?在A/B線上測試中,我們希望觀測到的指標有方向性,能夠告訴我們用戶的喜好變化;同時,我們也希望這個指標能夠很容易觀測,不需要大量的資料長時間觀察。文章提出了這麼一個假設,那就是我們能否通過資料以及歷史資訊,學習到一組指標的組合,使得這個學習到的結果滿足上述條件?Yandex通過對8個關鍵指標的建模,使得學習到的指標達到了3.42倍的“敏感度”(Sensitivity),相比於之前的指標而言,也就是達到了約11倍的Sample Size的削減,可以說效果非常顯著。那麼,這篇文章的作者是如何做的呢?首先,每一個實驗單元(可以是一個使用者,一個Session或者一個Query)都被一個Feature Vector所描述。這裡的Feature Vector,有可能就是我們已知的指標本身。那麼,整個問題的設置就成為了,學習一個這些Feature Vector的線性組合,使得學習到的新指標對於未來的實驗,更加具有“敏感度”。文章中,作者討論了多種定義“敏感度”的方法,而最終採用的是通過z-score來衡量。這樣的選擇,非常接近普通的t-test的需要。也就使得這篇文章的實用度更加廣泛。如果來解這麼一個優化問題就成為了文章下一個重點。文章簡單介紹採用Geometric的方法來接這個優化問題的思路,並且也探討了一下這種方法和Linear Discriminant Analysis的聯繫。然而作者們認為這個思路並不適合大多數的情況,於是文章介紹了一個基於標準優化演算法的思路。也就是,利用定義的“敏感度”z-score,作為衡量兩個實驗結果的“距離函數”,最終的目標函數是包括這麼三個部分:1. 儘量讓已知A/B有效果的實驗裡的距離不減少;2. 儘量讓已知的A/A實驗的結果不變化;3. 儘量分離已知A/B實驗效果不明顯的結果。當然,這個目標函數是Non-Convex的,不過文章依然使用了L-BFGS來解這個優化問題。從實驗來說,作者們用了118個歷史實驗資料來學習這個函數,得到的效果都是學習到的指標能夠更好地指導實驗的結果,同時採用學習到的指標能夠大幅度降低需要達到統計意義效果明顯(Statistically Significant)的資料量,這對於真實的工業環境來說是非常有意義的方法。這篇文章建議所有工業界的讀者精讀。
摘要:如何把深度學習和推薦系統相結合是最近一兩年來推薦系統領域學者比較關心的問題,這篇文章探討了如何把LSTM-Autoregression模型和推薦系統結合的例子,在真實的資料中達到了更好的效果。
這篇文章來自卡內基梅隆大學Alex Smola的實驗室以及Google研究院的Amr Ahmed,陣容可謂非常強大。從傳統的概率圖模型(Probabilistic Graphical Model)的角度來說,要想能夠對時間資訊(Temporal)進行有效建模,則必須採用Sequential Monte Carlo等其他辦法。這些辦法往往計算非常複雜而且極易出錯。所以,這篇文章希望通過RNN來幫助這樣的建模場景。文章希望能夠用RNN來對現在的觀測值以及模型參數的時間變化進行統一建模。當然,另外一個比較好的選擇就是LSTM。這篇文章採用了LSTM。有了時間的變化以後,在單一時間的Rating Prediction,則是使用者方面資訊和物品(文章中採用的是電影)資訊的點積,非常類似傳統的矩陣分解模式。有一個小改動的地方來自於最後的預測結果是一個與時間有關的變化和與實踐無關變數的一個分解。這一點主要是為了讓不同時間段的變化都能夠被模型解釋。這樣看似簡單一個模型最大的問題其實是優化演算法,如果使用簡單的Back-propagation,計算量則會很大。這篇文章採用了一個叫Subspace Descent的方法,使得優化演算法本身能夠比較便捷。在實驗中,文章比較了TimeSVD++以及之前提出的AutoRec,在IMDB和Netflix的資料集上都有顯著的提高。當然,從比較大的角度來看,這篇文章的意義其實非常有限,主要是最近類似思路的文章其實已經有不少,並且從學術貢獻來看,這篇文章完全解答了如何用深度學習和推薦系統結合的更佳的根本問題,適合熟悉推薦系統的讀者快速閱讀。
Learning from User Interactions in Personal Search via Attribute Parameterization
摘要:傳統的基於機器學習的排序模型訓練都是依賴于從大量的使用者資料得到訓練資料。而這篇文章要解決一個比較極致的問題,那就是如果模型需要應用到一個使用者的時候,如何採集有效的訓練資料並且訓練一個有效的模型。
這篇文章來自Google的個人搜索團隊,所有作者都是資訊檢索界響噹噹的學者。Marc Najork之前來自微軟矽谷研究院,曾是《ACM Transaction on Web》的主編。微軟矽谷研究院解散之後來到Google。而Donald Metzler、Xuanhui Wang以及Michael Bendersky都是資訊檢索界大牛W. Bruce Croft的得意門生。這篇文章是要解決所謂個人搜索(Personal Search)的問題。個人搜索,顧名思義,也就是對個人的文檔進行搜索(比如電子郵件、文字檔、圖片、資料等)。由於這樣特殊的產品需求,傳統的很多方法都不能夠直接適用。另外一個特殊的需求是,由於涉及到用戶的個人隱私,不能夠盲目把不同使用者的資訊交互到一起。要解決這些問題,這篇文章提供了這樣一個基本思路,那就是把用戶的Query以及文檔都映射到一個Attribute的空間。在這個空間裡,所有的資訊都可以跨使用者橫向比較。那麼,下面的問題就是我們如何把這些資訊給映射到這個Attribute的空間。作者們採用了構建一個圖(Graph)的做法。在這個圖上有四個類型的節點:文檔、Query、文檔的Attribute和Query的Attribute。兩種節點之間的連結是通過Feature Function來定義的。這一點很像Markov Random Field的構建。這也難怪作者之一的Donald Metzler曾經是提倡使用這類模型的主要推手。在定義Feature Graph之後,作者們提出了兩種思路來使用Feature Graph,一種就是直接用機器學習的方法;另一種則是手工方法和機器學習方法的混合。這篇文章採用了第二種方法,因為這樣在一個生產系統中可能更加穩定。從整體上來看,整個技術層面並不複雜,不過這裡的思路相對來說比較新穎。同時,作者還提到了如何從點擊資料中提取有效的訓練資料。在最後的實驗方面,作者們展示了提出的這種方法的有效性。不過,值得一提的是,因為資料集和整個問題的特殊性,這篇文章並沒法和很多其他方法進行公平比較。所以,文章值得對搜索和資訊檢索研究有興趣的讀者泛讀。
作者簡介
洪亮劼,Etsy資料科學主管,前雅虎研究院高級經理。長期從事推薦系統、機器學習和人工智慧的研究工作,在國際頂級會議上發表論文20餘篇,長期擔任多個國際著名會議及期刊的評審委員會成員和審稿人。
責編:何永燦,歡迎人工智慧領域技術投稿、約稿、給文章糾錯,請發送郵件至heyc@csdn.net
【CSDN線上直播課】《TensorFlow實戰》作者、PPmoney大資料演算法總監黃文堅老師即將開課:《使用TensorFlow創建可自動玩遊戲的DQN模型》
此文是繼強化學習被應用到搜索和推薦領域之後,又一個把強化學習應用到一個重要領域的嘗試。與推薦和搜索不同的是,RTB因為其即時性,更加講究能夠對於一個決策過程進行動態調整,從而能夠提供最優的解決方案。目前大多數Bidding演算法或者是策略(Strategy)的核心問題,就是他們都是靜態的一個決策過程。那麼,這篇文章的主要思路就是用Markov Decision Process(MDP)來對RTB進行建模。MDP的一般建模,需要三個必備元素,那就是State、Action和Reward。這裡,State是一個(當前時間,剩餘預算,當前Feature Vector)三元組;Action則是以State為輸入,輸出一個少於當前預算的Bid;Reward在這篇文章裡定義為在當前Feature Vector為輸入情況下的點擊率(CTR)或者是0(沒有贏得Auction的情況)。MDP除了這三個要素以外,一般還需要定義從每一個狀態跳轉另外狀態的轉移概率。文章中,轉移概率是一個Feature Vector的概率分佈和市場價格分佈的一個乘積。市場價格分佈取決於現在的Feature Vector和當前的Bid價格。整個MDP的佈局設置好以後,RTB的問題就轉換成為了如何在MDP中找到最優Action的決策問題。和傳統的MDP一樣,文章介紹了通過Value Iteration的方式來找到最佳的Value函數,然後通過找到的Value函數,來找到最佳的Bidding策略。然而,這樣的方法,只適合在比較小規模的資料上,原因是第一個階段的得到最佳Value函數的步驟太過於耗時。文章介紹了一種在大規模資料上的思路,通過小資料來學習Value函數的表達,然後應用到大規模資料上。文章在兩個資料集上做了實驗,一個是PinYou的資料,另一個是YOYI的資料,數量都算是當前比較大的RTB資料集了。從實驗結果上來看,採用MDP的方法能夠比其他方法大幅度有效提高CTR,以及各項指標。除了在這兩個資料集上的結果以外,這篇文章還在Vlion DSP的線上系統進行了評測,在CTR基本和以前方法持平的情況下,CPM和eCPC都更加有效。總之,這篇文章對於希望探索強化學習在廣告或者是推薦以及搜索等領域的應用有著一定的借鑒意義。從目前的情況來看,演算法依然比較複雜,而且Value函數的逼近可能有不小的性能損失。另外,參考文獻部分十分詳盡,對於想瞭解RTB的朋友來說,是一個不可多得的言簡意賅的介紹。摘要:線上A/B實驗最大的困擾就是所需要觀測的指標(Metric)常常需要很長時間觀測到統計意義的變化抑或需要很多的使用者數量。這篇文章就是要嘗試解決這麼一個問題,探討如何通過Variance Reduction的辦法來讓尋找到的Metrics能夠更加容易觀測,並且和用戶的指標相匹配。
這篇文章來自俄羅斯搜尋引擎團隊Yandex。近幾年以來,Yandex的研究人員已經陸續發表了一系列的文章來推動線上A/B實驗的研究和實踐。這篇文章是要解決什麼問題呢?在A/B線上測試中,我們希望觀測到的指標有方向性,能夠告訴我們用戶的喜好變化;同時,我們也希望這個指標能夠很容易觀測,不需要大量的資料長時間觀察。文章提出了這麼一個假設,那就是我們能否通過資料以及歷史資訊,學習到一組指標的組合,使得這個學習到的結果滿足上述條件?Yandex通過對8個關鍵指標的建模,使得學習到的指標達到了3.42倍的“敏感度”(Sensitivity),相比於之前的指標而言,也就是達到了約11倍的Sample Size的削減,可以說效果非常顯著。那麼,這篇文章的作者是如何做的呢?首先,每一個實驗單元(可以是一個使用者,一個Session或者一個Query)都被一個Feature Vector所描述。這裡的Feature Vector,有可能就是我們已知的指標本身。那麼,整個問題的設置就成為了,學習一個這些Feature Vector的線性組合,使得學習到的新指標對於未來的實驗,更加具有“敏感度”。文章中,作者討論了多種定義“敏感度”的方法,而最終採用的是通過z-score來衡量。這樣的選擇,非常接近普通的t-test的需要。也就使得這篇文章的實用度更加廣泛。如果來解這麼一個優化問題就成為了文章下一個重點。文章簡單介紹採用Geometric的方法來接這個優化問題的思路,並且也探討了一下這種方法和Linear Discriminant Analysis的聯繫。然而作者們認為這個思路並不適合大多數的情況,於是文章介紹了一個基於標準優化演算法的思路。也就是,利用定義的“敏感度”z-score,作為衡量兩個實驗結果的“距離函數”,最終的目標函數是包括這麼三個部分:1. 儘量讓已知A/B有效果的實驗裡的距離不減少;2. 儘量讓已知的A/A實驗的結果不變化;3. 儘量分離已知A/B實驗效果不明顯的結果。當然,這個目標函數是Non-Convex的,不過文章依然使用了L-BFGS來解這個優化問題。從實驗來說,作者們用了118個歷史實驗資料來學習這個函數,得到的效果都是學習到的指標能夠更好地指導實驗的結果,同時採用學習到的指標能夠大幅度降低需要達到統計意義效果明顯(Statistically Significant)的資料量,這對於真實的工業環境來說是非常有意義的方法。這篇文章建議所有工業界的讀者精讀。
摘要:如何把深度學習和推薦系統相結合是最近一兩年來推薦系統領域學者比較關心的問題,這篇文章探討了如何把LSTM-Autoregression模型和推薦系統結合的例子,在真實的資料中達到了更好的效果。
這篇文章來自卡內基梅隆大學Alex Smola的實驗室以及Google研究院的Amr Ahmed,陣容可謂非常強大。從傳統的概率圖模型(Probabilistic Graphical Model)的角度來說,要想能夠對時間資訊(Temporal)進行有效建模,則必須採用Sequential Monte Carlo等其他辦法。這些辦法往往計算非常複雜而且極易出錯。所以,這篇文章希望通過RNN來幫助這樣的建模場景。文章希望能夠用RNN來對現在的觀測值以及模型參數的時間變化進行統一建模。當然,另外一個比較好的選擇就是LSTM。這篇文章採用了LSTM。有了時間的變化以後,在單一時間的Rating Prediction,則是使用者方面資訊和物品(文章中採用的是電影)資訊的點積,非常類似傳統的矩陣分解模式。有一個小改動的地方來自於最後的預測結果是一個與時間有關的變化和與實踐無關變數的一個分解。這一點主要是為了讓不同時間段的變化都能夠被模型解釋。這樣看似簡單一個模型最大的問題其實是優化演算法,如果使用簡單的Back-propagation,計算量則會很大。這篇文章採用了一個叫Subspace Descent的方法,使得優化演算法本身能夠比較便捷。在實驗中,文章比較了TimeSVD++以及之前提出的AutoRec,在IMDB和Netflix的資料集上都有顯著的提高。當然,從比較大的角度來看,這篇文章的意義其實非常有限,主要是最近類似思路的文章其實已經有不少,並且從學術貢獻來看,這篇文章完全解答了如何用深度學習和推薦系統結合的更佳的根本問題,適合熟悉推薦系統的讀者快速閱讀。
Learning from User Interactions in Personal Search via Attribute Parameterization
摘要:傳統的基於機器學習的排序模型訓練都是依賴于從大量的使用者資料得到訓練資料。而這篇文章要解決一個比較極致的問題,那就是如果模型需要應用到一個使用者的時候,如何採集有效的訓練資料並且訓練一個有效的模型。
這篇文章來自Google的個人搜索團隊,所有作者都是資訊檢索界響噹噹的學者。Marc Najork之前來自微軟矽谷研究院,曾是《ACM Transaction on Web》的主編。微軟矽谷研究院解散之後來到Google。而Donald Metzler、Xuanhui Wang以及Michael Bendersky都是資訊檢索界大牛W. Bruce Croft的得意門生。這篇文章是要解決所謂個人搜索(Personal Search)的問題。個人搜索,顧名思義,也就是對個人的文檔進行搜索(比如電子郵件、文字檔、圖片、資料等)。由於這樣特殊的產品需求,傳統的很多方法都不能夠直接適用。另外一個特殊的需求是,由於涉及到用戶的個人隱私,不能夠盲目把不同使用者的資訊交互到一起。要解決這些問題,這篇文章提供了這樣一個基本思路,那就是把用戶的Query以及文檔都映射到一個Attribute的空間。在這個空間裡,所有的資訊都可以跨使用者橫向比較。那麼,下面的問題就是我們如何把這些資訊給映射到這個Attribute的空間。作者們採用了構建一個圖(Graph)的做法。在這個圖上有四個類型的節點:文檔、Query、文檔的Attribute和Query的Attribute。兩種節點之間的連結是通過Feature Function來定義的。這一點很像Markov Random Field的構建。這也難怪作者之一的Donald Metzler曾經是提倡使用這類模型的主要推手。在定義Feature Graph之後,作者們提出了兩種思路來使用Feature Graph,一種就是直接用機器學習的方法;另一種則是手工方法和機器學習方法的混合。這篇文章採用了第二種方法,因為這樣在一個生產系統中可能更加穩定。從整體上來看,整個技術層面並不複雜,不過這裡的思路相對來說比較新穎。同時,作者還提到了如何從點擊資料中提取有效的訓練資料。在最後的實驗方面,作者們展示了提出的這種方法的有效性。不過,值得一提的是,因為資料集和整個問題的特殊性,這篇文章並沒法和很多其他方法進行公平比較。所以,文章值得對搜索和資訊檢索研究有興趣的讀者泛讀。
作者簡介
洪亮劼,Etsy資料科學主管,前雅虎研究院高級經理。長期從事推薦系統、機器學習和人工智慧的研究工作,在國際頂級會議上發表論文20餘篇,長期擔任多個國際著名會議及期刊的評審委員會成員和審稿人。
責編:何永燦,歡迎人工智慧領域技術投稿、約稿、給文章糾錯,請發送郵件至heyc@csdn.net
【CSDN線上直播課】《TensorFlow實戰》作者、PPmoney大資料演算法總監黃文堅老師即將開課:《使用TensorFlow創建可自動玩遊戲的DQN模型》