新浪微博與機器學習能擦出什麼火花？一文瞭解使用者表示方法對微博使用者屬性分類性能的影響

【注】本文已被中文資訊學報錄用待發表

其中，如何根據使用者資料構建良好的使用者表示以便於分類器取得更好的分類效果是使用者屬性分類的重要問題。

因此，本文探究了八種用戶表示的方法對性別、年齡和地域三種屬性分類結果的影響，並提出了分散式表示與One-Hot表示相結合的用戶表示方法，實驗表明，這種方法可以有效提高三種屬性上分類器的分類性能。

作者| 哈工大SCIR 孫曉飛，丁效，劉挺

整理 | AI科技大本營（rgznai100）

1引言

目前，主流的使用者屬性推斷方法是基於機器學習的分類方法，亦即將屬性推斷問題轉化為屬性分類問題，在向量化的用戶表示的基礎上採用現有的機器學習方法對使用者屬性進行分類。在不改變現有成熟分類方法的前提下，如何得到更好的使用者表示成為了使用者屬性分類問題的核心問題。

本文研究了不同用戶表示方法對性別、年齡、地域三種使用者屬性分類性能的影響，

並在現有表示方法的基礎上提出了將半監督的分散式表示和One-Hot表示相結合的方法，實驗結果表明，結合半監督表示和One-Hot表示的用戶表示方法可以有效提高使用者屬性分類的效果。

2 相關研究

2.1 使用者屬性分類

伴隨著互聯網的發展Burger和Henderson[1]以及Nowson和Oberlander[2]等人首先在正式博客中進行了使用者屬性分類的相關研究。

隨著社交網路的興起，基於短文本的用戶畫像識別得到了眾多學者的關注。 Delip Rao[3]等人基於Twitter上的文本資訊對性別、年齡、地域、政治傾向四個屬性進行了識別並分別取得了72.33%、74.11%、77.08%和82.84%的準確率。他們將該問題視為二元分類問題，其研究結果表明，用戶的詞彙使用、標點符號使用、表情符號使用對識別準確率有較大影響。

Faiyaz Al Zamal[4]等人通過使用者的朋友資訊對性別、年齡和政治傾向性進行了識別，重點探討了不同的朋友資訊（如朋友數量、關係親疏）對識別結果的影響，取得了91.8%的最高準確率。 John D. Burger[5]等人基於1850萬Twitter使用者資料進行了性別識別的研究，通過綜合多個分類模型聯合識別性別，取得了92%的準確率。

Claudia Peersman[6]等人基於Netlog（一個來自比利時的社交網站）上的使用者資料研究了年齡和性別的識別問題，在研究過程中，他們將性別資訊也作為年齡識別的輸入資料，實驗結果表明，使用者的性別資訊可以對年齡段識別起到輔助作用。 Aron Culotta[7]等人基於用戶對Twitter上150個網站的公共主頁的關注關係，利用邏輯回歸的方法，

對性別、年齡、收入、教育程度等屬性進行了識別，並取得了很好的效果。

2.2 文本特徵表示

單純的文本資訊在大多數情況下是無法直接用於分類任務的，必須將其中的文本資訊轉化為數位化的形式（向量）。

目前，主流的向量化形式有兩種：獨熱表示（One-Hot Representation）和分散式（Distributed Representation或Word Embedding）表示。

One-Hot的形式，即向量的每一維表示一個詞，如果該詞在文本中出現則該維記為1（或加一），否則記為0。它把每個詞都表示為一個長度等於詞典長度的向量，而且向量中只有少數維度值為非0，其他維度上都為0。 One-Hot表示的優點是非常簡潔，但是其缺點是本身不能表示任何語義特徵，向量之間是完全孤立的，無法表現彼此之間可能存在的聯繫。

分散式詞表示（Word Embedding 或 Distributed Word Representation）由Hinton[8] [9]在1984年提出。

2006年Bengio[10]提出了以神經網路模型為基礎的神經概率語言模型（Neural Probabilistic Language Model）。 2008 年， Collobert [11]等提出了一種計算詞向量的方法。 2013年， Mikolov[12] [13]等提出了CBOW（Continuous Bag-of-Word）和Skip-gram兩種詞向量訓練模型，並製作了著名的工具包word2vec，它可以在普通個人電腦上迅速得到詞的分散式表示。 Mikolov[14]等人在word2vec基礎上提出了doc2vec方法，可以對文檔進行向量化表示。

2.3 圖特徵分散式表示

除了利用文本的分散式表示，一些學者也研究了圖節點的分散式表示。 Perozzi[15]等人提出了Deepwalk的方法，通過隨機遊走的方式產生若干隨機序列化路徑，然後通過Skip-gram模型對節點的分散式表示進行權重更新，從而學習到節點的分散式表示。

Jian Tang 等人[16]提出了學習網路節點分散式表示的LINE（Large-scale Information Network Embedding）方法。其基本假設是：相連的節點之間邊權值越大，表示兩個節點之間相似程度越高；兩個節點之間共通連接的節點數越多，表示兩個節點之間相似程度越高。基於這兩種假設，LINE對節點的相似程度進行了建模並進行梯度下降的求解。

3實驗方法

3.1 資料描述

使用者的屬性資料包括性別、年齡和地域。其中，性別為男和女，年齡為大於30歲和小於30歲，地域劃分為北部、南部和西部（見圖3-1）。為了簡化地域分佈的劃分，本文不考慮地域為“其他”和“海外”的使用者的屬性分類問題。

圖 3-1 地域劃分示意圖

3.2 資料清洗

(1) 通過人工標記若干敏感詞進行過濾：移除用戶名中帶有“公司”“公共主頁”“粉絲團”“基金”“旅行”等敏感詞彙的用戶。

(2) 根據使用者活動頻率過濾：本文要求集中的用戶要求必須為活躍用戶。活躍使用者被定義為滿足以下三條特徵的使用者

(3) 刪除出生日期在2010年之後和1950年之前的用戶（即年齡小於五歲和大於65歲的用戶）。

3.3 用戶表示

本文採用了五種用戶表示方法，分別是One-Hot表示、基於使用者文本的分散式表示、基於用戶關係網絡的分散式表示、半監督的網路分散式表示和聯合表示。

3.3.1 One-Hot表示

One-Hot表示是最常見的文本向量化表示形式，即向量的每一維表示一個詞，如果這個詞在文本中出現則記為1，否則記為0。One-Hot表示的優點是非常簡潔，但是其缺點是本身不能表示任何語義特徵，向量之間是完全孤立的，無法表現彼此之間可能存在的聯繫。為了避免維度過大，本文通過卡方檢驗的方式選取了10000個詞作為特徵。為了取得更好的結果，在詞特徵的基礎上同時加入了表情符特徵（emoticon）、短連接特徵（URL）和用戶名特徵（user name）。

3.3.2 基於文本的使用者分散式表示

基於word2vec的分散式表示：首先基於word2vec工具，首先對詞進行向量化，獲得詞的低維表示。然後將用戶所使用的詞進行池化（Max Pooling），亦即對所有用戶使用的詞彙的詞向量在每一維度上取最大值，以得到用戶的向量化表示。

3.3.3 基於網路結構的使用者分散式表示

由於僅有的兩萬用戶之間所構建的關係網絡圖較為稀疏，無法得到較好的節點分散式表示，而全網關係網絡圖又過於龐大，會給資料的存儲和學習速度帶來較大的壓力，因此，我們對在兩萬用戶關係網絡圖的基礎上進行了兩次廣度優先搜索，對原始網路圖進行了擴展，其過程如圖3-2。

圖 3-2 網路圖擴展示意圖

針對上述網路結構，我們採用了基於CBOW（Continuous Bag-of-Word）模型的Deepwalk[15]工具和LINE[16]工具對網路結構進行了建模以學習網路結構中使用者的分散式表示。

3.3.4 半監督的網路分散式表示

上述兩種學習分散式表示的方法都是採用無監督的方式，可以產生一般化的用戶分散式表示從而用於多種任務，然而，這種方法並沒有利用任何的有標記資料，其結果是產生的向量不具有任務針對性，為了提升實驗的效果，我們在學習用戶分散式表示中加入一些有監督的資訊，從而使得學到的的用戶表示更加適用於用戶畫像任務。

我們在Deepwalk的基礎上採用了兩種半監督方法學習用戶的向量化表示：

一種最直接的方法就是在Deepwalk得到的隨機遊走路徑中插入一定的有監督資訊，然後在新的路徑中學習使用者的分散式表示，如原路徑為：

則插入有監督資訊（label）後路徑為：

圖 3‑3有監督的CBOW模型

另一種方式是直接將詞w對應的label資訊（記為lw）加入到word2vec模型中，其模型如圖 3-3所示。

在通過w的上下文context(w)後，不僅計算p(w |context(w))，還要計算p(lw |context(w))，並對權重進行更新。根據和向量計算p(lw |context(w))的方法是邏輯回歸，其損失函數如式 (3-1) (3-2) 。

其中xw表示詞w的上下文向量的加和，θ表示待學習參數，σ表示sigmoid函數。表示word2vec模型中的損失函數，L1表示CBOW模型中針對於w的的context損失函數，L2表示針對於w的label的損失函數，λ表示L2的權重。

其優化的目標函數如式(3-3)、(3-4)、(3-5)、(3-6)，採用梯度上升法求解。

3.3.5 聯合表示

在上述模型的基礎上，將One-Hot表示和網路結構的半監督分散式表示所獲取到的向量進行拼接，構建了聯合表示的用戶向量。這種表示方法可以同時利用文本資訊和網路結構資訊。

3.3 模型選擇

本文選擇的分類模型是邏輯回歸模型，對於地域屬性中的多分類問題採用的是Softmax回歸（在下文中統一稱之為邏輯回歸）。邏輯回歸是一種較為成熟的分類器，相比于貝葉斯分類器，邏輯回歸對實數向量的支持更好；而相比於SVM和神經網路等分類器，邏輯回歸的模型更為簡單，訓練速度更快，可以迅速得到實驗結果；而相對于集成學習，邏輯回歸由於模型簡單且對經驗等因素依賴較小，其結果更適合體現輸入資料不同對最終實驗結果的影響。基於以上原因，本文選擇了邏輯回歸模型作為分類器。

4實驗結果

4.1 One-Hot表示

集成學習的主要思想使用多種分類器對資料進行分類，起到弱分類器加和得到強分類器的效果。本文對上述的五中不同特徵採用了不同的分類器，分別得到其臨時分類結果後，將結果輸入到總分類器中，得到最終結果。其中，特徵分類器得到的結果是K維實數向量，其中K表示屬性的值域大小（如對年齡K=1，對地域K=3）。

最終採用五折交叉驗證後的結果如表1所示：

表1 One-Hot表示實驗結果

4.2 利用文本的使用者分散式表示

本節使用word2vec和doc2vec兩個工具通過使用者的文本資料分別學習使用者的分散式表示，並採用邏輯回歸分類器對使用者的不同屬性進行分類。

利用基於word2vec（生成的向量長度為100，視窗大小為5，模型為CBOW模型，演算法為Hierarchical Softmax模型）生成的使用者分散式表示實驗結果見表 2。

表2 word2vec實驗結果

利用基於doc2vec（生成的向量長度為100，視窗大小為5，模型為CBOW模型，演算法為Hierarchical Softmax模型錯誤。）生成的用戶分散式表示實驗結果見表3。

表3 doc2vec實驗結果

從實驗結果的對比可以看出，單純詞向量累加的形式所獲取到的用戶分散式表示並不能有效地提高實驗的效果，相反，各個參數都有所下降。與之相比，採用doc2vec工具直接得到的用戶分散式的表現表示雖然較之詞袋模型仍然有所下降，但是卻要高於word2vec累加的表現。

4.3 基於網路結構的使用者分散式表示

本節中，我們使用Deepwalk和LINE兩個工具通過使用者的關係網絡資料分別學習使用者的分散式表示，並採用邏輯回歸分類器對使用者的不同屬性進行分類。

基於DeepWalk（生成的向量長度為100，視窗大小為5，模型為CBOW模型，演算法為Hierarchical Softmax模型，五折交叉驗證）生成的用戶分散式表示實驗結果見表4。

表4 Deepwalk實驗結果

基於LINE（一度節點生成的向量長度為200，二度節點生成的向量長度為200，總長度為400）生成的用戶分散式表示實驗結果見表5。

表5 LINE實驗結果

從實驗結果可以看出，使用者的網路結構資訊蘊含了豐富的使用者畫像資訊。這一結論與Delip Rao[3]等人在Twitter上做用戶畫像工作所得到的結論不同，原因是Delip Rao等人只利用了使用者社交網路的數量資訊——朋友數、粉絲數、粉絲中屬性分佈比例——而沒有利用更深層的網路結構資訊。

另外，性別屬性的準確率、召回率、F1值都接近詞袋模型的結果，而年齡、地域屬性的三個參數都要高於詞袋模型的表現。造成這種結果的原因是，用戶關係網絡本身是對用戶的一種聚類的體現，用戶之間的連接更傾向於在相近年齡段、相近地域的人之間產生，因此對於年齡和地域兩個屬性而言，使用者網路結構比使用者用詞習慣含有更多的相關資訊。

4.4 基於網路結構的半監督使用者分散式表示

本節使用半監督的Deepwalk演算法通過使用者的關係網絡資料分別學習使用者的分散式表示，並採用邏輯回歸分類器對使用者的不同屬性進行分類。

基於插值方式的Deepwalk（生成的向量長度為100，視窗大小為5，模型為CBOW模型，演算法為Hierarchical Softmax模型）生成的使用者分散式表示實驗結果見表6。

表6 半監督插值Deepwalk實驗結果

表7 半監督word2vec實驗結果基於半監督word2vec的Deepwalk生成的用戶分散式表示實驗結果見表7。

表7 半監督word2vec實驗結果

根據實驗結果可以看出，半監督的Deepwalk方法得到的用戶分散式表示可以更好地對性別、年齡和地域三個屬性進行分類。

4.5 One-Hot表示與分散式表示集成學習

本節在4.1節的基礎上加入使用者網路結構獲得的使用者表示，以提高分類效果。其實驗結果見表8。

表8 One-Hot表示與分散式表示集成學習實驗結果

從實驗結果可以看出，結合One-Hot特徵與網路關係的分散式特徵得到的使用者表示可以得到更高的準確率、召回率和F1值，事實上，目前得到的準確率是所有實驗中效果最好的。

5 結論

參考文獻

[1] Burger J D， Henderson J， Kim G， et al. Discriminating gender on Twitter[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics， 2011: 1301-1309.

[2] Nowson S， Oberlander J. The Identity of Bloggers: Openness and Gender in Personal Weblogs[C]//AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 2006: 163-167.

[3] Rao D， Yarowsky D， Shreevats A， et al. Classifying latent user attributes in twitter[C]//Proceedings of the 2nd international workshop on Search and mining user-generated contents. ACM， 2010: 37-44.

[4] Al Zamal F， Liu W， Ruths D. Homophily and Latent Attribute Inference: Inferring Latent Attributes of Twitter Users from Neighbors[J]. ICWSM， 2012， 270.

[5] Burger J D， Henderson J， Kim G， et al. Discriminating gender on Twitter[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics， 2011: 1301-1309.

[6] Peersman C， Daelemans W， Van Vaerenbergh L. Predicting age and gender in online social networks[C]//Proceedings of the 3rd international workshop on Search and mining user-generated contents. ACM， 2011: 37-44.

[7] Culotta A, Ravi N K, Cutler J. Predicting the Demographics of Twitter Users from Website Traffic Data[C]//Proceedings of the International Conference on Web and Social Media (ICWSM), in press. Menlo Park, California: AAAI Press. 2015.

[8] Hinton G E. Distributed representations[J]. 1984.

[9] Hinton G E. Learning distributed representations of concepts[C]//Proceedings of the eighth annual conference of the cognitive science society. 1986, 1: 12.

[10] Bengio Y, Schwenk H, Senécal J S, et al. Neural probabilistic language models[M]//Innovations in Machine Learning. Springer Berlin Heidelberg, 2006: 137-186.

[11] Collobert R, Weston J. A unified architecture for natural language processing: Deep neural networks with multitask learning[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 160-167.

[12] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

[13] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems. 2013: 3111-3119.

[14] Le Q V, Mikolov T. Distributed representations of sentences and documents[J]. arXiv preprint arXiv:1405.4053, 2014.

[15] Perozzi B, Al-Rfou R, Skiena S. Deepwalk: Online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2014: 701-710.

[16] Tang J, Qu M, Wang M, et al. LINE: Large-scale Information Network Embedding[C]//Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015: 1067-1077.

[17] Che W, Li Z, Liu T. Ltp: A chinese language technology platform[C]//Proceedings of the 23rd International Conference on Computational Linguistics: Demonstrations. Association for Computational Linguistics, 2010: 13-16.

專屬福利：中國國內級別最高、規模最大的人工智慧大會——中國人工智慧大會（CCAI）將於7.22-7.23在杭州舉行，目前大會 8 折專屬優惠門票火熱搶購中，趕快掃描下方圖片中的二維碼或點擊【閱讀原文】火速搶票吧。

關於CCAI

中國人工智慧大會（CCAI），由中國人工智慧學會發起，目前已成功舉辦兩屆，是中國國內級別最高、規模最大的人工智慧大會。秉承前兩屆大會宗旨，由中國人工智慧學會、阿裡巴巴集團 & 螞蟻金服主辦，CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會（CCAI 2017）將於 7 月 22-23 日在杭州召開。

作為中國國內高規格、規模空前的人工智慧大會，本次大會由中國科學院院士、中國人工智慧學會副理事長譚鐵牛，阿裡巴巴技術委員會主席王堅，香港科技大學電腦系主任、AAAI Fellow 楊強，螞蟻金服副總裁、首席資料科學家漆遠，南京大學教授、AAAI Fellow 周志華共同甄選出在人工智慧領域本年度海內外最值得關注的學術與研發進展，彙聚了超過 40 位頂級人工智慧專家，帶來 9 場權威主題報告，以及“語言智慧與應用論壇”、“智慧金融論壇”、“人工智慧科學與藝術論壇”、“人工智慧青年論壇”4 大專題論壇，屆時將有超過 2000 位人工智慧專業人士參與。

表示兩個節點之間相似程度越高。基於這兩種假設，LINE對節點的相似程度進行了建模並進行梯度下降的求解。