簡介
作為nga忠實用戶兼ac娘粉絲以及一個菜鳥資料分析師, 為了慶祝前一陣A站的死而復生, 決定使用二哥留下的一些論壇介面抓取NGA主題以及回復, 以分析AC娘表情的被使用情況。 同時根據使用者uid, 回復內容, 和使用者移動設備型號以及品牌製作出若干有意思的圖表以供大家討論。 並希望抛磚引玉收集大家意見未來看看還可以做到什麼內容。
一些資料
本次抓取帖子8391貼;回復124964條;時間跨度大約集中於2018-04-08至2018-04-16;其中有參與討論用戶29759名;其中有8928名用戶有使用ac娘表情, 占總數30%。 期間回復最多用戶發表了250貼
AC娘排行
使用最多次數AC娘Top5:1041次我覺得這個醜萌醜萌的
使用最多次數AC娘Top4:1645次
使用最多次數AC娘Top3:1775次 這兩個都是發呆表情, 樓主上班時就經常這個狀態
使用最多次數AC娘Top2:2198次
使用最多次數AC娘Top1:4556次 出乎意料之一, 扇子苦笑以這麼大幅度領先所有ac娘表情, 是不是大家或多或少都有無奈情緒想要發洩
除此之外我使用了一個中文分析庫SnowNLP來對每位ngaer的回復作了情感分析指數計算, 發現正面情緒回復與負面情緒回復中使用的ac娘表情排序有明顯不同(廢話)
正面情緒代表性AC娘Top3:萌
正面情緒代表性AC娘Top2:萌死了
正面情緒代表性AC娘Top1:出乎意料之二
負面情緒代表性AC娘Top3:
負面情緒代表性AC娘Top2:這個我一般用在看到黃圖瞎眼圖的時候
負面情緒代表性AC娘Top1:
可以發現, 這次排行榜上全部都是第一版ac娘, 看來眾ngaer還是懷舊派。 如果單獨抽出第二版ac娘排行的話:
使用最多第二版AC娘Top3:看戲
使用最多第二版AC娘Top2:看戲之二
使用最多第二版AC娘Top1:具有嘲諷意味的指笑排第一, 很尷尬
其他乾貨
Ngaer們在討論什麼?
Ngaer們開心時在討論什麼?
Ngaer們生氣時在討論什麼?
我也很痛恨去公司上班!
簡單說一下, 我使用了jieba中文語言處理包來將大家的回復分成詞語, 同時回避了一些無意義的連詞比如 就是, 一個 等等。 然後使用wordcloud包畫出nga詞雲
Ngaer們在用什麼牌子的手機?
霸權蘋果不可避
Ngaer們在用什麼型號的手機?
解釋一下短的是按照用戶使用的手機型號計, 長的條是按照回帖用的手機型號計。 為什麼你們都這麼有錢???
補充
喜歡ac娘的記得點個贊哦,另請和諧討論。
如果有同行朋友賞臉點進來請狠狠找茬
爬取:urllib2, re, BeautifulSoup, mangoDB
數據清洗:pandas, re
資料分析:SnowNLP, jieba
數據視覺化:matplotlib, seaborn, wordcloud
對了
再補充一下,作為業內人士我建議大家在上網時儘量使用HTTPS模式,具體如何做不同的遊覽器有不同的方法,百度一下你就知道。因為其實追蹤一個人的資訊是比較容易做到的,包括他的住址,電話,喜好,常去地點等等。當然針對一個人的查詢是違法的理論上不應該有人這麼做,但是為了自身安全還是儘量減少/掩蓋自己在網上的“腳印”為佳
……咩
補充
喜歡ac娘的記得點個贊哦,另請和諧討論。
如果有同行朋友賞臉點進來請狠狠找茬
爬取:urllib2, re, BeautifulSoup, mangoDB
數據清洗:pandas, re
資料分析:SnowNLP, jieba
數據視覺化:matplotlib, seaborn, wordcloud
對了
再補充一下,作為業內人士我建議大家在上網時儘量使用HTTPS模式,具體如何做不同的遊覽器有不同的方法,百度一下你就知道。因為其實追蹤一個人的資訊是比較容易做到的,包括他的住址,電話,喜好,常去地點等等。當然針對一個人的查詢是違法的理論上不應該有人這麼做,但是為了自身安全還是儘量減少/掩蓋自己在網上的“腳印”為佳
……咩