菜鳥獨白
前幾天公眾號發起了一個送書活動(送書6本, 等你來拿), 後臺有很多粉絲留言, 很快就超過100條留言。 送書有一個要求, 留言字數要40以上, 我為了更好的統計分析這些留言資料, 更好的選出中獎的名單, 我乾脆把微信的留言資料爬下來分析一下, 結果還真發現不少有意思的事!
1.爬取微信公眾號的留言資料
微信的留言資料並不是很難爬, 我為了方便我用了協力廠商的爬取工具Web scraper,這個工具算是神器還比較方便, 我大概用了2分鐘左右把所有的留言數都爬取了下來.
一共168條留言資料, 大概的內容長這樣:
我主要採集的姓名, 留言的內容和留言時間3個維度去分析了一下. 為了更好的分析資料:我把留言的內容的字數進行了統計, 把留言的時間進行了細分, 看最快的跟帖留言時間。 用Pandas進行清洗完成之後資料集:
2.資料的簡單分析
1).資料集一共168條留言:
一共有7個維度(留言姓名,內容, 時間, 字數長度,時間長度, 幾天, 多少分鐘)
2).看一下整個資料集的全貌:
發現:最長的留言是562個字, 最短的是6個字, 最快跟帖是3分鐘, 真的是神一樣的速度, 最慢的跟帖是2381分鐘, 大概就是我發了貼之後的40個小時之後才跟帖的.
3).看看資料集裡面有沒有缺失值
df[df['name'].isnull()]
還真有3個人的名字是空值, 不知道是不是爬取資料的時候問題
4).有沒有重複留言的同學
有的同學非常熱心, 會重複留言, 這裡面一定有真愛粉!我們來看一下都有誰:
一共有17位同學
5).留言字數40字以上的
當時我送書的留言明確申明,
一共168條留言:
40字以下:50人
40字以上:118人
100字以上:56人
200字以上:7個
40-100字的最多, 200字以上的應該是有很多故事要說給我聽!40字以下和100字以上的人數非常接近。
6).發現留言字數最長的前3名:
NaN到底是誰, 神秘粉絲!
7).留言字數VS留言時間
從留言字數和時間維度上分析, 一共分4個區塊:
第一個區塊:是最集中的在0-300分鐘, 也就是公眾號文章發佈的5個小時以內, 粉絲的關注度最為密集!
第二個區塊:是集中在500-1100分鐘, 也就是公眾號文章發佈的8-20小時, 我的文章是早上7點左右發佈的, 也就是下午3點到-半夜的時間, 這個區間的留言數已經開始稀稀疏疏了。 而且字數明顯下降很多。
第三個區塊:是集中在1400-2100分鐘, 也就是第二天的早上6點-晚上7點, 粉絲數留言又來開始增多, 但在字數很明顯下降的更多。
第四個區塊:發文章之後很迅速的留言, 並且字數還很多的, 這就是第四個區塊!時間在0-200分鐘, 也就是2-3小時以內, 字數在200字以上, 很明顯最忠實的粉絲, 最希望要這本書的粉絲就在這個區間。
3.中獎名單揭曉:
過濾出字數大於200字,留言迅速跟帖的時間在300分鐘以內的同學
看了這些,是不是覺得很心動呢?其實這只是一個簡單的入手小項目而已,初學者看著是不是有點頭疼?哈哈,別擔心 ,有任何問題歡迎私信小編,私信關鍵字:系統學習,我會給你一點學習上面的指導和規劃。
3.中獎名單揭曉:
過濾出字數大於200字,留言迅速跟帖的時間在300分鐘以內的同學
看了這些,是不是覺得很心動呢?其實這只是一個簡單的入手小項目而已,初學者看著是不是有點頭疼?哈哈,別擔心 ,有任何問題歡迎私信小編,私信關鍵字:系統學習,我會給你一點學習上面的指導和規劃。