您的位置:首頁>正文

我爬取了微信公眾號的粉絲留言數,發現了這樣有趣的 事情

菜鳥獨白

前幾天公眾號發起了一個送書活動(送書6本, 等你來拿), 後臺有很多粉絲留言, 很快就超過100條留言。 送書有一個要求, 留言字數要40以上, 我為了更好的統計分析這些留言資料, 更好的選出中獎的名單, 我乾脆把微信的留言資料爬下來分析一下, 結果還真發現不少有意思的事!

1.爬取微信公眾號的留言資料

微信的留言資料並不是很難爬, 我為了方便我用了協力廠商的爬取工具Web scraper,這個工具算是神器還比較方便, 我大概用了2分鐘左右把所有的留言數都爬取了下來.

一共168條留言資料, 大概的內容長這樣:

我主要採集的姓名, 留言的內容和留言時間3個維度去分析了一下. 為了更好的分析資料:我把留言的內容的字數進行了統計, 把留言的時間進行了細分, 看最快的跟帖留言時間。 用Pandas進行清洗完成之後資料集:

2.資料的簡單分析

1).資料集一共168條留言:

一共有7個維度(留言姓名,內容, 時間, 字數長度,時間長度, 幾天, 多少分鐘)

2).看一下整個資料集的全貌:

發現:最長的留言是562個字, 最短的是6個字, 最快跟帖是3分鐘, 真的是神一樣的速度, 最慢的跟帖是2381分鐘, 大概就是我發了貼之後的40個小時之後才跟帖的.

3).看看資料集裡面有沒有缺失值

df[df['name'].isnull()]

還真有3個人的名字是空值, 不知道是不是爬取資料的時候問題

4).有沒有重複留言的同學

有的同學非常熱心, 會重複留言, 這裡面一定有真愛粉!我們來看一下都有誰:

一共有17位同學

5).留言字數40字以上的

當時我送書的留言明確申明,

字數要在40字以上,

一共168條留言:

40字以下:50人

40字以上:118人

100字以上:56人

200字以上:7個

40-100字的最多, 200字以上的應該是有很多故事要說給我聽!40字以下和100字以上的人數非常接近。

6).發現留言字數最長的前3名:

NaN到底是誰, 神秘粉絲!

7).留言字數VS留言時間

從留言字數和時間維度上分析, 一共分4個區塊:

第一個區塊:是最集中的在0-300分鐘, 也就是公眾號文章發佈的5個小時以內, 粉絲的關注度最為密集!

第二個區塊:是集中在500-1100分鐘, 也就是公眾號文章發佈的8-20小時, 我的文章是早上7點左右發佈的, 也就是下午3點到-半夜的時間, 這個區間的留言數已經開始稀稀疏疏了。 而且字數明顯下降很多。

第三個區塊:是集中在1400-2100分鐘, 也就是第二天的早上6點-晚上7點, 粉絲數留言又來開始增多, 但在字數很明顯下降的更多。

第四個區塊:發文章之後很迅速的留言, 並且字數還很多的, 這就是第四個區塊!時間在0-200分鐘, 也就是2-3小時以內, 字數在200字以上, 很明顯最忠實的粉絲, 最希望要這本書的粉絲就在這個區間。

3.中獎名單揭曉:

過濾出字數大於200字,留言迅速跟帖的時間在300分鐘以內的同學

看了這些,是不是覺得很心動呢?其實這只是一個簡單的入手小項目而已,初學者看著是不是有點頭疼?哈哈,別擔心 ,有任何問題歡迎私信小編,私信關鍵字:系統學習,我會給你一點學習上面的指導和規劃。

3.中獎名單揭曉:

過濾出字數大於200字,留言迅速跟帖的時間在300分鐘以內的同學

看了這些,是不是覺得很心動呢?其實這只是一個簡單的入手小項目而已,初學者看著是不是有點頭疼?哈哈,別擔心 ,有任何問題歡迎私信小編,私信關鍵字:系統學習,我會給你一點學習上面的指導和規劃。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示