資料不八卦，跟我從零做一次「資料收集與分析」

文/一隻產品汪發佈於14小時前閱讀1841評論0喜歡3

閱讀1841

標籤：

產品經理

不得不說呢，我是一個非常八卦的產品經理～今天，就借目前比較火的《李雨桐與薛之謙事件》來做一個基礎的資料分析吧。因為我也是一個新手，很高級的方法就暫時沒掌握了。此篇答案作抛磚引玉。

前言

大家在平時如果需要進行一個需求說明或者是一些用戶相關的展示，如果用到了一些視覺化的資料圖表，是會讓自己的展示增色不少的。雖然目前視覺化圖表的製作手段已經很充分了，比如說：BDP個人版、百度圖說、阿裡巴巴DATAV。

這一類的視覺化圖表工具很多，具體功能大同小異。但是有了一個好的工具，一定是需要一些強有力的資料支撐，才可以保證論據的有效性。所以本篇文章準備借一個例子來講一下平時進行資料分析會用到的工具和思路。希望對你們有用。

做資料分析之前應該要做的事情

那在做每一次的資料分析之前呢，

有一個很重要的事情就是，你需要確定：預期從本次數據分析中收穫哪些方面的內容。同時，也要思考清楚，是需要通過這次的資料分析去得到哪些結果？這些結果的關鍵影響因素是哪些？

那我們這次展示的是，通過資料分析，瞭解本次事件中的受關注程度、輿論走向、人群畫像。

1.如何瞭解受關注程度（初級收集）

我們該怎麼去判斷一個事件的受關注程度呢？我們可以去看看有多少人關注了這件事情，在討論這個事情，以及相關指數報告。

李雨桐從9月12日第一次發博至今，粉絲從50W上漲到了166萬，淨增長116萬，用時半月，能與這種速度媲美的，近期我能想到的就是《中國有嘻哈》裡的嘻哈歌手了，

大概是數以億記的曝光。

2）通過各類指數網站

比如百度指數、新浪-微指數、阿裡指數-電商向、艾瑞指數。百度指數中，李雨桐的指數是這樣的。

不得不說這個上升的變化率，真的是很長。長到我數不清了，因為發博之前（9.12日之前）李雨桐的搜索指數幾乎為0。

2.如何收集人物畫像

如果我們不去尋找過去精確的結果，那就可以直接通過微指數中看到一些我們需要的資料了。比如我們由此可以知道，八卦這件事情呢，女生肯定是大比重的，所有關注李雨桐事件裡的用戶，有70.92%是女性。

同時還可以查看年齡的比重：越年輕，越八卦是沒錯的。

但是我們在收集資料的時候需要切記，有些資料可能參考價值不是那麼高。比如星座標籤，發現是魔蠍座的用戶占比最高，而且還高不少，難道是因為魔蠍座更八卦嗎？沒那麼玄乎吧。

3.通過簡單的爬蟲來研究輿論走向

說到這裡肯定有很多同學難受，因為爬蟲一般來說需要代碼基礎的嘛。

的確如果學過Python語言，去寫爬蟲的效率會高上不少，而且能夠爬到的資料也會豐富的很多。但是我當然不是來產品論壇裡講代碼的啦，所以我會分享一款簡單易用的爬蟲工具，保證每個同學只要使用了基本就沒什麼問題可以爬，不過能爬到的東西會少一些、也無法調用多執行緒。

先展示一下我用爬蟲收集到的資料：

不好意思上錯圖了，如果沒有技巧的去爬蟲，會遭遇新浪的反爬措施的，比如把你的IP給暫時封了。當然，網上也有很多反反爬的手段，這裡不細說哦。這裡是大概一份未處理的原始資料。

我要介紹的是一款chrome流覽器的外掛程式，他叫做Web Scraper，他的介面大概是這樣的。

爬蟲在Python裡面的代碼是通過import scrapy來開始的，是同一回事哦哈哈。該怎麼操作呢，首先是需要下載穀歌流覽器，這個web scraper是上面的一個外掛程式。

你可以爬取許多顯性不需觸發一直顯示的資料（比如文字、圖片），比如下圖紅框中的所有資訊，都可以爬下來，不過需要根據內容的多少定實際時間的長短了。

有興趣的同學，可以在下載後，進行如下操作：

1）打開外掛程式

2）選擇Import sitemap，進入這個介面

3）在Sitemap JSON框內，輸入如下代碼

4）輸入一個名字，這個隨便你們。

以下展示第三部分：輿情走向的展示（主要內容為八卦分詞）

能夠進前排的高頻詞彙都是下面這些，表達了正面性詞彙（相信、支持、愛你、挺你一類的）占了幾乎60%，而剩下的也有許多是在攻擊李雨桐。

因為李雨桐之前放出的石錘，以及薛之謙的不做解釋，大家可以發現，在本次對於李雨桐的評論中，表示相信、站你、支持的正面詞彙變多了。

本次回復中，統計相信、支持、加油、求更新、實錘等詞彙約占總評論的24.4%。而在9月21號，薛之謙再次放出新的截圖（據說是P的，知乎上有大神發現了）。

然後，大家可以從新的分詞雲中看出，薛之謙評論中的高頻詞彙，除了“永遠支持你”“支持老薛”這些以外，多了“吸精”“辣雞”“渣”等詞。這說明輿論走向正在變啊。

點擊量非常的高，然後我再次進行爬取評論並進行高頻分詞，發現了如下的情況。

是還有不少人說李雨桐噁心的（因為居然偷偷留了一手錄音）料誰也沒想到吧。但最主要的評論走向還是在支持李雨桐上的，而看到評論列表中，幾乎所有的熱門評論一致都是在站李雨桐的。根據統計，約有七成以上的評論是對李雨桐表達肯定意見了。這場娛樂圈大戰的輿論走向最終以此告終。

最後，我們談談技術

分詞我使用的方法是jiaba分詞，以下兩個連結是關於jieba的一些內容，可以流覽到一些官方的資訊。

如果同學們學會了使用jieba分詞，就可以很輕鬆的把excel中繁雜的文本資料一次搞定了。但是，這些前提是，你要學過Python啊。

首先，第一步

打開Python官網，進行下載Python2.7.14。

記住！這裡需要下載的是2.7.14，下載了3.6.2會無法使用我的代碼。

安裝完成後，進行如下操作！

1.安裝jieba

安裝步驟，首先打開運行，就是這個玩意

輸入cmd以後進入終端

輸入

輸入後直接按回車，你會看到各種行動條，後面提示successfully就可以了。

2.下載我給的代碼檔（關注我的微信公眾號pmdiray123，回復“分詞代碼”）

對，就是他

3.在目前的目錄下，創建2個TXT（UTF-8編碼）檔，聽好了這裡是重點

一個txt檔命名為word.txt，這個檔裡是你的原始資料，可能是幾十萬字的評論，沒關係的，代碼處理的很快。

另一個txt檔命名為newdict.txt，這個檔是詞典，在這裡你添加一些可能你判定會有的高頻詞彙。

這樣就ok了。後面你的資料夾內有的檔是需要這樣的。

然後按一下jieba.py就會開始自動分析了。

分析時長會在幾分鐘內。你就會發現該資料夾多了2個文件了，然後你打開檔會發現如下的內容。

腳本已經幫你分詞而且按詞頻排列好啦~然後當你成功分詞並獲得詞頻以後，就可以很輕鬆的製作詞雲啦。詞雲做法請參考以下網址。

文/一隻產品汪，微信公眾號：產品汪的修煉日記（pmdiray123）。

比如我們由此可以知道，八卦這件事情呢，女生肯定是大比重的，所有關注李雨桐事件裡的用戶，有70.92%是女性。