您的位置:首頁>正文

把數據爬取下來後幹什麼呢?當然是進行資料視覺化了啊!超級詳細

一.找到需要爬取的內容,分析網頁, 抓包查看交互內容

首先我們先進入到我們需要抓取的內容的位址。 http://music.163.com/# 這是網易雲音樂的首頁, 我們的目的是抓取周傑倫的所有歌曲, 歌詞, 已經評論, 那我們在搜索處輸入周傑倫

一個人自學很有可能因為動力不足而中途放棄,

可以嘗試加入一個或幾個適合自己的網路群體(QQ、 微信、 社區等),尋找志同道合的學習夥伴, 相互交流、相互促進.如果大家想要學習交流歡迎給我私信, 私信關鍵字: 01.02.03.04 都會得到不一樣的資料!系統堅持到關鍵字會自動發送。 分開發送!01或者02

是的你沒看錯, 這就是我們想要的資訊, 那事情就變得簡單的, 我們沒必要用複雜的工具比如(selenium)去載入整個頁面, (事實上, 如果還沒想到抓取歌曲的方法, 我估計就得用它了),我們再看header裡面有什麼

這裡面用到了xpath來找到對應標籤裡面資料,代碼不重要,思想懂了就行(代碼單獨執行可行)

執行結果如下

二.抓取歌曲信息。

通過上面我們已經抓取到了專輯的資訊,接下來我們就通過專輯,來獲取歌曲資訊

同樣的道理我們通過偽造方式發送資訊,獲取歌曲資訊!!直接上代碼

上面需要注意:xpath來獲取需要的資訊,利用正則來獲取ID(其實有很多方法)

結果如下

同樣的方法!!我們打開一首歌曲

一樣的道理,我們分析network來獲取我們需要的資訊歌詞,評論!!直接上代碼

上面需要注意的是:利用json獲取需要的資料(至少比正則快點)

結果如下:

上面需要注意的是:我們合併資料的時候,可以選擇性的刪除一些無用資料

結果如下

下面我們對周傑倫歌曲進行情緒化分析

下面完成資料詞頻各種分析

好了!!其實分析語法沒那麼重要,實驗的方法也很多!!

我們來看下結果把

學會了嗎?

這裡面用到了xpath來找到對應標籤裡面資料,代碼不重要,思想懂了就行(代碼單獨執行可行)

執行結果如下

二.抓取歌曲信息。

通過上面我們已經抓取到了專輯的資訊,接下來我們就通過專輯,來獲取歌曲資訊

同樣的道理我們通過偽造方式發送資訊,獲取歌曲資訊!!直接上代碼

上面需要注意:xpath來獲取需要的資訊,利用正則來獲取ID(其實有很多方法)

結果如下

同樣的方法!!我們打開一首歌曲

一樣的道理,我們分析network來獲取我們需要的資訊歌詞,評論!!直接上代碼

上面需要注意的是:利用json獲取需要的資料(至少比正則快點)

結果如下:

上面需要注意的是:我們合併資料的時候,可以選擇性的刪除一些無用資料

結果如下

下面我們對周傑倫歌曲進行情緒化分析

下面完成資料詞頻各種分析

好了!!其實分析語法沒那麼重要,實驗的方法也很多!!

我們來看下結果把

學會了嗎?

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示