一.找到需要爬取的內容,分析網頁, 抓包查看交互內容
首先我們先進入到我們需要抓取的內容的位址。 http://music.163.com/# 這是網易雲音樂的首頁, 我們的目的是抓取周傑倫的所有歌曲, 歌詞, 已經評論, 那我們在搜索處輸入周傑倫
一個人自學很有可能因為動力不足而中途放棄,
是的你沒看錯, 這就是我們想要的資訊, 那事情就變得簡單的, 我們沒必要用複雜的工具比如(selenium)去載入整個頁面, (事實上, 如果還沒想到抓取歌曲的方法, 我估計就得用它了),我們再看header裡面有什麼
這裡面用到了xpath來找到對應標籤裡面資料,代碼不重要,思想懂了就行(代碼單獨執行可行)
執行結果如下
二.抓取歌曲信息。
通過上面我們已經抓取到了專輯的資訊,接下來我們就通過專輯,來獲取歌曲資訊
同樣的道理我們通過偽造方式發送資訊,獲取歌曲資訊!!直接上代碼
上面需要注意:xpath來獲取需要的資訊,利用正則來獲取ID(其實有很多方法)
結果如下
,
同樣的方法!!我們打開一首歌曲
一樣的道理,我們分析network來獲取我們需要的資訊歌詞,評論!!直接上代碼
上面需要注意的是:利用json獲取需要的資料(至少比正則快點)
結果如下:
上面需要注意的是:我們合併資料的時候,可以選擇性的刪除一些無用資料
結果如下
下面我們對周傑倫歌曲進行情緒化分析
下面完成資料詞頻各種分析
好了!!其實分析語法沒那麼重要,實驗的方法也很多!!
我們來看下結果把
學會了嗎?
這裡面用到了xpath來找到對應標籤裡面資料,代碼不重要,思想懂了就行(代碼單獨執行可行)
執行結果如下
二.抓取歌曲信息。
通過上面我們已經抓取到了專輯的資訊,接下來我們就通過專輯,來獲取歌曲資訊
同樣的道理我們通過偽造方式發送資訊,獲取歌曲資訊!!直接上代碼
上面需要注意:xpath來獲取需要的資訊,利用正則來獲取ID(其實有很多方法)
結果如下
,
同樣的方法!!我們打開一首歌曲
一樣的道理,我們分析network來獲取我們需要的資訊歌詞,評論!!直接上代碼
上面需要注意的是:利用json獲取需要的資料(至少比正則快點)
結果如下:
上面需要注意的是:我們合併資料的時候,可以選擇性的刪除一些無用資料
結果如下
下面我們對周傑倫歌曲進行情緒化分析
下面完成資料詞頻各種分析
好了!!其實分析語法沒那麼重要,實驗的方法也很多!!
我們來看下結果把
學會了嗎?