您的位置:首頁>正文

網頁爬蟲——獲取靜態網頁的超連結

關注“愛當程式師的我”, 每天都有關於程式設計頭條發佈

今天講的是使用python爬取一個網頁上面的所有超連結, 如果電腦裡面有python的話可以動手實驗一下, 提高一下優越感。

爬蟲在實際生活中還是十分常見的, 比如說國內最大的爬蟲——百度。 所以說爬蟲做的好就可以賺錢了。

今天講的這個也很簡單, 爬取網頁超連結, 但是有前提那就是這是一張靜態的網頁, 動態的網頁有點難搞, 小編還不是很會, 等學會了在分享給大家。

首先我們需要引入我們要用的包, 這裡我們使用了python裡面自帶的包

引包

urllib.request是python操作url的包,

re是python規則運算式的包

首先我們寫一個獲取網頁原始程式碼的函數

獲取網頁原始程式碼

然後我們就要寫一個提取出網頁原始程式碼的超連結的函數

獲取網頁超連結

接下來我們就可以測試一下了

測試

我們就可以去看看url.txt裡面的東西了

url.txt內容

我們發現裡面有很多不是url, 那個是因為在編寫網頁的時候使用的是相對路徑, 所以會出現這種情況。 但是這並不影響我們分析頭條首頁的超連結, 基本上都不是本站的連接, 說明頭條的廣告業務有點繁忙, 當然這只是小編的猜測, 萬一頭條有很多的功能變數名稱呢?

結束語:

如果喜歡這篇頭條, 一定要收藏喲^O^

點擊關注, 瞭解更多關於程式設計的知識^O^

如果有不懂的地方, 可以留言, 相互探討, 相互學習, 共同進步^O^

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示