網頁爬蟲——獲取靜態網頁的超連結

關注“愛當程式師的我”，每天都有關於程式設計頭條發佈

今天講的是使用python爬取一個網頁上面的所有超連結，如果電腦裡面有python的話可以動手實驗一下，提高一下優越感。

爬蟲在實際生活中還是十分常見的，比如說國內最大的爬蟲——百度。所以說爬蟲做的好就可以賺錢了。

今天講的這個也很簡單，爬取網頁超連結，但是有前提那就是這是一張靜態的網頁，動態的網頁有點難搞，小編還不是很會，等學會了在分享給大家。

首先我們需要引入我們要用的包，這裡我們使用了python裡面自帶的包

引包

urllib.request是python操作url的包，

re是python規則運算式的包

首先我們寫一個獲取網頁原始程式碼的函數

獲取網頁原始程式碼

然後我們就要寫一個提取出網頁原始程式碼的超連結的函數

獲取網頁超連結

接下來我們就可以測試一下了

測試

我們就可以去看看url.txt裡面的東西了

url.txt內容

我們發現裡面有很多不是url，那個是因為在編寫網頁的時候使用的是相對路徑，所以會出現這種情況。但是這並不影響我們分析頭條首頁的超連結，基本上都不是本站的連接，說明頭條的廣告業務有點繁忙，當然這只是小編的猜測，萬一頭條有很多的功能變數名稱呢？

結束語：

如果喜歡這篇頭條，一定要收藏喲^O^

點擊關注，瞭解更多關於程式設計的知識^O^

如果有不懂的地方，可以留言，相互探討，相互學習，共同進步^O^