這兩天一直在學習Django框架下使用爬蟲來講爬取到的資料顯示在創建的web介面上, 學習之前, 首先簡單瞭解下Django,Django是一個開源的WEB框架由python編寫, Django的設計初衷就是為了WEB開發任務變得更加的方便和快捷。 Django的具體介紹就不再這裡提及, 想瞭解的可以去查看Django的中文文檔, 位址為:http://python.usyiyi.cn/django/index.html, 本文的環境是python2+pycharm。
簡單將本文思路介紹一下, 在安裝完Python2和Django後, 我們開始創建一個Django專案, 創建完專案後會生成一系列Django檔 , 之後使用我們的IDE:pycharm來編寫我們的網站, 網站的內容則使用爬蟲將電影天堂上的電影資訊爬取下來先存放在MySqL資料庫下,
從上面我們可以看到本次學習可分文兩個部分:1、使用爬蟲爬取資料存入資料庫中。 2、構建網站, 並將資料庫中的資料提取出來, 放到網站上。 由於篇幅原因本篇文章先講第一部分, 第二部分留待下次。
首先,
導入相關模組:
之後,
使用網站的URL,
獲得相關網頁的源碼並使用規則運算式來獲取目標連結和標題:
規則運算式:.:匹配除了定位字元和分行符號之外的任意字元。 *:前面的元字元出現任意次, 包括零。 +:前邊的元字元出現一次及以上
從獲取的網頁源碼中我們使用正則匹配來獲取我們想要的資料:內容,
連結
然後, 連接資料庫:
最後, 為了獲取多頁數據我們使用for迴圈:
到此, 代碼部分結束, 我們先來運行下看看結果如何:
可以看到, 我們爬取的資料顯示在了資料庫的表中了。 下一次, 將會將如何把資料庫中的資料放到Django框架創建的網頁中去。