Python網路爬蟲基本原理（2）

接上一篇原理

更新策略

互聯網是即時變化的動態性極強

網頁更新的策略主要是

更新策略分以下幾種供參考

分散式抓取系統結構

取系統需要面對的是整個互聯網上數以億計的網頁

單個抓取抓程式不可能完成這樣的任務

所以往往需要多個抓取程式一起來處理

一般來說抓取系統往往是一個分散式的三層結構

如圖

最下一層是分佈在不同地理位置的資料中心

在每個資料中心裡有若干台抓取伺服器

而每台抓取伺服器上可能部署了若干套爬蟲程式

這就構成了一個基本的分散式抓取系統。

然而對於一個資料中心內的不同抓取伺服器

協同工作的方式有幾種：

1.主從式

如圖

有一台專門的Master伺服器來維護待抓取URL佇列

它負責每次將URL分發到不同的Slave伺服器

Master伺服器除了維護待抓取URL佇列以及分發URL之外，還要負責調解各個Slave伺服器的負載情況

以免某些Slave伺服器過於清閒或者勞累。

2.對等式

如圖

學習過程中遇到什麼問題或者想獲取學習資源的話，歡迎加入學習交流群

626062078，我們一起學Python！