接上一篇原理
更新策略
互聯網是即時變化的動態性極強
網頁更新的策略主要是
更新策略分以下幾種供參考
分散式抓取系統結構
取系統需要面對的是整個互聯網上數以億計的網頁
單個抓取 抓程式不可能完成這樣的任務
所以往往需要多個抓取程式一起來處理
一般來說抓取系統往往是一個分散式的三層結構
如圖
最下一層是分佈在不同地理位置的資料中心
在每個資料中心裡有若干台抓取伺服器
而每台抓取伺服器上可能部署了若干套爬蟲程式
這就構成了一個基本的分散式抓取系統。
然而對於一個資料中心內的不同抓取伺服器
協同工作的方式有幾種:
1.主從式
如圖
有一台專門的Master伺服器來維護待抓取URL佇列
它負責每次將URL分發到不同的Slave伺服器
Master伺服器除了維護待抓取URL佇列以及分發URL之外, 還要負責調解各個Slave伺服器的負載情況
以免某些Slave伺服器過於清閒或者勞累。
2.對等式
如圖
學習過程中遇到什麼問題或者想獲取學習資源的話, 歡迎加入學習交流群
626062078, 我們一起學Python!