ip池的加入;
爬取和解析效率的優化;
對爬取資料進行資料分析, 提供視覺化的統計和簡單預測;
其它反爬功能;
功能實現分析
明白了要完成的任務, 就需要開始分析我們的目標網站了。
1.網頁爬取分析
打開智聯招聘的搜索介面, 輸入 “ 爬蟲 ” 二字為例, 如下:
一個人自學很有可能因為動力不足而中途放棄, 可以嘗試加入一個或幾個適合自己的網路群體(QQ、 微信、 社區等),尋找志同道合的學習夥伴, 相互交流、相互促進.如果大家想要學習交流歡迎給我私信, 私信關鍵字: 01.02.03.04 都會得到不一樣的資料!系統堅持到關鍵字會自動發送。 分開發送!01或者02
然後我們通過fiddler抓包工具抓取流覽器操作時的資訊如下:
再看,另一條資料的標籤,是這樣的:
代碼實現分析
由於需要將解析後的資料存入資料庫,因此需要先在命令視窗創建一個資料庫(也可以在Python中完成),這裡簡單提一下所需的操作。
將重新生成的URL放入函數中進行html的下載。
3.html解析
(搜索關鍵字: 電子工程師 ,地理位置: 上海 )
(搜索關鍵字: 會計 ,地理位置: 深圳 )
(搜索關鍵字: 客戶經理 ,地理位置: 廣州 )
是不是還是蠻簡單的?
再看,另一條資料的標籤,是這樣的:
代碼實現分析
由於需要將解析後的資料存入資料庫,因此需要先在命令視窗創建一個資料庫(也可以在Python中完成),這裡簡單提一下所需的操作。
將重新生成的URL放入函數中進行html的下載。
3.html解析
(搜索關鍵字: 電子工程師 ,地理位置: 上海 )
(搜索關鍵字: 會計 ,地理位置: 深圳 )
(搜索關鍵字: 客戶經理 ,地理位置: 廣州 )
是不是還是蠻簡單的?