您的位置:首頁>正文

Python爬蟲工程師教你爬取最簡單(美女)的教程!3.6的完美教程

通過urllib.request.Request(Url)請求網站, BeautifulSoup解析返回的二進位內容, re.findall()匹配圖片位址

最終print(get_list)列印出了圖片位址的一個清單

3. 通過python調用, 下載圖片, 以下是Test_Down.py的內容

5. 分析:豆瓣圖片下載用比較簡單的爬蟲就能實現, 網站唯一的控制好像只有不能頻繁調用, 所以豆瓣不適合用多執行緒調用。 2018需要更多案例, 視頻。 PDF, 以及同行交流, 加上無償解答?那就加群:103456743 所有的東西一切免費領取, 自行下載!

可以看到下載成功, 改用requests.get方法獲取圖片內容, 這種請求方法方便設置標頭檔headers(urllib.request怎麼設置headers沒有研究過), headers裡面有個Referer參數, 必須設置為此圖片的進入位址, 從流覽器F12代碼可以看出來, 如下圖

此種方法只提供思路, 樓主找到的JS如下 OOXX.js, 實際調用報錯了, 這個方法應該會比方法二速度快很多, 所以還是貼上未完成代碼供讀者參閱研究

View Code

(2)通過Python的selenium調用Chrome的無頭流覽器(說明:低版本的Python可以用Phantomjs無頭流覽器, Python3.6是直接棄用了這個流覽器, 只好選擇Chrome)

用Chrome無頭流覽器需要Chrome60以上版本, 根據Chrome版本下載對應(下圖對面關係)的chromedrive.exe(說是好像Chrome60以上版本自帶無頭流覽器功能, 樓主沒有成功實現, 還是老老實實下載了chromedriver, 下載地址:http://chromedriver.storage.googleapis.com/index.html)

謝謝閱讀!如有侵權請聯繫小編刪除!

鎮樓

謝謝閱讀!如有侵權請聯繫小編刪除!

鎮樓

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示