您的位置:首頁>正文

cos類的小姐姐都超級美!教你用Python3爬取最美的小姐姐!養眼!

2 IDE

Anaconda Spider

3 如何正確的獲取半次元網頁內容

3.1 https請求的user head參數的設置

3.2 cookie文件的讀取

bcy_cookie是一個物件

bcy_cookie.txt中的內容為:

3.3 request 讀取html內容並轉為soup物件

requests.get 獲取一個html物件, timeout是設置允許的最大時間延遲

BeautifulSoup 將html物件轉為可以被解析的soup物件, 採用html5lib解析

3.4 soup物件查找原始程式碼中的連接

注意應該查找source(原始程式碼)中作品連接入口,

elements是經過流覽器chrome載入js渲染後的dom, 所以對應的css class可能不一樣

# 得到所有的作品入口 all_work = gallery_soup.findAll('li',class_ = 'l-work-thumbnail')

3.5 遍歷每一個all_work物件獲取標題和作品進入的連接

主函數中的步驟

#新建作品 WORK_FOLD_NAME = GALLERY_NAME + '' +str(top_index).zfill(3) + '_' + title mkdir(WORK_FOLD_NAME)

3.7 點擊進入作品連接, 遍歷讀取所有的圖片

上面的buffering參數值得一說, 如果不加則直接從pic讀取持續寫入磁片中

如果圖片很大, 這種行為很傷磁片

所以需要設置一個緩衝區, 每從網路讀取4K大小才從記憶體寫入磁片

是不是超級漂亮呢!

是不是超級漂亮呢!

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示