2 IDE
Anaconda Spider
3 如何正確的獲取半次元網頁內容3.1 https請求的user head參數的設置
3.2 cookie文件的讀取
bcy_cookie是一個物件
bcy_cookie.txt中的內容為:
3.3 request 讀取html內容並轉為soup物件
requests.get 獲取一個html物件, timeout是設置允許的最大時間延遲
BeautifulSoup 將html物件轉為可以被解析的soup物件, 採用html5lib解析
3.4 soup物件查找原始程式碼中的連接
注意應該查找source(原始程式碼)中作品連接入口,
elements是經過流覽器chrome載入js渲染後的dom, 所以對應的css class可能不一樣
# 得到所有的作品入口 all_work = gallery_soup.findAll('li',class_ = 'l-work-thumbnail')3.5 遍歷每一個all_work物件獲取標題和作品進入的連接
主函數中的步驟
#新建作品 WORK_FOLD_NAME = GALLERY_NAME + '' +str(top_index).zfill(3) + '_' + title mkdir(WORK_FOLD_NAME)3.7 點擊進入作品連接, 遍歷讀取所有的圖片
上面的buffering參數值得一說, 如果不加則直接從pic讀取持續寫入磁片中
如果圖片很大, 這種行為很傷磁片
所以需要設置一個緩衝區, 每從網路讀取4K大小才從記憶體寫入磁片
是不是超級漂亮呢!
是不是超級漂亮呢!