python學習之爬蟲框架scrapy的專案結構

前面介紹了scrapy的基本知識和安裝方法後，今天主要寫寫scrapy的專案結構，我們使用如下的命令會創建一個名為scrapy_meizi的scrapy項目。

打開CMD，進入到我們想創建的項目所在的資料夾內，使用scrapy startproject scrapy_meizi,如圖：

我們進入到目錄下，看到創建的專案結構如下：

我們可以看到，在scrapy_meizi專案檔案夾下有scrapy_meizi資料夾和scrapy.cfg檔，其中scrapy.cfg檔中主要包含的是項目的相關設置。而在scrapy資料夾下我們可以看到：

Spiders資料夾：我們可以在Spiders資料夾下編寫我們的爬蟲檔，裡面主要是用於分析response並提取返回的item或者是下一個URL資訊，每個Spider負責處理特定的網站或一些網站。

__init__.py:項目的初始設定檔案。

items.py：通過檔的注釋我們瞭解到這個檔的作用是定義我們所要爬取的資訊的相關屬性。 Item物件是種容器，用來保存獲取到的資料。

middlewares.py:Spider中介軟體，在這個檔裡我們可以定義相關的方法，用以處理蜘蛛的回應輸入和請求輸出。

pipelines.py:在item被Spider收集之後，就會將資料放入到item pipelines中，

在這個元件是一個獨立的類，他們接收到item並通過它執行一些行為，同時也會決定item是否能留在pipeline，或者被丟棄。

settings.py:提供了scrapy元件的方法，通過在此檔中的設置可以控制包括核心、外掛程式、pipeline以及Spider元件。

至此，對於scrapy的基礎知識就先介紹到這，下次的文章，將會使用scrapy框架來爬取妹子圖網站的全網的妹子圖片。好東西一定要好好利用，允許我現在這邪惡下，嘿嘿。