華文網

雙十二來了,我爬取了淘寶上所有的羽絨服|想找到最大折扣

感謝關注天善智慧,走好資料之路↑↑↑

歡迎關注天善智慧,我們是專注于商業智慧BI,人工智慧AI,大資料分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!

閱讀本文大概需要3分鐘

天氣越來越冷,北方已經開始下雪了,而在南方的我此刻也凍著瑟瑟發抖,棉衣棉褲早就穿上了,還是取暖基本靠抖!明天就是雙十二了,我想買件羽絨服,於是我爬取了淘寶上所有的賣羽絨服的商家,看看折扣如何,有多少商家打折~~

1.工具選擇

淘寶的網站還是比較複雜的,我偷懶直接用了selenium取爬!現在爬蟲的工具是在是太多了,有很多協力廠商的資料獲取工具,甚至你不用寫一行代碼就可以輕鬆爬取幾千幾萬條的資料!

其實它也是集成了一些爬蟲的框架和常見的庫,只是做成了一個商務軟體封裝好了,你可以直接使用!我現在還是喜歡動手寫代碼來爬資料~~,以後快捷的話可以嘗試用一些工具去爬取!

2.網站分析

我們點擊關鍵字搜索"羽絨服"進行頁面搜索,發現有這樣一些漂亮的頁面

然後我審查元素,進行網站分析,發現大部分都是js代碼,動態載入的!不是非常好分析,如果你用request加cookies去爬取,爬的內容都是空的,為了簡單些,我直接用selenium模擬爬去.

3.爬取過程

整個的思路和爬取拉勾網有點類似,大概分下面幾個步驟:

1).安裝chrome和selenium庫

2).啟動chrome進入頁面輸入關鍵字"羽絨服"

3).出現搜尋網頁面之後,

找到總的頁數,進入下一頁

4).迴圈爬取每一頁的資料

5).存入json檔或者資料庫中

辛苦了半天我們看一下資料的樣子:

4.資料分析的幾個亮點

我一共爬取了4000多條羽絨服的資訊,下面是我分析的幾個關鍵資料:

1.只有6成的商家有折扣

參與雙十二的有2706家商戶,只有60%的商家打折.清一色的滿300減30

2.羽絨服的商家城市前10名

發現排名第一的是杭州,商戶的數量非常占了40%以上,非常厲害!其次就是蘇州.

3.國內和海外地區

發現海外也有一些羽絨服在賣,海淘果然無處不在,其中加拿大特別多,是不是因為那邊比較冷啊!

4.最貴和最便宜的羽絨服:

最便宜的是福建 泉州的一家只要49塊,最貴的是深圳的詩篇官方要7980塊,天價羽絨服!

5.男女羽絨服的比例

對資料進行簡單的過濾分析,發現有男款,女款和通用款三種類型:

女 2244 50.9%男 1924 43.6%其他 236 5%女款占了一半以上,女款還是比較多滴.

6.我最關心的價格和折扣:

基本價格在598,699的羽絨服非常多,其中598的打折滿300-30有66家,打折最多的是699的,有91家打折!最厲害的是1299的羽絨服裡面有50家打折,占了98%,也就是說1299的羽絨服幾乎全部打折!

本文作者:xinxin 菜鳥學python

歡迎關注天善智慧,我們是專注于商業智慧BI,人工智慧AI,大資料分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!

基本價格在598,699的羽絨服非常多,其中598的打折滿300-30有66家,打折最多的是699的,有91家打折!最厲害的是1299的羽絨服裡面有50家打折,占了98%,也就是說1299的羽絨服幾乎全部打折!

本文作者:xinxin 菜鳥學python

歡迎關注天善智慧,我們是專注于商業智慧BI,人工智慧AI,大資料分析與挖掘領域的垂直社區,學習,問答、求職一站式搞定!