您的位置:首頁>科技>正文

Python:爬取貓眼電影

分享

進階的

新手可以私聊我加我的群

貓眼電影專業版可以即時獲取電影的票房資料, 但我們要爬它卻不怎麼容易。 首先來看看, 難在哪裡?

2.png

在源碼中我們可以看到它網頁使用的是自己的字體。 我們無法通過源碼來爬取到想要的資料。

百度了一圈回來發現有人說自己去破解它網頁的字體, 但更多的人推薦使用截圖識別的方式。

這裡說一下思路

使用自動化測試工具selenium配合phantomJS將網頁截圖, 然後進行區域截圖獲得票房數位,利用pytesser進行數位識別。

先上selenium的代碼

剛開始進行圖片處理的時候, 截下來的圖是這樣的

3.png

然後我用pytesser嘗試對圖片識別

4.png

如果成功的話是print1031.35

結果卻是K

5.png

卡在了這裡, 不知道怎麼解決, 提高識別率。 由於工作比較繁忙, 我把這事擱置了兩個禮拜。 這兩天想起來, 就開始查資料。 找到了兩個思路, 一個是使用libSVM, 另一個是scikit-learn。 但兩個我都不懂。 而且我對pytesser還不死心, 就繼續折騰。 我嘗試了把圖片搞成黑白的去識別也不行。 最後我是把圖片放大了, 才成功識別的。 終於明白,

原來圖片太小是識別不了的。

6.png

4.png

成功了!!喲嘎達!!

稍微解釋一下代碼吧


為了方便大家讀代碼整理思路, 下面是完整的代碼

然後下一刻,我們來見證奇跡吧

7.png

對比下票房

學習過程中遇到什麼問題或者想獲取學習資源的話,歡迎加入學習交流群

626062078,我們一起學Python!

然後下一刻,我們來見證奇跡吧

7.png

對比下票房

學習過程中遇到什麼問題或者想獲取學習資源的話,歡迎加入學習交流群

626062078,我們一起學Python!

Next Article
喜欢就按个赞吧!!!
点击关闭提示