您的位置:首頁>正文

基於分散式爬蟲框架,神箭手雲平臺想為企業提供一套資料獲取業務

根據IDC預計, 全球大資料市場規模在2019年將達到1870億美金; 而我國的人口紅利、流量紅利逐步消失, 也將迎來大資料領域的高速增長。 爬蟲技術作為爬取大資料的主要方式之一也備受重視, 但問題是, 對於不同網站抓取目標的描述或定義、對網頁或資料的分析與過濾都是不一樣的, 再加上目前頭部網站反爬嚴格, 因此一款靈活的爬蟲框架程式越來越被開發者所需要。

36氪今日接觸的神箭手雲平臺就提供分散式雲端通用爬蟲框架, 爬蟲程式更接近自然語言和普通使用者, 只需要在平臺註冊, 輸入需求就可以爬取相應的資料。

基於爬蟲程式, 神箭手有一塊爬蟲市場的業務, 市場上有社交資料、O2O資料、企業資訊資料等爬蟲採集, 使用者根據需要可以購買個人版和企業版, 區別在於節點個數, 節點越多爬取的速度越快。

關於應對反爬的措施, CEO 吳桐告知36氪, 神箭手買了180台代理伺服器, 一天能產生15萬個IP。 使用者購買爬蟲程式後, 只需自己開發調用函數, 代理這部分, 網站會詢問使用者是否需要代理IP。 但使用神箭手的IP必須在平臺上寫程式、用平臺的軟體才可以。

此外, 神箭手也識別驗證碼。 通常用戶都是借助協力廠商打碼平臺識別驗證碼, 要和協力廠商接入、自己寫代碼、充錢、找程式師對接。 神箭手平臺上的驗證碼識別方案需要使用者充錢即可,

平臺已自動接入協力廠商。

神箭手業務主要針對中型企業, 主要因為中型企業規模較小, 沒有完全解決代理IP問題, 神箭手是一套通用的SaaS體系, 支持WEBHOOK/RESTFUL等,控制和資料可接入企業, 成為企業的一個模組。 而大企業更多要求私有化部署, 這對於初創企業來說投入較大, 需要派遣很多人力進行現場實施和售後維護。 目前神箭手想要集中精力做線上, 希望首先解決通用需求積累經驗, 做好線上再做線下。

神箭手客戶有摸象大資料、信義立方、良品鋪子、超級星飯團、小紅唇等。

神箭手的盈利模式是根據其業務展開的。 首先是賣伺服器, 也就是賣計算資源, 稱之為節點。 一個節點79/月。 其次是代理IP, 個人代理39/月,

企業代理199/月, 海外代理299/月。 第三是驗證碼識別, 每驗證一次扣除0.01元。 第四是綜合以上的套餐服務, 根據爬蟲節點個數、代理IP種類不同等有499/月和1399/月兩種, 定製版需要具體詢價。  

和神箭手做同樣事情的有火車頭。 火車頭可以抓取網頁上散亂的資料資訊, 並通過一系列的分析處理挖掘出所需資料, 採集不限網頁。 神箭手和火車頭的區別在於, 神箭手面向什麼都懂或者什麼都不懂的用戶, 而火車頭面向的用戶正好處於兩者之間。 國外Web Scraping和神箭手做得事情比較相像。

神箭手目前團隊15人, 未來的目標是完善線上SaaS業務, 以及展開私有化部署。

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示