您的位置:首頁>正文

回家的低價票難搶?可能是被“爬蟲”吃了

不到兩個月, 2018年春節要來了。

“今年我得早下手, 搶張回家的低價機票。 ”在北京打工的小王對科技日報記者說, 由於老家在雲南, 春節機票太貴, 他都選擇坐兩天兩夜的火車回去, 長途跋涉, 苦不堪言。

↑視覺中國

然而, 就在小王摩拳擦掌, 準備使出“洪荒之力”搶張便宜機票時, 看到網上曝出這樣一則消息:航空公司放出的低價機票, 80%以上被票務公司的“爬蟲”搶走, 普通用戶很少能買到。

小王傻眼了, “爬蟲”究竟是什麼鬼?它又是怎麼搶機票的?難道就沒有辦法治理嗎?

借助超連結資訊抓取網頁

“‘爬蟲’技術是實現網頁資訊採集的關鍵技術之一, 通俗來說, ‘爬蟲’就是一段用來批量、自動化採集網站資料的程式, 幾乎不需要人工干預。 ”北京理工大學網路科學與技術研究院副教授閆懷志告訴科技日報記者。

閆懷志介紹, “爬蟲”又稱網頁“蜘蛛”、網路機器人, 它是一種按照一定規則自動抓取網頁資訊的程式或者腳本,

通常駐留在伺服器上。 在Web網頁中, 既包含可供使用者閱讀的文字、圖片等資訊, 還包含一些超連結資訊。 網路“爬蟲”正是借助這些超連結資訊來不斷抓取網路上的其他網頁。

“這種資訊採集過程很像一個爬蟲或蜘蛛在網路上漫遊, 網路‘爬蟲’或網頁‘蜘蛛’因此得名。 ”閆懷志說, “爬蟲”最早應用在搜尋引擎領域, 比如穀歌、百度、搜狗等搜尋引擎工具每天需要抓取互聯網上數百億的網頁, 它們需要借助龐大的“爬蟲”集群來實現搜索功能。

當前, “爬蟲”已被廣泛用於電子商務、互聯網金融等諸多領域。 比如, “爬蟲”可以抓取航空公司官網的機票價格, 發現低價或緊俏機票後, “爬蟲”可以利用虛假客源的真實身份資訊實現搶先預訂。

再有, 很多互聯網流覽器都推出了自己的搶票外掛程式, 以高訂票成功率來推廣流覽器。

根據抓取任務和目標的不同, 網路“爬蟲”可大致分為批量型、增量型和垂直型。 批量型“爬蟲”的抓取範圍和目標較為明確, 可以是網頁的設定數量, 也可以是消耗時間的設定。 增量型“爬蟲”主要用於持續抓取更新的網頁, 以適應網頁的不斷變化。 垂直型“爬蟲”主要是用於特定主題內容或特定行業的網頁。

“爬蟲”究竟是如何搶票的

此前, 線上票務服務公司攜程的“反爬蟲”專家在技術分享中透露, 某網站的一個頁面, 每分鐘的流覽量是1.2萬, 真實用戶只有500個, “爬蟲”流量占比為95.8%。

採訪中, 很多業內人士也表示,

即使在“爬蟲”活動的淡季, 虛假流量也占到訂票網站總流量的50%, 高峰期更是在90%以上。

那麼, “爬蟲”究竟是如何實現搶票的呢?對此, 閆懷志解釋, 主要是機票代理公司利用“爬蟲”技術, 不斷抓取航空公司售票官網網頁資訊, 如果發現該航空公司有低價票放出, “爬蟲”即刻利用虛假客源身份進行批量預定但不實際支付, 以達到搶佔低價票源的目的。 由於“爬蟲”的效率遠遠超過正常的手動操作, 導致通過正常操作幾乎無法搶到票。

隨後, 機票代理公司會通過其自身銷售管道(包括公司網站、線上旅行社、客戶電話訂購等)找到真正的客源, 在航空公司允許的賬期內, 退訂此前使用虛假客源身份預定的低價票, 然後使用真實身份資訊進行訂購,

最後實現該低價票的加價轉售。

如果未在航空公司規定的賬期內找到真正客源, 機票代理公司會在訂單失效前再追加虛假身份訂單, 繼續“霸佔”該低價票, 如此反復, 直至找到真正客源售出為止。

“上面的操作流程就構成了完整的機票銷售鏈條。 在這個過程中, 航空公司售票系統允許在賬期內反復訂、退票的規定為機票代理公司利用‘爬蟲’搶票並加價獲利提供便利。 這種搶票方式, 被稱為技術‘黃牛’。 ”閆懷志強調。

的確, 有業內人士表示, 這些“爬蟲”流量消耗了大量的機器資源, 卻不產生任何消費, 這是每個公司最痛恨的東西。 但是, 因為怕誤傷真實用戶, 各家公司的“反爬蟲”策略做得非常謹慎。

採用一定手段“爬蟲”可防可控

任何事情都有兩面,“爬蟲”技術也不例外。

在閆懷志看來,“爬蟲”既可為正常的資料批量獲取提供有效的技術手段,也可被惡意使用以獲取不當利益。如果“爬蟲”技術被不正當利用,就會帶來一定的危害。

首先,威脅資料安全。航空公司售票網站資料被惡意爬取,資料可能會被機票代理公司惡意利用,而且還存在被同業競爭對手獲取的風險。

其次,導致系統性能下降,影響用戶體驗。“爬蟲”大量的抓取請求會導致航空公司售票網站伺服器資源負載上升、性能下降,網站回應變慢甚至無法提供服務,對使用者搜索和交易體驗造成負面影響。但由於存在巨大的灰色利益空間,同時“反爬蟲”技術在與“爬蟲”對抗中作用有限,使得這種顯失公平的“作弊”方式成為擾亂機票市場秩序的技術“頑疾”。

“從技術角度來看,阻擊‘爬蟲’可以通過網站流量統計系統和伺服器訪問日誌分析系統。”閆懷志說,通過流量統計和日誌分析,如果發現單個IP訪問、單個session訪問、User-Agent資訊超出設定的正常頻度閾值,則判定該訪問為惡意“爬蟲”所為,將該“爬蟲”的IP列入黑名單以拒絕其後續訪問。

再就是設置各種訪問驗證環節。比如,在可疑IP訪問時,返回驗證頁面,要求訪問者通過填寫驗證碼、選取驗證圖片或者字元等方式實現驗證。如果是惡意“爬蟲”爬取,顯然很難完成上述驗證操作,進而可以封鎖該“爬蟲”的訪問,防止其惡意爬取資訊。

互聯網空間不能有“灰色地帶”

當前,雲計算、大資料等為代表的新一代資訊技術處在高速發展階段。

“上述新技術如果被非法或者不當應用,則會產生嚴重的危害。互聯網空間安全需要建立健全完善的保護體系,絕不能‘裸奔’。”閆懷志說。

2017年6月1日,我國網路安全法正式實施,明確了各方在網路安全保障中的權利與責任。這是中國網路空間治理和法制建設從量變到質變的重要里程碑,這部法律作為依法治網、化解網路風險的法律重器,成為我國互聯網在法治軌道上健康運行的重要保障。

然而,目前對於高科技“黃牛”倒票行為,尚未有明確規定,使得惡意爬取資訊並不當獲利行為處在法律法規監管的“灰色地帶”。

閆懷志介紹,國際上,針對“爬蟲”應用,專門制訂了Robots協定(即“爬蟲”協定、網路機器人協定等)。該協定全稱為“網路爬蟲排除標準”,網站可通過該協議告知“爬蟲”可以爬取哪些頁面及其資訊,不能爬取哪些頁面及其資訊。該協定作為網站和“爬蟲”的溝通方式,用來規範“爬蟲”行為,限制不正當競爭。

作為國際互聯網界通行的道德規範,該協定的原則是:“爬蟲”及搜索技術應服務於人類,同時尊重資訊提供者的意願,並維護其隱私權;網站有義務保護其使用者的個人資訊和隱私不被侵犯。這就規定了爬取者和被爬取者雙方的權利和義務。

一位不願具名的法律專家也表示,“反爬蟲”不僅要依靠技術防範和業界自律,還應該通過完善管理和法律法規手段來約束這種行為,尤其是法律手段才能彰顯懲治力和震懾力。航空公司也要完善賬期管理,不給“爬蟲”搶票提供機會。(記者付麗麗)

採用一定手段“爬蟲”可防可控

任何事情都有兩面,“爬蟲”技術也不例外。

在閆懷志看來,“爬蟲”既可為正常的資料批量獲取提供有效的技術手段,也可被惡意使用以獲取不當利益。如果“爬蟲”技術被不正當利用,就會帶來一定的危害。

首先,威脅資料安全。航空公司售票網站資料被惡意爬取,資料可能會被機票代理公司惡意利用,而且還存在被同業競爭對手獲取的風險。

其次,導致系統性能下降,影響用戶體驗。“爬蟲”大量的抓取請求會導致航空公司售票網站伺服器資源負載上升、性能下降,網站回應變慢甚至無法提供服務,對使用者搜索和交易體驗造成負面影響。但由於存在巨大的灰色利益空間,同時“反爬蟲”技術在與“爬蟲”對抗中作用有限,使得這種顯失公平的“作弊”方式成為擾亂機票市場秩序的技術“頑疾”。

“從技術角度來看,阻擊‘爬蟲’可以通過網站流量統計系統和伺服器訪問日誌分析系統。”閆懷志說,通過流量統計和日誌分析,如果發現單個IP訪問、單個session訪問、User-Agent資訊超出設定的正常頻度閾值,則判定該訪問為惡意“爬蟲”所為,將該“爬蟲”的IP列入黑名單以拒絕其後續訪問。

再就是設置各種訪問驗證環節。比如,在可疑IP訪問時,返回驗證頁面,要求訪問者通過填寫驗證碼、選取驗證圖片或者字元等方式實現驗證。如果是惡意“爬蟲”爬取,顯然很難完成上述驗證操作,進而可以封鎖該“爬蟲”的訪問,防止其惡意爬取資訊。

互聯網空間不能有“灰色地帶”

當前,雲計算、大資料等為代表的新一代資訊技術處在高速發展階段。

“上述新技術如果被非法或者不當應用,則會產生嚴重的危害。互聯網空間安全需要建立健全完善的保護體系,絕不能‘裸奔’。”閆懷志說。

2017年6月1日,我國網路安全法正式實施,明確了各方在網路安全保障中的權利與責任。這是中國網路空間治理和法制建設從量變到質變的重要里程碑,這部法律作為依法治網、化解網路風險的法律重器,成為我國互聯網在法治軌道上健康運行的重要保障。

然而,目前對於高科技“黃牛”倒票行為,尚未有明確規定,使得惡意爬取資訊並不當獲利行為處在法律法規監管的“灰色地帶”。

閆懷志介紹,國際上,針對“爬蟲”應用,專門制訂了Robots協定(即“爬蟲”協定、網路機器人協定等)。該協定全稱為“網路爬蟲排除標準”,網站可通過該協議告知“爬蟲”可以爬取哪些頁面及其資訊,不能爬取哪些頁面及其資訊。該協定作為網站和“爬蟲”的溝通方式,用來規範“爬蟲”行為,限制不正當競爭。

作為國際互聯網界通行的道德規範,該協定的原則是:“爬蟲”及搜索技術應服務於人類,同時尊重資訊提供者的意願,並維護其隱私權;網站有義務保護其使用者的個人資訊和隱私不被侵犯。這就規定了爬取者和被爬取者雙方的權利和義務。

一位不願具名的法律專家也表示,“反爬蟲”不僅要依靠技術防範和業界自律,還應該通過完善管理和法律法規手段來約束這種行為,尤其是法律手段才能彰顯懲治力和震懾力。航空公司也要完善賬期管理,不給“爬蟲”搶票提供機會。(記者付麗麗)

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示