全國首例人工智慧技術犯罪案背後，你的個人資訊被最先盯上！

《攻殼機動隊》描述了大量機器技術深入發展的時代的犯罪形態，而早在《2010太空漫遊》，新如《異形：契約》中也都有大量對“不友好”的人工智慧的描述。當然這些都是對發展人工智慧的風險的揣測，但其實在初期人工智慧作為一種工具。雖然工具“本無善惡”，但當強大的人工智慧為惡人掌握的時候，其“惡能”也更為強大

AI 開始進入我們的生活，棲息在智慧音箱或者手機裡的它們，是能夠給你放音樂、陪聊天的助手，而在互聯網的灰色地帶裡，它們也正成為犯罪分子的幫兇。

關於上述案件的詳細介紹老男孩如下文：

今年 9 月，

浙江紹興警方公佈，破獲全國首例利用人工智慧技術竊取公民個人資訊的案件，截獲了 10 億余組公民個人資訊。被警方查封的平臺叫做「快啊」，曾經是市場上最大的打碼平臺。他們在破解、竊取、販賣和盜用個人信息實施詐騙有著完整的鏈條，其中人工智慧技術運用在識別驗證碼這個環節。

為什麼 AI 會先學習識別驗證碼？

一般而言，黑產最初盜取的帳號密碼資訊往往是「粗糙」的。但由於人們的同一個郵箱，通常也是多個網站的登陸帳號，同樣的密碼往往也在多個網站使用。因此黑產會通過利用已有的帳號密碼資訊，去批量嘗試這些帳號密碼能否在更多不同的平臺上登陸。（所以真的不要在多個網站使用同樣的密碼）這個過程被稱為「撞庫」，

而撞庫的過程中最主要的障礙就是各個網站設置的驗證碼。黑產使用的 AI，就是用來應對這些驗證碼的。為什麼 AI 會先學習識別驗證碼呢？我們先來解釋一下驗證碼是什麼。

當我們登陸網站、提交資訊時，總能遇上驗證步驟，

尤其是在 12306 上買票時，對那些圖片驗證碼真的是咬牙切齒。但事實上，驗證碼是各個網站用來對抗網路黑產惡意登陸等行為而設置的安全性原則。驗證碼的全名是「全自動區分電腦和人類的圖靈測試」，由卡內基梅隆大學的路易士 · 馮 · 安（Luis von Ahn）提出。圖靈測試，顧名思義，驗證碼的目的，是為了識別網路請求的發起方是人類，亦或是機器。因此早期的驗證碼就是網站提出一些問題，這些問題不能被機器破解回答，又得能夠被人類輕易答對。

網路黑產在撞庫時，他們就會將所遇到的海量驗證碼「打碼」任務，交給「打碼平臺」去完成。

網路黑產撞庫時，與打碼平臺是這樣合作的：首先黑產把已竊取的帳號密碼資訊導入到撞庫軟體，

撞庫軟體類比登錄協定，向互聯網公司的伺服器發送登錄請求。伺服器檢測到登錄異常時，會通過驗證碼來進行攔截；撞庫軟體將收到的驗證碼圖片發送給「打碼平臺」，請求將圖片轉化為字元。打碼平臺後臺破解驗證碼，將字元結果返回給撞庫軟體，完成撞庫流程，得到更多的使用者資訊。隨後這些資訊可能被販賣、用於詐騙犯罪等。

早期的打碼平臺，是通過眾包讓分佈在各地電腦前的打碼小工來完成的。後來進化到了「人工 + OCR 降維識別圖片」。隨著互聯網公司對驗證碼識別難度的升級，「人工 + OCR 降維識別圖片」的識別率在降低，因此像「快啊」這樣的打碼平臺就開始運用 AI 技術訓練機器，提高識別驗證碼的精度和效率。

隨著安全防護與破解入侵兩方面的抗衡日益升級，驗證碼的難度在增加，形式也在多樣化。從簡單的字母數位、算術題，到扭曲的字元、模糊的圖片，這些被歸類為知識性驗證碼；如今新一代的驗證碼已經開始向無知識型進化，例如 Google 的 reCAPTCHA，某些網站需要拖動滑條的驗證步驟。

機器學習的發展，讓字母、數位組成的知識性驗證碼被識別和破解的風險日漸增大，但這種驗證碼，依然是主流。據警方公佈，這次抓捕的團夥所使用和訓練的 AI，已經能夠識別出 98% 以上的驗證碼。

中國互聯網協會發佈的《中國網名權益保護調查報告 2016》顯示，在 2016 年，我國 6.88 億線民因詐騙短信、資訊洩露等造成的經濟損失約為 915 億元。全國平均每個人的個人資訊至少被洩露了 5 次。