科技日報 張佳星
近日, 有消息說美國史蒂文斯理工學院開發出的人工智慧可猜對25%的密碼。 AI已經學會猜密碼了?如果真是這樣, 你還敢用“6個0”“6個8”這樣簡單的密碼嗎?網路還有安全可言嗎?
一些事之所以聳人聽聞, 是因為不明所以。 為此, 科技日報記者帶著消息請教了中國科學院軟體研究所可信計算與資訊保障實驗室主任張振峰, 請他詳細講講。
破解的是口令不是密碼
講正題前, 插個花絮。 單口相聲大王劉寶瑞存世的經典作品裡有個《黃半仙》, 這位“半仙”撚動須髯, 算得出村裡張媽的戒指丟在哪,
那麼, 問題來了, 用於AI深度學習的基礎資料庫從哪兒來?這個技術會不會造成網路安全危機呢?
“先糾正一個概念, ”張振峰說, “這則消息裡說的密碼, 更準確地說是口令(password), 而不是學術上密碼學(cryptology)中研究的密碼。 ”
它們最直觀的區別是“字串長度”, 口令一般十幾個字元, 字元組成的所有可能可以被“窮舉”, 而一代RSA密碼演算法就有1024位元, “窮舉”在計算上是不可行的。 打個不太恰當的比喻, 攻破口令要踹開的是一扇門, 而攻破密碼是要征服一座迷宮。
“現在還沒有研究表明AI能破解密碼演算法。 ”張振峰說, “密碼”被業界認為是互聯網的基礎設施, 一個國際標準的商用密碼是非常複雜的, 裡面包含複雜的密碼演算法, 凝結了研究人員多年的智慧, 很難通過學習基礎資料倒推其中規律,
AI領軍人物、深圳先進技術研究院副院長湯曉鷗表示, AI很長時間以內是無法超越人類智慧的, 也就是說它無法像人類一樣進行創造性的腦力勞動。 儘管這樣的研究也在進行中, 例如“穀歌大腦”專案, 正是要開發出一款類比人腦的軟體。
猜對25%是怎樣的成績
這次不少報導標題都提到了“25%”的準確率, 例如“準確率居然達到25%”“準確率逆天的25%”, 潛臺詞是“25%”是個高不可攀的準確率, 那事實是不是這樣呢?
張振峰說:“AI獨立猜測成功的比例不到12%, 破解軟體HashCat可以做到將近23%, 這個25%是AI和HashCat兩種方法相結合得到的數字。 ”
此外, 單從準確率是“25%”判斷它是否有效果是片面的。
可見, 25%既不說明AI嘗試4次就能猜對一次口令, 也不說明它破解了1/4人群的口令,
“25%說明AI在一定程度上提高了傳統工具猜測密碼的能力, 對於口令強度測試具有積極作用。 ”張振峰說。
360網路攻防實驗室負責人林偉告也持類似觀點, 他認為該研究可以加速破解口令的人工程式設計進程, 或者用來測試口令的強度。
可供AI學習的資料猛增引擔憂
那麼AI破解口令, 是怎麼做到的呢?
原消息中提到, 團隊讓一個人工智慧程式利用數千萬個洩露的密碼來學習如何生成新密碼。
資料顯示, 2016年, 全球已知的使用者資料洩露有40億之多。 2017年, 這個資料可能更多。 “猛增有可能是以前的存量, 因為很多伺服器的資料洩露, 自己並不知情, ”張振峰說, “或者即便知道,自己也不願意主動公佈。”
“也有可能是攻擊手段越來越多導致的。”張振峰說。名噪一時的“永恆之藍”背後,是網路攻擊武器庫的洩露。有消息稱,這些攻擊武器是在明碼標價銷售的。駭客獲得更多的尖端攻擊手段,可能是資料洩露猛增的另一個原因。
“暗網上有很多賣資料的,但並不一定是剛剛被洩露的,有可能有時間差,”張振峰說,“比如,有可能是5年前拿到的資料,因為偷盜的資料也不會是我們認為的‘明碼’,而是伺服器變換處理過的,還需要解密。”
無論何種原因,值得擔憂的是,“艾半仙”能用來學習的基礎資料越來越多。
“半仙”是如何修煉的
破解口令,目前大致有暴力攻擊、啟發式攻擊、概率猜測等方式。
張振峰一一解釋:暴力攻擊是最原始的方法,把所有的可能都試一遍,電腦的計算能力越強大,破解越快;啟發式攻擊,也叫字典攻擊,是根據洩露的口令進行分析,把規律“編寫”成“字典”,並結合矯正規則進行猜測,用於攻擊的“字典”不同,攻擊的方式就不同,同等硬體條件下,字典越好,越快破解;概率猜測基於人們設置密碼時,有著和自然語言類似的分佈特徵,通過資料集計算其概率分佈,有些字元組合用的頻率高,猜測就准。諸如國內線民最常用的25組密碼,密碼管理公司KeeperSecurity公佈的2016年最常用的25個密碼等就是這一類猜測依據的“冰山一角”。
AI破解口令是深度學習的一種應用,“它屬於一種啟發式方法,基於資料集來猜測口令,”張振峰說,“看起來還沒有得到實戰驗證,只要使用者在資料洩露之後及時修改自己的口令。”
那麼,AI是如何進行口令猜測的呢?
有一個形象的比喻能說明這個過程。AI神經網路由大量“感知機”相互連接構成。感知機類似於生物神經系統中的神經元。它並非生來就具備強大的功能,而且需要訓練才能掌握技能。例如希望神經網路通過西瓜的外形判斷瓜的甜度,一開始AI並不懂如何去判斷,這時就需要分別把西瓜的外形和對應的甜度輸入神經網路,訓練它學習兩者的對應關係。訓練過程實際上是通過學習資料來調整每一個感知機參數的過程。
神經網路讀取資料樣本後,感知機們會先根據現有模型參數進行計算,然後把輸出的值與真實值進行比較,再將兩者的差距回饋回去,以調整參數。經過反復多次“計算—比對—回饋—調整”的迴圈後,AI就能判斷個八九不離十了。
但是,實際中,很多時候訓練資料的真實結果資訊難以獲得——比如不能把每個瓜切開嘗嘗。這就用到了消息中美國史蒂文斯理工學院團隊利用的“生成對抗網路”,巧妙避開“無法即時核實密碼”這個問題。簡單地說,研究團隊設計出兩個對抗的系統互相修煉,把獲得資料一分為二,一部分用於生產,另一部分用於核驗。通過訓練,一個系統就像做贗品的畫院學生練成了畫家,另一個系統用“核驗”資料充當“鑒定師”。
“但這些的基礎都是源自已有的資料,這些資料是離線的,該消息中所用資料來自於2010年洩露的資料集合,其口令是明碼存儲在伺服器上,而且長度不超過10個字元。”張振峰說。
文中圖片除注明外均來自網路
“或者即便知道,自己也不願意主動公佈。”“也有可能是攻擊手段越來越多導致的。”張振峰說。名噪一時的“永恆之藍”背後,是網路攻擊武器庫的洩露。有消息稱,這些攻擊武器是在明碼標價銷售的。駭客獲得更多的尖端攻擊手段,可能是資料洩露猛增的另一個原因。
“暗網上有很多賣資料的,但並不一定是剛剛被洩露的,有可能有時間差,”張振峰說,“比如,有可能是5年前拿到的資料,因為偷盜的資料也不會是我們認為的‘明碼’,而是伺服器變換處理過的,還需要解密。”
無論何種原因,值得擔憂的是,“艾半仙”能用來學習的基礎資料越來越多。
“半仙”是如何修煉的
破解口令,目前大致有暴力攻擊、啟發式攻擊、概率猜測等方式。
張振峰一一解釋:暴力攻擊是最原始的方法,把所有的可能都試一遍,電腦的計算能力越強大,破解越快;啟發式攻擊,也叫字典攻擊,是根據洩露的口令進行分析,把規律“編寫”成“字典”,並結合矯正規則進行猜測,用於攻擊的“字典”不同,攻擊的方式就不同,同等硬體條件下,字典越好,越快破解;概率猜測基於人們設置密碼時,有著和自然語言類似的分佈特徵,通過資料集計算其概率分佈,有些字元組合用的頻率高,猜測就准。諸如國內線民最常用的25組密碼,密碼管理公司KeeperSecurity公佈的2016年最常用的25個密碼等就是這一類猜測依據的“冰山一角”。
AI破解口令是深度學習的一種應用,“它屬於一種啟發式方法,基於資料集來猜測口令,”張振峰說,“看起來還沒有得到實戰驗證,只要使用者在資料洩露之後及時修改自己的口令。”
那麼,AI是如何進行口令猜測的呢?
有一個形象的比喻能說明這個過程。AI神經網路由大量“感知機”相互連接構成。感知機類似於生物神經系統中的神經元。它並非生來就具備強大的功能,而且需要訓練才能掌握技能。例如希望神經網路通過西瓜的外形判斷瓜的甜度,一開始AI並不懂如何去判斷,這時就需要分別把西瓜的外形和對應的甜度輸入神經網路,訓練它學習兩者的對應關係。訓練過程實際上是通過學習資料來調整每一個感知機參數的過程。
神經網路讀取資料樣本後,感知機們會先根據現有模型參數進行計算,然後把輸出的值與真實值進行比較,再將兩者的差距回饋回去,以調整參數。經過反復多次“計算—比對—回饋—調整”的迴圈後,AI就能判斷個八九不離十了。
但是,實際中,很多時候訓練資料的真實結果資訊難以獲得——比如不能把每個瓜切開嘗嘗。這就用到了消息中美國史蒂文斯理工學院團隊利用的“生成對抗網路”,巧妙避開“無法即時核實密碼”這個問題。簡單地說,研究團隊設計出兩個對抗的系統互相修煉,把獲得資料一分為二,一部分用於生產,另一部分用於核驗。通過訓練,一個系統就像做贗品的畫院學生練成了畫家,另一個系統用“核驗”資料充當“鑒定師”。
“但這些的基礎都是源自已有的資料,這些資料是離線的,該消息中所用資料來自於2010年洩露的資料集合,其口令是明碼存儲在伺服器上,而且長度不超過10個字元。”張振峰說。
文中圖片除注明外均來自網路