選自the Verge
作者:James Vincent
機器之心編譯
參與:Ellen Han、黃小天
威廉·吉布森(William Gibson)寫於 2010 年的小說《零歷史(Zero History)》中有這樣一個場景:一個角色穿著迄今為止「最醜陋的 T-shirt」展開了危險的突襲, T-shirt 可使其對閉路電視(CCTV)隱身。 在尼爾·斯蒂芬森(Neal Stephenson)的小說《雪崩(Snow Crash)》中, 一個點陣圖圖像被用來傳遞可擾亂駭客大腦頻率的病毒, 借助電腦增強的視覺神經以腐蝕目標者的心智。 諸如此類的故事形成了一種循環往復的科幻比喻:一張普通的圖像具有摧毀電腦的能力。
不管怎樣, 這個概念並非完全虛構。 去年, 研究者僅僅帶上花式眼鏡(patterned glasses), 一個商用面部識別系統就做出了錯誤識別。
帶有花式眼鏡的研究者以及人臉識別系統的對應識別結果。
這些類型的襲擊包含在被稱為「對抗機器學習(adversarial machine learning)」(之所以如此稱呼是由於對手之類的存在, 在該情況中, 對手是駭客)大量網路安全類別中。 在這一領域, 「最醜陋的 T-shirt」以及腐蝕大腦的點陣圖的科幻比喻表現為「對抗性圖像」或者「愚弄式圖像」, 但是對抗性襲擊具有形式, 如音訊甚至是文本。 2010 年早期, 大量的團隊各自獨立發現了這一現象的存在, 他們通常把可對資料進行分類的機器學習系統「分類器」作為目標, 比如穀歌圖片中的演算法可為你的照片打上食物、假期和寵物等標籤。
對於人而言, 愚弄式圖像就像是一個隨機的紮染圖案或者突發的電視噪點;但是對圖像分類器而言,
這些圖案可以各種方式繞過人工智慧系統, 並對未來的安全系統、工業機器人和自動駕駛汽車等需要人工智慧識別物體的領域有重大意義。 2015 年有關愚弄式圖像論文的聯合作者 Jeff Clune 告訴 The Verge:「想像一下你身處軍隊, 正在使用一個自動鎖定目標的武器系統, 你絕不希望敵人把一張對抗性圖像放在了醫院的樓頂, 系統鎖定並攻擊了醫院;或者你正在使用同一個系統追蹤敵人,
愚弄式圖像以及人工智慧識別的對應結果。
這些情節是假設的, 但卻非常具有可行性, 如果繼續沿著當前的人工智慧路徑發展。 Clune 說:「沒錯, 這是一個研究社區需要共同面對的大問題。
攝動可像 Instagram 濾鏡一般被用於圖像
有一類被研究者稱為「攝動(perturbation)」的對抗性圖像幾乎對人眼不可見, 它作為照片表面上的圖元漣漪(ripple of pixels)而存在, 並可像 Instagram 濾鏡一般被用於圖像。 這些攝動發現於 2013 年, 在 2014 年一篇名為「解釋和利用對抗性實例(Explaining and Harnessing Adversarial Examples)(連結:https://arxiv.org/abs/1412.6572)」的論文中, 研究者演示了攝動的靈活性。 攝動有能力愚弄一整套不同的分類器, 即使沒有被訓練來攻擊的分類器。 一項名為「通用對抗性攝動(Universal Adversarial Perturbations)(連結:https://arxiv.org/pdf/1610.08401v1.pdf)」改進研究通過成功地在大量不同的神經網路上測試攝動,使得這一特徵明確起來,上個月引起了眾多研究者們的關注。
左邊是原始圖像,中間是攝動,右邊被攝動的圖像。
使用愚弄式圖像黑進人工智慧系統有其局限性:第一,需要花費更多時間製作加擾的圖像,使得人工智慧系統認為其看到的是一張特殊的圖像而不是產生了隨機錯誤。第二,為了在起初生成攝動,你經常——但不總是——需要獲取你要操控的系統的內部代碼。第三,攻擊並不是一貫高效。就像論文「通用對抗性攝動」所述,在一個網路中成功率為 90% 的攝動也許在另外一個網路之中只有 50-60% 的成功率。(也就是說,如果一個存在問題的分類器正在指引一輛自動駕駛半式卡車,甚至 50% 的錯誤率都是災難性的。)
為了更好地防禦愚弄式圖像,工程師開始了「對抗性訓練」。這需要為分類器輸入對抗性圖像,從而讓分類器可以學習識別並忽略它們,就像保鏢通過臉面照片識別酒吧禁止入內之人。不幸的是,正如賓夕法尼亞州立大學畢業生 Nicolas Papernot(關於對抗性攻擊他寫了大量論文)所解釋的,在「計算密集型策略」面前,即使這種訓練也很脆弱(即,向系統輸入足夠的圖像,它最終仍會出錯)。
被攝動的圖像,以及對應的人工智慧識別的結果。
更困難的是,這類攻擊奏效或失敗的原因並不清晰。一種解釋是對抗性圖像利用一種被稱為「決策邊界」的特徵,其在很多人工智慧系統中都存在。這些邊界是不可見的規則,它們調控了系統如何判別,如,獅子和豹子之間的不同。一個很簡單的只區分這兩類動物的人工智慧項目將最終創造出一個意境地圖。想像在一個 X-Y 平面內:右上角分佈著所有該人工智慧系統見過的豹子,而左下角分佈著獅子。將這兩個部分分開的直線——獅子變成豹子,豹子變成獅子的邊界——稱作決策邊界。
Clune 說道,對於分類來說,決策邊界方法的難題是它太絕對,太武斷。「你對神經網路所做的所有事情僅僅是訓練它們在各類資料間畫線,而不是對它們建模以識別出它們代表了豹子還是獅子。」像這樣的系統可以通過一個確定的、用各種方式操作。為了愚弄獅子-豹子分析器,你可以拍一張獅子的照片並把它的特徵推到奇特的極端,但仍然讓它變現為正常的獅子:給它如同挖掘裝備的,和校車一般大小的爪子,以及如同燃燒的太陽一般的長鬃毛。對人類來說,這是無法識別的,但對一個檢查決策邊界的人工智慧系統來說,這只是一隻極端的獅子罷了。
據我們所知,對抗性圖像從未在真實世界形成過危害。但谷歌大腦的研究科學家,聯合著述了《解釋和利用對抗性實例》的 Ian Goodfellow 認為這種潛在的威脅從未被忽視。「研究社區,尤其是穀歌,正在嚴肅地對待這個問題,」Goodfellow 說道。「並且我們正努力致力於發展更好的防禦措施。」大量組織,如伊隆·馬斯克創立的 OpenAI,目前正在進行或發起關於對抗性攻擊的研究。目前的結論是暫時沒有新技術,但關於這些攻擊在真實世界中能造成多大威脅,研究者們並未達成共識。例如,已存在大量攻擊自動駕駛汽車的方法,它們並不依賴於計算複雜的攝動。
Papernot 認為,廣泛存在於人工智慧系統中的不足並不令人驚訝——分類器被訓練成「擁有好的平均表現,而並不總是針對最壞情況的表現——這是典型的從安全角度出發的觀點。」也就是說,比起它的平均表現,研究者較少擔心系統發生災難性的錯誤。「一種處理棘手的決策邊界的方法,」Clune 說道,「是使得影像分類器知曉它們無法分類什麼目標,而不是試圖將資料擬合進某一類。」
與此同時,對抗性攻擊也激發了更深層與概念化的思考。相同的愚弄式圖像可以擾亂穀歌、Mobileye 或 Facebook 獨立開發的人工智慧系統的「心智」,整體上揭示了當代人工智慧特有的不足。
「仿佛所有這些不同的網路圍坐一起,互相訴說為什麼這些愚蠢的人類認識不到這個噪點圖裡實際上是一個海星,」Clune 說道。「那相當有趣且神秘;所有這些網路都同意這些瘋狂和非自然的影像實際上屬於同類。那種程度的收斂真讓人驚訝。」
對 Clune 的同事 Jason Yosinski 來說,在愚弄式圖像上的研究表明人工智慧和自然界創造的智慧之間存在令人驚訝的共同點。他注意到人工智慧及它們的決策邊界所犯的同類錯誤也存在於動物世界中,在這裡動物們被「超常刺激」所愚弄。
這些刺激是自然界現象的人工版,慫恿動物違背它們的天性。這一行為首先於二十世紀五十年代被發現,當時研究者們用它使得鳥類忽視它們自己的蛋而更偏愛顏色更鮮豔的贗品,或者使得紅肚棘魚將垃圾當作競爭對手而進行爭鬥。只要有大的紅肚繪在垃圾上面,魚就將與其爭鬥。一些人曾認為人類成癮行為,如速食和色情文學,也是超常刺激的例子。鑒於此,人們可以認為人工智慧犯的錯誤是自然而然的。但遺憾的是,我們需要人工智慧有能力避免這些錯誤,表現得更好。
一項名為「通用對抗性攝動(Universal Adversarial Perturbations)(連結:https://arxiv.org/pdf/1610.08401v1.pdf)」改進研究通過成功地在大量不同的神經網路上測試攝動,使得這一特徵明確起來,上個月引起了眾多研究者們的關注。左邊是原始圖像,中間是攝動,右邊被攝動的圖像。
使用愚弄式圖像黑進人工智慧系統有其局限性:第一,需要花費更多時間製作加擾的圖像,使得人工智慧系統認為其看到的是一張特殊的圖像而不是產生了隨機錯誤。第二,為了在起初生成攝動,你經常——但不總是——需要獲取你要操控的系統的內部代碼。第三,攻擊並不是一貫高效。就像論文「通用對抗性攝動」所述,在一個網路中成功率為 90% 的攝動也許在另外一個網路之中只有 50-60% 的成功率。(也就是說,如果一個存在問題的分類器正在指引一輛自動駕駛半式卡車,甚至 50% 的錯誤率都是災難性的。)
為了更好地防禦愚弄式圖像,工程師開始了「對抗性訓練」。這需要為分類器輸入對抗性圖像,從而讓分類器可以學習識別並忽略它們,就像保鏢通過臉面照片識別酒吧禁止入內之人。不幸的是,正如賓夕法尼亞州立大學畢業生 Nicolas Papernot(關於對抗性攻擊他寫了大量論文)所解釋的,在「計算密集型策略」面前,即使這種訓練也很脆弱(即,向系統輸入足夠的圖像,它最終仍會出錯)。
被攝動的圖像,以及對應的人工智慧識別的結果。
更困難的是,這類攻擊奏效或失敗的原因並不清晰。一種解釋是對抗性圖像利用一種被稱為「決策邊界」的特徵,其在很多人工智慧系統中都存在。這些邊界是不可見的規則,它們調控了系統如何判別,如,獅子和豹子之間的不同。一個很簡單的只區分這兩類動物的人工智慧項目將最終創造出一個意境地圖。想像在一個 X-Y 平面內:右上角分佈著所有該人工智慧系統見過的豹子,而左下角分佈著獅子。將這兩個部分分開的直線——獅子變成豹子,豹子變成獅子的邊界——稱作決策邊界。
Clune 說道,對於分類來說,決策邊界方法的難題是它太絕對,太武斷。「你對神經網路所做的所有事情僅僅是訓練它們在各類資料間畫線,而不是對它們建模以識別出它們代表了豹子還是獅子。」像這樣的系統可以通過一個確定的、用各種方式操作。為了愚弄獅子-豹子分析器,你可以拍一張獅子的照片並把它的特徵推到奇特的極端,但仍然讓它變現為正常的獅子:給它如同挖掘裝備的,和校車一般大小的爪子,以及如同燃燒的太陽一般的長鬃毛。對人類來說,這是無法識別的,但對一個檢查決策邊界的人工智慧系統來說,這只是一隻極端的獅子罷了。
據我們所知,對抗性圖像從未在真實世界形成過危害。但谷歌大腦的研究科學家,聯合著述了《解釋和利用對抗性實例》的 Ian Goodfellow 認為這種潛在的威脅從未被忽視。「研究社區,尤其是穀歌,正在嚴肅地對待這個問題,」Goodfellow 說道。「並且我們正努力致力於發展更好的防禦措施。」大量組織,如伊隆·馬斯克創立的 OpenAI,目前正在進行或發起關於對抗性攻擊的研究。目前的結論是暫時沒有新技術,但關於這些攻擊在真實世界中能造成多大威脅,研究者們並未達成共識。例如,已存在大量攻擊自動駕駛汽車的方法,它們並不依賴於計算複雜的攝動。
Papernot 認為,廣泛存在於人工智慧系統中的不足並不令人驚訝——分類器被訓練成「擁有好的平均表現,而並不總是針對最壞情況的表現——這是典型的從安全角度出發的觀點。」也就是說,比起它的平均表現,研究者較少擔心系統發生災難性的錯誤。「一種處理棘手的決策邊界的方法,」Clune 說道,「是使得影像分類器知曉它們無法分類什麼目標,而不是試圖將資料擬合進某一類。」
與此同時,對抗性攻擊也激發了更深層與概念化的思考。相同的愚弄式圖像可以擾亂穀歌、Mobileye 或 Facebook 獨立開發的人工智慧系統的「心智」,整體上揭示了當代人工智慧特有的不足。
「仿佛所有這些不同的網路圍坐一起,互相訴說為什麼這些愚蠢的人類認識不到這個噪點圖裡實際上是一個海星,」Clune 說道。「那相當有趣且神秘;所有這些網路都同意這些瘋狂和非自然的影像實際上屬於同類。那種程度的收斂真讓人驚訝。」
對 Clune 的同事 Jason Yosinski 來說,在愚弄式圖像上的研究表明人工智慧和自然界創造的智慧之間存在令人驚訝的共同點。他注意到人工智慧及它們的決策邊界所犯的同類錯誤也存在於動物世界中,在這裡動物們被「超常刺激」所愚弄。
這些刺激是自然界現象的人工版,慫恿動物違背它們的天性。這一行為首先於二十世紀五十年代被發現,當時研究者們用它使得鳥類忽視它們自己的蛋而更偏愛顏色更鮮豔的贗品,或者使得紅肚棘魚將垃圾當作競爭對手而進行爭鬥。只要有大的紅肚繪在垃圾上面,魚就將與其爭鬥。一些人曾認為人類成癮行為,如速食和色情文學,也是超常刺激的例子。鑒於此,人們可以認為人工智慧犯的錯誤是自然而然的。但遺憾的是,我們需要人工智慧有能力避免這些錯誤,表現得更好。