被眼睛欺騙這正是你比機器高明的地方！深度學習如何處理認知錯覺

大資料文摘作品

編譯：Zhifu、元元、錢天培

上圖中，深藍色的方塊是水準排列？還是上下傾斜呢？

上下滑動手機螢幕，讓這些方塊與你的螢幕對齊，

你會發現…

這些方塊居然是水準排列的！

實際上，這類視覺錯覺展示了人類感知世界的特殊方式，也是人類和目前深度學習認知的重要區別。

今天，我們就從這一不同出發，談談人類感知世界的機制，並由此暢想機器學習未來的發展方向。

回到上面這張圖片，為什麼這個錯覺如此有效？它為什麼能欺騙我們？

在上述的錯覺中，你會注意到每一個在條紋上交替出現的淺藍色和黑色方塊的組合元素，會在特定的方向上看起來小一些。

除此之外，你還會注意到：圖片中的深藍色條紋之間的線跟之前的相比，高度不太一樣。這兩個錯覺互相結合，形成了條紋在一直向上偏，或者向下偏的錯覺。

即便將這幅圖片旋轉了90度，

你仍然會發現淺藍色的方塊看起來的確是互相平行的。

這是因為深藍色的方塊總是看起來是一樣大，並且它們內部的線條也有一樣的長度。

和這一錯覺“一脈相承”的還有另外兩個視覺錯覺：

咖啡廳牆面上的錯覺觀察

http://www.richardgregory.org/papers/cafe_wall/cafe-wall.pdf

Akiyoshi Kitaoka的邊緣錯覺

http://www.psy.ritsumei.ac.jp/~akitaoka/tiltillusionreview2007.pdf

咖啡廳牆面上的錯覺，是牆面方磚之間用來填充的砂漿的亮度在黑色和白色之間的時產生的。

這個錯覺的效果是：每塊方磚同相鄰的方磚相比看起來會漸漸的變大（或者變小）

再來看看Akiyoshi Kitaoka的邊緣錯覺。

和Y型連接錯覺：

同樣，你會覺得這些實際水準的線，看起來歪了。

順便說一句，這個錯覺的效果在縱向也適用。

我們的大腦顯然並沒有將這幅圖片作為一個整體來看待。相反，它將圖像看待成若干圖像的組合，並且識別彼此之間的相鄰關係。為什麼鄰近關係對我們的視覺有如此強烈的影響？這是由於人類所具有的“直觀功能”，讓大腦更快地重建圖片。

換句話說，我們的大腦能夠瞬間識別圖形模式，促進我們對於場景的解讀。我們的視覺會自動發揮類似語義推斷的效果，確保大腦沒有忽視更高層次的語義規律。這就是為什麼無論我們怎麼說服自己線條確實是平行的，也不可能“看不見”這樣的錯覺。

這種影響在音訊領域上也有出現。有一個以科學家Roger Shepard命名的“謝潑德音調”聽覺錯覺，

由三組上升的音調組成，高音調強度逐漸降低，中音調的響度不變，而低音調會變得更響。

我們的大腦會誤以為這是兩組一直上升的音調。通過這個視頻我們可以更好的理解。

來聽一聽“謝潑德音調”聽覺錯覺吧！

這些關於視覺和聲學的錯覺向我們揭示了我們的大腦是如何感知世界的。我們的大腦感受到了聲音和圖片的內在相對關係，然後輸出一個基於趨勢的預測，即使這個趨勢並不存在。

你的大腦不能推翻它看到的規律，所以它會進行錯誤的預測。你可以繼續看上面的圖片，但是你不能忽略你看到的傾斜的線。如果你遠距離觀察圖片，或者從某一個角度看，你就能戰勝“直觀功能”的錯覺，從而正確找到圖片的規律。

為什麼相對大小如此重要？我們通常通過這些角度感知深度：物體重疊，比例縮小，大氣透視，垂直放置和線性透視。大腦利用上述這些來重建世界的三維表像。我們處在一個3D世界中，我們的感官可以理解這個世界並和其交互。

對物體三維結構的觀察是光學錯覺的來源，象棋盤陰影錯覺是一個著名的例子：

A和B其實顏色相同！

下面是另外一個錯覺實例。這個錯覺說明了我們的大腦需要充足的時間去正確重構其感知。

在上述的實驗中，當你關注圖片的中心時，你會注意到周邊視野看到的面部會變形。

這些圖片快速閃現，我們的大腦能看到兩幅圖片之間的相互干擾，但是還沒有快到讓我們能夠正確重構這張圖片。

實際上，深度學習網路完全捕捉圖像特徵。與此不同的是，生物大腦使用“直觀功能”（即快速和啟發學習）去構建模式和規率。

大腦依靠這些模式和規律來感知事物。深度學習採用一些忽視特定不變特徵的網路（例如ConvNets的翻譯）去進行專門的訓練。

深度學習網路沒有針對“直觀功能”進行的學習，而“直觀功能”是通向模式識別，進而通向語義解釋的必由之路。

為了達到在人類意義的視覺感知，我們必須訓練神經網路去學習一些基本的人類採用的圖像識別技巧，例如遮擋，透視和陰影。

為了說明深度學習系統的視覺感知跟人類有多大的不同，最近的一篇論文《調查人類在玩視頻遊戲時運用的經驗》研究了如何去除人類在玩遊戲時的“直觀功能”。

《調查人類在玩視頻遊戲時運用的經驗》

https://openreview.net/pdf?id=Hk91SGWR-

研究者修改了街機遊戲，重新渲染了遊戲中的紋理。在修改後的遊戲中，人類表現的非常糟糕。相比之下，深度學習系統在前後兩個遊戲中表現相當。

深度學習系統不需要使用人類的經驗，另外一方面，人類可以利用現有的經驗（或“直觀功能”），以較少次數的嘗試學習如何玩遊戲。這告訴我們人類利用經驗可以快速學習。

DeepMind心理實驗室致力於探索深度學習與人類視覺識別之間的差異。所進行的實驗包括很多人類和機器都可以操作的實驗。通過檢驗二者表現上的差異，我們可以瞭解兩個系統之間的認知差異。

DeepMind心理實驗室

https://deepmind.com/blog/open-sourcing-psychlab/

總的來說，DeepMind心理實驗室觀察到，人類採用了並行處理和連續處理相結合的手段，而機器只採用了並行處理。對比採用結合手段和只採用並行處理的機器的效率，發現前者更慢。

DeepMind在BioArxiv上發佈的另外一篇文章《將前額皮層看作元增強學習系統》提出，大腦使用兩種不同的強化學習系統。

《將前額皮層看作元增強學習系統》

https://www.biorxiv.org/content/early/2018/04/06/295964

通常認為，生物大腦中的強化學習是由多巴胺的釋放所驅動的。這就是獎勵驅動學習假說的標準模型。DeepMind提出，有兩個增強學習系統：一個基於標準的多巴胺模型，另一個位於前額葉皮層。前額葉皮層的學習受到了第一個系統的影響。標準的多巴胺模型儲存經驗（或“直觀功能”），並以此指導前額葉皮層的動態學習。

所以無論什麼時候我們看到了什麼，都是透過我們的經驗，這層“有色眼鏡”看到的。然而，正如你在上面的臉部的例子中看到的那樣，我們的大腦有個“認知過程”，試圖重建眼睛所看到的東西。

如果重建過程時間太短，認知過程就會出錯。我們的大腦始終採用啟發式方法。我們也發現啟發式方法在很多方面都會失敗。

認知偏見譜圖

Geoffrey Hinton和他的膠囊網路研究可能代表了正確的方向。在膠囊網路中，有兩個重要階段。第一階段是通過ConvNet識別物件的各個部分，第二階段投票演算法找出哪個構成部分更吸引感知系統的注意力。這個由目標識別和推論兩個階段構成的過程，似乎正在受到研究者們的關注。

Geoffrey Hinton膠囊網路研究論文：

https://arxiv.org/pdf/1710.09829.pdf

圖左（從上到下）：一個膠囊輸出向量，出現可能性，位置

圖右（從上到下）：路由膠囊層，主要膠囊層，輸入層

在20世紀80年代，超級電腦發展出現了一個新領域，這就是所謂的計算科學，它不同于現有的科學方法（即理論科學和實驗科學）。

計算科學通過電腦類比來探索物理系統。同樣的，深度學習研究正在滲透到神經科學和心理學領域。也就是說，當我們將我們的模擬與自己進行比較時，我們也逐漸開始瞭解人類認知的本質。

總的來說，深度學習的新興研究趨勢是我們開始更深入地挖掘人類感知的本質，並探尋它與深度學習認知的不同之處。

從深度學習研究人員的角度來看，僅僅理解數學和技術是不夠的，人們必須熟悉基本人類感知的特徵。

人們公認對抗性特徵對於深度學習來說是一個大問題，為了解決這樣的問題，我們需要理解為什麼這些問題對於人類認知來說不是問題。這正是Geoffrey Hinton試圖論述的。