華文網

深度長文:關於AI,你最該瞭解可也許從沒想過的四個問題

雷鋒網按:人工智慧在當今社會被討論的如此火熱,但是仔細一想,你可能甚至並不知道它的基本運行邏輯。

人工智慧和機器學習是一回事嗎?人工智慧是不是能解決所有的問題?如果不是的話,

人工智慧到底能解決哪些問題?又怎樣區分這些問題?對人工智慧來說,哪些事情是真正困難的?人工智慧給社會到底帶來了哪些挑戰?

日前Medium知名博主Yonatan Zunger發佈了關於人工智慧的深度長文,可以說是一篇不可多得的、深度與趣味性俱佳的最佳科普。雷鋒網在不改變原意的情況下為您做如下編譯:

在過去的幾年裡,我們一直在討論人工智慧(AI)將如何拯救或摧毀世界:自駕車有利於保護我們的生命;社交媒體泡沫將破壞民主;機器烤麵包機會讓人類連烤麵包的能力都喪失。

你可能很清楚,這其中的一些是無稽之談,一些是真實的。但是,如果你沒有深入地沉浸在這個領域,可能很難分辨孰真孰假。

雖然對於想要學習人工智慧程式設計的人來說,互聯網上有大把的啟蒙教程,但對於不想成為軟體工程師或者資料專家的人來說,卻缺乏對於人工智慧的概念的瞭解,以及它所面臨的社會上和倫理學上的挑戰。

如果全社會真的要討論人工智慧,我們就需要解決這個問題。所以今天我們要談談人工智慧的現實:它能做什麼,不可能做什麼,未來可能可以做些什麼,以及它帶來的一些社會、文化和道德方面的挑戰。

我不會涵蓋每一個可能的挑戰;其中的一些,譬如泡沫和虛假資訊,大的需要一整篇文章來解釋。但是,我會給你們足夠的例子說明我們所面臨的真正的問題,你們就能夠獨立提出自己的問題。

我先給大家劇透一下:大多數最難的挑戰不是來自於技術。人工智慧最大的挑戰往往始於,它迫使我們程式設計時不得不非常明確地表達我們的目標,

幾乎沒有別的事情會這樣——而有的時候,我們並不想對自己說實話。

1人工智慧和機器學習

在寫這篇文章時,我將或多或少地使用術語“人工智慧”(AI)和“機器學習”(ML)。這兩個術語意味著幾乎相同的東西,原因很愚蠢:因為從歷史上來說,“人工智慧”差不多被定義為“任何電腦還無法做到的事情”。多年來人們爭辯說,下象棋需要真正的人工智慧,類比對話需要真正的人工智慧,

或者識別圖像需要真正的人工智慧;每次這些事情實現了一個,人工智慧的邊界又隨之移動。 “人工智慧”這個詞語太可怕了,它與我們人類定義自己的方式以及那些讓人類與眾不同的東西靠的太近。所以在某些時候,專業人士會使用“機器學習”這個術語來進行整個對話,然後就卡住了。但它從來也沒有真正卡住,(這個地方不知道咋翻,要不就刪了算了這句話)如果我只是談論“機器學習”,聽起來會顯得特別機械——因為即使是專業人士,也總是更多的在談論人工智慧。

那麼讓我們先來談談機器學習或人工智慧到底是什麼。從最嚴格的意義上說,機器學習是“預測統計學”領域的一部分,就是建立一個系統,它能夠獲取過去發生的事情的資訊,並且利用這些建立一個關於相關環境的某種模型,用來預測在其他情況下可能發生的事情。簡單來說就像“當我把車輪轉向左邊,車子也往左轉”那樣簡單,往難來說,就像試圖瞭解一個人的整個生活和品味一樣複雜。

您可以使用這張圖片來瞭解每個AI的功能:

有一個可以感知世界的感測器系統(sensor) —— 這些系統可以是從攝像機和LIDAR到查看文檔的網路爬蟲的任何東西。還有一些其他的系統適用於這個環境,比如開車,或者按照分類顧客展示廣告。有時候,這個系統是一台機器,有時候是一個人,他必須根據一些很複雜或者太大的事情做出決定,一下子又思考不了那麼多—— 比如說整個互聯網的內容。

要把兩者聯繫起來,你需要一個盒子,能夠提取對這個世界的認知,並且提出一些建議,告訴你如果採取各種行動,可能會發生什麼。中間那個盒子叫做“模型(Model)”,就好比一個“這個世界是如何工作的模型”,那個盒子就是人工智慧的一部分。

上面的圖表中還有一些別的的單詞,如果你聽專業人士討論AI時你可能會聽到它們。 “特徵(Feature)”只是對原始認知的一些昇華,包括模型的設計者認為有用的那部分認知。在有些AI系統中,特徵只是原始的認知—— 例如,攝像機的每個圖元所看到的顏色。如此大量的特徵對於AI來說是有益的,因為它不會對什麼重要什麼不重要有任何先入之見,但是又使得AI本身更難構建;僅僅在過去的十年左右,建立足夠大的電腦來處理這個問題才變得可能。

“預測(Prediction)”就是另一端會產生的結果:當你給模型展示一些特徵時,它通常會給你一堆可能的結果,以及它對每個結果的可能性的最佳理解。如果你想讓一個人工智慧做出決定,那麼就應用一些規則 —— 例如,“挑選最有可能成功的人”,或者“挑選最不可能導致災難性失敗的人”。對系統而言,權衡可能的成本和收益,重要性不亞於模型本身。

現在,你可以想像一個非常簡單的“模型”,它給出了針對用途的具體規則:例如,舊蒸汽機上的機械調節閥是一種簡單的“模型”,一端讀取壓力,如果這個壓力超過某個設定點推杆,它會打開一個閥門。這是一個簡單的規則:如果壓力高於設定值,打開閥門;否則,關閉閥門。

這個閥門非常簡單,因為它只需要參考一個輸入,並做出一個決定。如果它必須依賴於成千上萬甚至數百萬輸入的資訊來決定一些更複雜的東西——比如如何控制一輛汽車(取決於你的所有視覺,聽覺等等),或者哪個網頁可以給你關於樹袋熊養殖的問題提供最好的答案(這取決於你是一時興起還是專業的脊椎動物爭論者,以及該網站是由愛充滿激情的愛好者所創辦,還是只是想賣給你廉價的樹袋熊壯陽藥)——你會發現這個比較很不簡單,有數百萬,甚至數千萬資訊需要決定。

AI模型的特別之處在於們是專門為此而設計的。在任何人工智慧模型裡面都有一系列的規則來綜合所有特徵,每一個特徵都依賴於數百數千甚至數百萬個單獨的按鈕,告訴它在不同情況下如何權衡每個特徵的重要性。例如,在一種叫做“決策樹”的人工智慧模型中,模型看起來像是一個關於Yes/No問題的巨樹。如果人工智慧的工作是從三文魚中分出金槍魚,那麼第一個問題可能是“圖像的左半部分比右半部分更暗”,而最後一個問題大概是“根據之前的374個問題的答案,這個正方形中的平均顏色是橙色還是紅色?“這裡的“按鈕”是詢問問題的順序,以及每個問題的”是“和”否“之間的界限是什麼。

魔法在於:不可能找到一個能夠可靠地分辨鮭魚和金槍魚的正確問題組合。有太多了。所以,始時,AI運行在“訓練模式”。AI被展示一個又一個的例子,每次調整它的旋鈕,以便更好地猜測接下來會發生什麼,在每次錯誤之後自我糾正。它所看到的例子越多,不同例子越多,它從偶然性中找到關鍵的能力就越強。一旦它被訓練,旋鈕的值是固定的,模型可以連接到真正的執行器使用。

ML模型對比人類做同樣任務的優勢不是速度;一個ML模型通常需要幾毫秒來作出決定,人大概也需要這麼多時間。 (你在開車的時候一直如此)。他們的真正優勢是,他們不會覺得無聊或分心:一個ML模型可以在不同的資料片斷上連續做數百萬或數十億次決定,既不會把資料弄得更好也不會更糟。這意味著你可以將它們應用於人類不擅長的問題——比如為單個搜索排名數十億的網頁,或駕駛汽車。

人類駕駛汽車非常糟糕,2015年僅美國就有35,000人因車禍死亡。這些車禍中的絕大多數是由於分心或駕駛員失誤造成的——人們通常做得很好,但在某一次關鍵時刻卻失誤了。駕駛需要巨大的專注和快速反應能力,你可能認為也可以做到,但糟糕的是,它需要這種能力持續保持幾個小時,事實證明,我們實際上做不到。)

當某個人談論在專案中使用AI時,他們的意思是將專案分解成上面繪製的圖,然後構建正確的模型。這個過程首先收集訓練的例子,這通常是最困難的任務;然後選擇模型的基本形狀(即“神經網路”,“決策樹”等),這些都是針對不同問題的基本模型),並進行訓練;然後,最重要的是弄清楚什麼是壞的,並對其進行調整。

例如,看下面的六張圖片,找出前三張和後三張的關鍵區別:

如果你猜“前三張都有地毯”,那麼你猜對了!當然,如果你猜前三張是灰貓的照片,後面三張是白貓的照片,你也是對的。

但如果您使用這些圖像來訓練您的灰貓探測器,那麼當模型嘗試對您的訓練圖片進行評分時,您可能會獲得優異的表現,但在現實工作中這模型表現會很糟糕,因為模型實際學到的是“灰貓就是地毯上一些類似貓形狀的東西。“

當你的模型學習到了訓練資料的特質,但卻不是你真正關心的東西的時候,這叫做“過擬合”。構建ML系統的人大部分時間都在擔心這個問題。

2人工智慧擅長什麼,不擅長什麼

現在我們已經談論了AI(或ML)是什麼,接著讓我們來談談它究竟是有用還是無用。

如果你想要實現的目標和實現這些目標的手段都能夠很好的理解,這種問題就不需要人工智慧。例如,如果您的目標是“將車輪上的所有螺母擰緊到100英尺磅”,你只需要一個能夠擰緊和測量扭矩的機構,並在扭矩達到100時停止擰緊。這稱為“扭矩扳手”,如果有人給你提供一個人工智慧的扭矩扳手,你要問他們的第一個問題是我為什麼需要這個。 這些降低了AI的閾值,你需要的只是一個簡單的機制。

人工智慧能幫助解決的問題是:目標是明確的,但實現目標的手段不明確。在以下情況最容易解決:

可能的外部刺激的數量是有限的,所以模型能夠瞭解它們

你必須控制的事物數量是有限的,所以你不需要考慮過多選擇範圍

刺激或者要做的決定數量很大,你不能直接寫下規則並且區分開來

能夠很容易的把一個動作連接到外部的一個可觀察的結果,因此你可以很容易地弄清楚什麼奏效,什麼無效。

這些東西實際上比看起來更難。例如,現在拿起一個你旁邊的物體——比如我去拿一個空的汽水罐。現在再慢一點做一次,看你的手臂是怎樣運作的。

我的胳膊快速地沿肘部轉動,將我的手從鍵盤上水準移動到離罐子幾英寸的垂直位置,然後迅速停止。然後它向前移動,同時把手掌打開的比罐頭大一點,以比第一個動作慢得多但是其實還是很快的速度,直到我看到我的拇指在我的其他手指的對面,儘管事實上我的其他手指被罐子遮住了視線。然後我的手指合攏,直到遇到阻力立即停下。然後手臂開始抬起,這一次從肩膀起(保持肘部固定)保持握緊,無限地收緊,直到手牢固地握住罐子但又不使罐子變形。

事實上,我們走路而不會臉朝地摔倒就是一件很驚人的事情,雖然看似平常。下一次你走過房間時,要注意你的確切路徑,每次你彎曲或移動你的身體,或者把你的腳放在不在面前的別的任何地方。“運動規劃”這個問題在機器人技術中是非常困難的。

這是非常艱難的任務之一,我們的大腦付出了比其他事情多兩倍的專注來做這件事。這使我們完成的看起來比實際上容易得多。同屬此類的其他任務還有面部識別(你可能不知道,我們的大腦的視覺功能大部分不是用於通用視覺,而是專門用於識別臉部的),理解單詞,識別3D物件,以及不碰到障礙物。我們認為這些並不難,因為它們對我們來說是非常直觀的,但是它們之所以這麼簡單,是因為我們有專門的器官組織專門負責而且擅長做這些。

對於這一系列狹窄的任務,電腦做得很糟糕,並不是因為他們表現的比在其他類似的任務上差,而是因為人類在直覺上非常擅長這些,所以對“可接受性能”的基線非常高。如果我們的大腦中沒有一大塊專注於認識面孔,那麼我們看人就會像看犰狳一樣——現在電腦正是如此。

相反,人類聯結的方式又使得電腦就很容易的顯得足夠智慧了。例如,人類的大腦有線連接認為,或多或少活躍的事物事實上就是有生命的。這意味著與人類進行令人信服的對話並不需要總體上理解語言,只要你或多或少的能把話題保持在焦點上,人類就會自動糾正任何不清楚的東西,這就是語音助理能成功的原因。最著名的例子是ELIZA,一個1964年的模仿羅傑亞心理治療師的“人工智慧”,它會理解你的句子,讓你更多地講述各種各樣的事情,如果感到困惑,它就會退後一步回到“跟我說說你的母親吧”這樣的安全問題上,雖然這只是一個笑話,但人們表示確實在交談之後感覺好了一點。

為了理解上述的最後一個問題 ——當你很難把你的直接行動和後果聯繫起來的時候—— 可以考慮學習玩視頻遊戲。行動的後果是非常明顯的:當你應該轉彎的時候你就要轉彎,如果撞到牆上,遊戲就結束。但是當你更擅長比賽之後,你會開始意識到“糟糕,我錯過了一個提升,五分鐘內我要完了”,並且可以預見到更久之後的後果。你必須花很多時間去理解遊戲的機制,然後去理解其中的連接。AI也有同樣的問題。

我們談到了目標和手段都很清楚的情況,以及目標清楚但手段不清楚的情況。還有第三個類別的情況,AI根本無法説明:那就是,連目標本身沒有被很好地理解。畢竟,如果你不能給AI一堆好的和壞的解決方案的例子,那麼它能從中學到什麼?

我們隨後會再談這些問題,因為到底哪些問題屬於這個範疇,往往是最棘手的道德問題出現的地方。實際上很多時候情況是,要麼我們不知道“成功”的真正含義(在這種情況下,你怎麼知道你是否成功了?),或者更糟的是,我們知道 ——但是不想真正對自己承認。電腦程式設計的第一條規則是,他們不善於自我欺騙:如果你想要他們做某件事,你必須向他們解釋你想要的東西。

在我們開始談論道德之前,這裡有另外一種方法去分析AI的好壞。

最容易的是在可預測的環境中有明確的目標。譬如一台攝像頭監測著一條裝配線,它知道汽車很快就會出現,目標是識別到車輪。

相對較難的情況是在不可預測的環境中有一個明確的目標。自動駕駛汽車就是一個很好的例子:目標可以直接描述(從A點安全到B點而且速度合理),但是環境則可能包含許多意外。人工智慧在過去幾年剛剛發展到可以向這些問題發起衝擊的地步,因此我們研究自駕車或自駕飛機等問題。

另一種難題是在可預測的環境中實現一個間接目標。在這種情況中環境是可預測的,但是行為和目標之間的關係是非常遙遠的——就像玩遊戲一樣。這是我們近期取得巨大進步的另一個領域,人工智慧能夠完成以前難以想像的事情,比如Alpha Go在圍棋比賽中取勝。

贏得棋盤遊戲本身並不是很有用,但它卻打開了在不可預知的環境中實現目標的道路,比如計畫你的財務組合。這是一個比較棘手的問題,我們還沒有取得重大進展,但是我希望我們能夠在未來十年內把這些做好。

最後還有一種最難的情況:目標不明確的情況。AI根本無法解決這些問題;如果你不能告訴它你想做什麼,你就無法訓練系統。寫小說可能就是一個例子,因為沒有一個明確的答案是什麼使某本書成為“好的小說”。另一方面,這個問題有一些具體部分目標可以定義——例如“寫一本小說,如果像恐怖片一樣銷售,就能賣得好。這種對AI應用到底好還是不好,就留待讀者的智慧判斷。

3 倫理與現實世界

現在我們可以開始看看問題的真諦:那些AI的成敗能夠產生重大影響的難題是什麼樣的?還在不斷出現一些什麼樣的問題?

我可以很容易地給出一大串答案,但我們沒有覆蓋這個領域每一個有趣的問題,甚至沒法覆蓋大多數的問題。但是我給你們舉了六個例子,這些例子幫助我思考了很多,它們主要的幫助不在於給了我正確的答案,但是他們幫助我提出了正確的問題。

(1).乘客和行人

一個自駕車正在穿過一座狹窄的橋,這是一個小孩突然在它前面跑出來。停下來已經太遲了;這個汽車能做的只有要麼前進,將小孩撞飛,或者轉彎,把自己和乘客送到下面的奔流河裡。它應該怎麼做?

這個問題在過去幾年已經被公開討論過了,這個討論是非常明智的,展示了我們真正需要問的問題。

首先,整個問題有一個很大的漏洞:這個問題在實踐中出現的概率很小,因為自動駕駛汽車的重點在於,他們一開始就不會涉足這種情況。孩子很少突如其來出現,大多數情況下這種情況發生時,要麼因為駕駛員的反應不夠快,無法處理從他障礙物後面跳出來的孩子,要麼駕駛員出於某種原因分心,注意到孩子的時候已經太遲了。這些都是自動駕駛不存在的問題:自動駕駛一次查看所有信號,連續數小時都不會感到無聊或分心。像這樣的情況將變得非常罕見,這就是自動駕駛能夠拯救生命的來源。

但是“幾乎從不”與“絕對不會”是不一樣的,我們不得不承認有時會發生這種情況。當它發生時,車應該做什麼?應該優先考慮乘客還是行人的生命?

這不是一個技術問題:而是一個政策問題。這和我們今天生活的世界有很大的不同。如果你問人們在這種情況下會怎麼做,他們會給出各種各樣的答案,並用各種各樣的“取決於當時情況”來限制這個答案。事實是,我們不想做這個決定,我們當然不想公開承認我們的決定是要保護自己的孩子。當人們真的處於這種情況下,他們的回應就會在地圖上出現。

在文化上來說,我們有一個答案:在這個瞬間,在你看到迎面而來的災難和事件發生的那一瞬間,我們認識到我們不能作出理性的決定。我們最終會讓司機對他們的決定負責,並且認為這是不可避免的,不管他們做了什麼決定。 (雖然我們可能會讓他們為之前做出的決定負責任,比如超速駕駛或駕駛醉酒)。

有了自駕車,我們沒有這個選擇;程式設計在字面上有一個空格,它現在要求我們在事故發生的幾年之前就給它答案:“當發生這種情況時,我該怎麼辦?我應該如何減輕乘客的風險,以免對行人造成危險?”

它會按照我們告訴它的做。電腦程式設計的任務要求我們對自己想要的決定保持殘酷的誠實。當這些決定影響整個社會時,比如在這種情況下,這意味著作為一個社會,我們面臨著同樣艱難的抉擇。

(2)、禮貌性編造

機器學習模型有一個非常討厭的習慣:他們會學習資料顯示給他們的東西,然後告訴你他們學到了什麼。 他們頑固地拒絕學習“我們所希望的世界”,或者“我們喜歡宣稱的世界”,除非我們明確地向他們解釋那是什麼——即使我們喜歡假裝我們沒有這樣做。

2016年年中,高中生卡比爾·艾力(Kabir Alli)試圖在Google上搜索“三個白人青少年”和“三個黑人青少年”,結果甚至比你想像的還要糟糕。

“三個白人青少年”展現了迷人的、運動型的青少年身影; “三名黑人青少年”顯示了三名黑人青少年被捕的新聞報導中的照片。 (現在,搜索結果大部分都是關於這個事件的新聞報導)

這裡並不是因為Google演算法中的偏見:而是底層資料的偏見。這種特殊的偏見是“無形白人主義”和媒體報導的偏見的結合:如果三名白人青少年因犯罪被捕,不僅新聞媒體不太可能展示他們的照片,而且也不太可能特意提出他們是“白人青少年”。事實上,幾乎所有的青少年群體都被明確地標注為“白人”,從攝影產品目錄可以看出。但是,如果三名黑人青少年被捕,你可以找到在上面提到的新聞報導中出現的那句話。

許多人對這些結果感到震驚,因為他們似乎與我們這個“忽視種族”社會的國家觀念不一致。 (請記住,這是在2016年中)但基本的資料是非常明確的:當人們用高品質的圖像在媒體上說“三個黑人青少年”時,他們幾乎總是把他們作為罪犯在談論,當他們談到“三個白人青少年“,幾乎都是廣告攝影。

事實上,這些偏見確實存在於我們的社會中,而且它們幾乎反映在你看到的任何資料上。在美國,如果你的資料沒有顯示某種種族傾向,那麼很可能你做錯了什麼。如果你通過不讓種族成為模型的輸入特徵來手動地“忽略種族”,它會通過後門進入:例如,某人的郵遞區號和收入可以非常準確地預測他們的種族。一個將之不視為種族因素的ML模型,以及被要求預測我們社會中的事實上與種族相關的東西的ML模型,很快就會將其視為“最好的規則”。

人工智慧模型在我們面前舉起一面鏡子,他們不明白我們什麼時候不想誠實。他們只會禮貌性編造,如果我們告訴他們如何提前撒謊的話。

這種誠實會迫使你必須非常明確。最近的一個例子是在一篇關於“文字去除”的技術論文中。是關於一個非常受歡迎的叫做word2vec的ML模型,它學習了英語單詞含義之間的各種關係——例如,“國王對男性,女王對女性。”該論文作者發現,模型包含了不少社會偏見的例子:例如“電腦程式師對男人來說就像家庭主婦對女人一樣。”作者在該論文中提出了一種一種消除性別偏見的技術。

該論文的許多偶然性讀者(包括許多撰寫關於它的新聞文章的人)看不到的是,並沒有一種自動化的方式能消除偏見。模型的整個程式是相當合理的:首先,他們分析單詞兩個詞向量模型,找到沿著他/她軸線(性別軸線)對立性分開的單詞組。接下來,他們要一組人辨別哪些對應關係是有道理的(例如,“男孩對男人/女人對女人是對的”),以及哪些對應關係中代表了社會偏見(譬如程式師對男人/家庭主婦對女人)。最後,他們運用數學技術從整個模型中去除了帶有偏見的片語,留下了一個改進後的模型。

這項工作是很好的,但重要的是要認識到,確定哪些男性/女性分化應該被刪除的關鍵步驟是人為的決定,而不是一個自動的過程。它要求人們從字面上識別他們認為哪些片語的對應關係是合理的,哪些不合理。而且,原來的模型衍生出這些分化是有原因的。它來自對來自世界各地數以百萬計的書面文本的分析。原來的詞向量對應關係準確地捕捉到了人們的偏見;清理後的模型準確地反映了評估者認為哪些偏見應該被刪除的偏好。

這其中展現出的危險是“自然主義的謬誤”,當我們混淆“應該是什麼”和“其實是什麼”的時候,這種謬誤就會發生。如果我們想用模型來研究人們的看法和行為,原本的模型是合適的;如果我們想用模型來生成新的行為並將某些意圖傳達給其他人,修改後的模型是適當的。說修改後的模型更準確地反映了世界是什麼樣的,那是不對的;說因為這個世界某種程度上是什麼樣,那麼它就該是那樣,那也是不對的。畢竟,任何模型的目的——人工智慧或智力——都是要做決定。決定和行動完全是關於我們希望這個世界是什麼樣子的。如果不是這樣,我們根本就不會做任何事情。

(3).大猩猩事件

2015年7月,當我擔任Google社交工作(包括照片)的技術負責人時,我收到了Google同事的一個緊急資訊:我們的照片索引系統公開把一個黑人和他的朋友的照片描述成為“大猩猩, “他有理由憤怒。”

我立即回應,大聲做出保證之後,給團隊打電話,公開回應說這是很不好的。團隊採取行動,禁用了違規表徵以及其他幾個有潛在風險的表徵,直到他們能夠解決潛在的問題為止。

許多人懷疑,這個問題與六年前惠普的臉部攝像機不能在黑人身上工作的問題是一樣的:“面孔”的訓練資料完全是由白人組成的。我們開始也這麼懷疑,但是我們很快就排除了這個原因:訓練資料包括各種種族和膚色的人。

其真正原因是三個微妙的問題的交集。

第一個問題是人臉識別很難。不同的人臉看起來對我們來說截然不同,那是因為我們的大腦中有很大一部分隻專注於識別人臉; 我們已經花費了數百萬年的時間來改進這個功能。但是如果你注意比較兩個不同面孔的差異,把這個差異和兩把不同的椅子之間的差異相比,你會發現面孔的相似性比你想像的要大得多——甚至是跨物種之間。

事實上,我們發現這個錯誤並不是孤立的:這個照片索引系統也容易把白種人的臉誤認為是狗和海豹。

第二個問題是問題的真正核心:ML系統在其自己的領域非常聰明,但除非教導它,否則對於更廣泛的世界一無所知。而當它試圖考慮所有的圖片可能被識別的物件時——這個AI不僅僅識別人臉——沒有人想到要向它解釋黑人因為被歧視而長期被比作猿人。這種背景使這個錯誤非常嚴重,而將小孩錯誤地認定為一隻海豹則只是一件趣事罷了。

這個問題沒有簡單的答案。在處理涉及人類的問題時,錯誤的代價通常與極其微妙的文化問題聯繫在一起。這並不是說很難解釋,而是很難提前想到它們。

這個問題不僅僅體現在人工智慧上,也表現在人們要在不同文化中做出價值判斷。一個特別的挑戰來自於,當在網上發現騷擾和濫用行為的時候。這些問題幾乎完全由人類來處理,而不是由人工智慧來處理,因為即使是制定人類用來判斷這些事情的規則都是非常困難的。我曾在Google花了一年半的時間來制定這樣的規則,認為這是我所面臨的最大的智力挑戰之一。

即使有團隊提出規則,由人類而不是AI來執行它們,文化障礙也是一個巨大的問題。印度的評論家不一定具有關於美國的種族歧視的文化背景,在美國的人也不一定有印度文化背景。但世界各地的文化數量是巨大的:你怎樣以任何人都可以理解的方式來表達這些想法?

從中學到的教訓是:系統中最危險的風險通常不是來自系統內部的問題,而是來自系統與更廣泛的外部世界互動時意想不到的方式。我們還沒有一個好方法來管理這些。

(4)、不幸的是,人工智慧會按你說的做

人工智慧的一個重要用途是幫助人們做出更好的決策:不是直接執行某個操作,而是告訴人們推薦哪一個,從而幫助他們做出一個好的選擇。尤其當這些選擇具有高風險時,這是最有價值的。但真正影響這個長期結果的因素,對於人們來說並不是很明顯。事實上,如果沒有明確有用的資訊,人類可能會輕易地採納無意識的偏見,而不是真正的資料。這就是為什麼許多法院開始使用自動化的“風險評估”作為他們量刑指引的一部分。

現代風險評估是ML模型,負責預測未來犯罪的可能性。如果你拿一個地區的法院歷史的全部語料來訓練模型,可以形成一個令人驚訝的清晰的展現,告訴你誰是潛在危險分子。。

如果你到目前為止一直在仔細閱讀,你可能會發現一些方法來實現這個目標,這些方法可能會非常可怕,非常錯誤。正如2016年ProPublica揭露的那樣,然而這正是全國各地發生的事情。

佛羅里達州布勞沃德縣使用的系統COMPAS系統的設計者,遵循了最佳實踐原則。他們確保他們的訓練資料沒有人為地偏袒某個群體,例如確保所有種族的人都有相同的訓練資料。他們將種族排除在模型的輸入特徵之外。只有一個問題:他們的模型並沒有預測出他們認為該預測的事情。

量刑風險評估模式應該提出的問題是,“這個人將來犯下嚴重罪行的概率是多少,以此作為你現在給他們的刑罰的一個函數。”這要同時考慮到這個人以及刑罰帶給他未來生活的影響:是否會導致永遠監禁他們?釋放他們之後會不會沒有機會得到一個平穩的工作?

但是我們沒有一道在每次犯罪的時候都會熄滅的魔法之光,我們也當然沒有那種例子:一個人一次同時接受了兩種不同的刑罰結果產生兩種不同的後果。 因此,COMPAS模型是通過對真實的、難以獲得的資料的類比來進行培訓的:根據我們在判刑時所得知的一個人的資訊,這個人將被定罪的概率是多少? 或者用兩個人來對比:“這兩個人哪一個最有可能在將來被定罪?”

如果你對美國政治有一點瞭解的話,你可以立即回答這個問題:“黑人!”黑人比白人更可能被在路上截住,被逮捕,定罪並給予比白人更長的刑期。所以忽略其他絕對事實死亡情況下,一個查閱歷史資料的ML模型,如果預測一個黑人被告在未來更有可能被定罪,結合歷史來看肯定是相當準確的預測。

但是,這個模型被訓練的方法和它的真正用途不相符合。它被訓練回答“誰更可能被定罪”,問它的卻是“誰更有可能犯罪”,沒有人注意到這是兩個完全不同的問題。

這裡顯然有很多問題。其一是法院對待AI模型太過依賴,將其作為衡量判決的直接因素,跳過人的判斷,比任何模型本可以提供的保證還要自信。另一個問題當然是這暴露出的基本的、系統性的種族主義:同樣的罪行下黑人更有可能被逮捕並被定罪。

但是這裡有一個關於ML的特定問題值得注意:你想測量的數量和你可以測量的數量之間經常有差異。當兩者存在差異的時候,你的ML模型能夠很好的預測你所測量的數量,而不是它其實代表的數量。在相信你的模型之前,你需要非常仔細地理解這些相似和不同。

(5).人是一個合理化的動物

在機器學習的討論中有一個新的熱門話題:“解釋權”。意思是,如果ML被用來做任何重要的決定,人們有權理解這些決定是如何做出的。

直覺上,這似乎是顯而易見且有價值的想法——然而,當ML專業人員提到這一點時,他們的臉色立刻就變了,他們想要解釋這個要求事實上是不可能的。

為什麼會這樣?

首先,我們應該明白為什麼很難做到這一點;第二,更重要的是,我們應該明白為什麼我們期望它容易做到,為什麼這個期望是錯誤的。第三,我們可以看看對此可以做些什麼。

早些時候,我將ML模型描述為數百至數百萬個旋鈕。這個比喻對實際模型的複雜性來說並不公平。例如,現代基於ML的語言翻譯系統一次只能輸入一個字母。這意味著模型必須在閱讀了大量的字母之後,對其中的文本理解狀態進行表述,以及每個連續的下一個字母如何影響其對意義的解釋。

對於模型遇到的任何情況,它所做的唯一“解釋”是:“好吧,後面的幾千個變數是這樣的狀態,然後我看到字母“c”,這應該改變了用戶在談論狗的概率...

不僅僅你無法理解這一點,ML研究人員也是難以理解的。 ML系統的調試是該領域最難的問題之一,因為在任何時候檢查變數的個體狀態然後向你解釋這個模型,就像測量一個人的神經潛能然後將會告訴你他們吃晚飯的時間差不多。

然而 ——這是第二部分——我們總是覺得我們可以解釋我們自己的決定,而且是人們期望的那種解釋。 “考慮到它們的FICO分數中位數,我把這個抵押貸款的利率設定為7.25%。”他們期望它說:“如果Experian的FICO分數高了35分,那麼這個分數就會下降到7.15%。” ,“我建議我們聘請這個人,因為他們在我們的面試中清晰地解釋了機器學習。”

但是每個認知或行為心理學的人都知道一個黑暗的秘密:所有這些解釋都是無稽之談。我們是否會喜歡一個人,在聊天開始的最初幾秒就已經決定了,而且可能會受到一些看似隨意的事情的影響,比如在握手之前握著熱飲還是冷飲。無意識的偏見彌漫在我們的思想之中,而且也可以被測量出來,即使我們沒有意識到。認知偏差是當今心理學研究中最大的(也是最有意思的)分支之一。

事實證明,人們所擅長的並不是解釋他們是如何做出決定的,而是為自己的決定找出合理的解釋。有時候,這完全是無意識的,例如,我們在決策過程中會突出一些事實(“我喜歡這輛汽車的顏色”),並將注意力集中在這一點上,而忽略了對我們來說可能更重要但是看不見的因素(“我的繼父有一個敞篷車,我討厭我繼父”)。(“第一個候選人聽起來就像我畢業時那樣,那個女人很好,但是她看起來太與眾不同,她不適合和我一起工作。”)

如果我們期望ML系統為他們的決定提供實際的解釋,那麼我們就會遇到很多麻煩,就像我們要求人們解釋他們自己的決定的實際基礎一樣:ML系統不會比人類更容易解釋。

當我們要求解釋的時候,我們感興趣的常常是那些顯而易見的事實(因為改變它們會改變結果)和變數(因為對它們的改變值得討論)。 例如,“你現在看到的是這個招聘告示; 但如果你住在靠西邊十英里的地方,你就會看到另一個”,這在某種情況下可能很有趣,但是“如果你是一個鴯鶓,你會看到的就是木拉加的種子”,這就不有趣了。

生成這種解釋的數學技術正在積極的發展中,但存在一些不容忽視的挑戰。例如,大多數這些技術是基於建立另一個“解釋性”的ML模型,這個模型不太準確,只適用於給定一些輸入資訊然後變數很小的情況,整體更容易理解,但和前面提到的主ML模型是基於完全不同的原則。 (這是因為只有像決策樹這樣的幾種ML模型可以被人們完全理解,而在許多實際應用中最有用的模型,如神經網路,則完全無法被理解。)這意味著如果你試圖給第二個解釋模型輸入“不,改變這個變數!”這種回饋,它可能根本就辦法把它轉化為主模型的輸入。而且,如果你給人一個解釋工具模型,他們也會要求用相同的語言來改變它的權利——要求很合理但不可行。

人類的大腦有極度通用的智慧能處理各種概念,因而可以解決這個問題。你可以告訴它,在涉及種族歷史時應該對圖像識別格外小心,因為同一個系統(大腦)可以理解這兩個概念。但AI還遠遠不能做到這一點。

(6)AI,歸根到底,終是一個工具

人工智慧無人機殺手——不提出這個大家都喜歡的例子就沒法探討AI道德。這些飛機在高空飛行,僅由電腦控制,在維護平民生活的同時實現殺害敵方武裝分子的任務......除非它們認為任務需要一些“附帶損害”,就像官方委婉說法那樣。

人們對這樣的設備感到害怕,如果更多地聽一些正生活在永恆的死亡威脅之下的人們的故事,他們會更加害怕——從晴朗的天空中橫空出世的殺手。

人工智慧是這個討論的一部分,但它不如我們想像的那麼重要。大型無人機與有人駕駛飛機的不同之處在於,他們的飛行員可以遠離千里之外,遠離傷害。自動駕駛儀AI的改進意味著,一個無人駕駛操作員可以很快操作不止一架飛機。最終,大型無人機可以在99%的時間內自行駕駛,只有在需要作出重大決定時才會呼叫人。這將開闢更大的無人機空中力量成本更低的可能性——民主化從天上炸人的權力。

在這個故事的另一個版本中,人類可能已經完全被從“殺戮鏈”也就是決定是否發射武器的決定中排除。現在我們可能會問,誰來承擔完全由機器人決定的殺人的道德責任?

這個問題既比我們想像的要簡單,同時也要更複雜。如果有人用石頭擊中另一個人的頭,我們責怪這個人,而不是石頭。如果他們投擲長矛,即使矛在某一段飛行期間“處於自己的力量之下”,我們也絕不會想要責怪矛。即使他們構建了一個複雜的死亡陷阱,印第安那·鐘斯式的意志行為也是人類的。問題是現在“工具”自己決定的範圍變得模糊。

簡單的地方在於,在於這個問題並不是全新的。軍事紀律的很大要點是要建立一個戰鬥力量,在戰鬥中不要過於自主思考。在軍隊是歐洲體系後裔的國家,軍士和士官的作用是執行計畫;委託人員的職責是決定執行哪些計畫。因此,從理論上講,決策責任完全是在官員肩上,根據軍銜,指揮官等區分人員責任區的明確界定決定了誰最終對任何一個指令負責。

在實踐中,這往往是相當模糊的,這些原則是我們已經瞭解了幾千年的原則,而AI其實並沒有增加新的內容。即使具有了再大的決策能力和自主性,AI仍然需要這個討論——實際上在人類世界,我們有足夠的自主權去探討這些問題,也不過是近幾十年的事情。

也許這是人工智慧倫理的最後一個重要的經驗:我們面臨的關於人工智慧的許多問題其實是我們過去也面對的問題,現在通過技術上的一些變化而顯露出來。在我們現有的世界中尋找類似的問題往往是有價值的,能夠幫助我們理解如何處理看似新的問題。

4 我們要去向何處?

還有很多我們應該討論的問題——其中很多對這個社會來說是非常緊迫的。但是我希望上面的例子和解釋給了你一些環境,讓你理解事情什麼時候是對的,什麼時候不對頭。以及許多的AI道德風險源於何處。

這些大多都不是新問題;相反,是一個向電腦解釋我們的訴求的正式過程——沒有文化背景、也沒有能力推斷出我們的言外之意的終極案例——迫使我們以違背日常習慣的方式來表達。無論是要求我們在緊要關頭到來之前好幾年就做出生死攸關的決定,而不是拖延到事情真正發生的時刻現在的高☆禁☆潮,還是要求我們長期嚴格的審視社會的實際情況,並態度鮮明的表達我們想要保留哪些部分以及我們想要改變哪些部分;AI把我們推離了“禮貌性編造”的舒適區,進入了一個我們必須非常明確地討論事物的世界。

這些問題中的每一個,都早在AI之前就存在了; AI只是讓我們以一種新的方式來談論它們。這可能並不容易,但是對我們來說,誠實可能是新技術可以給我們帶來的最寶貴的禮物。

雷鋒網編譯 via Medium

聽起來會顯得特別機械——因為即使是專業人士,也總是更多的在談論人工智慧。

那麼讓我們先來談談機器學習或人工智慧到底是什麼。從最嚴格的意義上說,機器學習是“預測統計學”領域的一部分,就是建立一個系統,它能夠獲取過去發生的事情的資訊,並且利用這些建立一個關於相關環境的某種模型,用來預測在其他情況下可能發生的事情。簡單來說就像“當我把車輪轉向左邊,車子也往左轉”那樣簡單,往難來說,就像試圖瞭解一個人的整個生活和品味一樣複雜。

您可以使用這張圖片來瞭解每個AI的功能:

有一個可以感知世界的感測器系統(sensor) —— 這些系統可以是從攝像機和LIDAR到查看文檔的網路爬蟲的任何東西。還有一些其他的系統適用於這個環境,比如開車,或者按照分類顧客展示廣告。有時候,這個系統是一台機器,有時候是一個人,他必須根據一些很複雜或者太大的事情做出決定,一下子又思考不了那麼多—— 比如說整個互聯網的內容。

要把兩者聯繫起來,你需要一個盒子,能夠提取對這個世界的認知,並且提出一些建議,告訴你如果採取各種行動,可能會發生什麼。中間那個盒子叫做“模型(Model)”,就好比一個“這個世界是如何工作的模型”,那個盒子就是人工智慧的一部分。

上面的圖表中還有一些別的的單詞,如果你聽專業人士討論AI時你可能會聽到它們。 “特徵(Feature)”只是對原始認知的一些昇華,包括模型的設計者認為有用的那部分認知。在有些AI系統中,特徵只是原始的認知—— 例如,攝像機的每個圖元所看到的顏色。如此大量的特徵對於AI來說是有益的,因為它不會對什麼重要什麼不重要有任何先入之見,但是又使得AI本身更難構建;僅僅在過去的十年左右,建立足夠大的電腦來處理這個問題才變得可能。

“預測(Prediction)”就是另一端會產生的結果:當你給模型展示一些特徵時,它通常會給你一堆可能的結果,以及它對每個結果的可能性的最佳理解。如果你想讓一個人工智慧做出決定,那麼就應用一些規則 —— 例如,“挑選最有可能成功的人”,或者“挑選最不可能導致災難性失敗的人”。對系統而言,權衡可能的成本和收益,重要性不亞於模型本身。

現在,你可以想像一個非常簡單的“模型”,它給出了針對用途的具體規則:例如,舊蒸汽機上的機械調節閥是一種簡單的“模型”,一端讀取壓力,如果這個壓力超過某個設定點推杆,它會打開一個閥門。這是一個簡單的規則:如果壓力高於設定值,打開閥門;否則,關閉閥門。

這個閥門非常簡單,因為它只需要參考一個輸入,並做出一個決定。如果它必須依賴於成千上萬甚至數百萬輸入的資訊來決定一些更複雜的東西——比如如何控制一輛汽車(取決於你的所有視覺,聽覺等等),或者哪個網頁可以給你關於樹袋熊養殖的問題提供最好的答案(這取決於你是一時興起還是專業的脊椎動物爭論者,以及該網站是由愛充滿激情的愛好者所創辦,還是只是想賣給你廉價的樹袋熊壯陽藥)——你會發現這個比較很不簡單,有數百萬,甚至數千萬資訊需要決定。

AI模型的特別之處在於們是專門為此而設計的。在任何人工智慧模型裡面都有一系列的規則來綜合所有特徵,每一個特徵都依賴於數百數千甚至數百萬個單獨的按鈕,告訴它在不同情況下如何權衡每個特徵的重要性。例如,在一種叫做“決策樹”的人工智慧模型中,模型看起來像是一個關於Yes/No問題的巨樹。如果人工智慧的工作是從三文魚中分出金槍魚,那麼第一個問題可能是“圖像的左半部分比右半部分更暗”,而最後一個問題大概是“根據之前的374個問題的答案,這個正方形中的平均顏色是橙色還是紅色?“這裡的“按鈕”是詢問問題的順序,以及每個問題的”是“和”否“之間的界限是什麼。

魔法在於:不可能找到一個能夠可靠地分辨鮭魚和金槍魚的正確問題組合。有太多了。所以,始時,AI運行在“訓練模式”。AI被展示一個又一個的例子,每次調整它的旋鈕,以便更好地猜測接下來會發生什麼,在每次錯誤之後自我糾正。它所看到的例子越多,不同例子越多,它從偶然性中找到關鍵的能力就越強。一旦它被訓練,旋鈕的值是固定的,模型可以連接到真正的執行器使用。

ML模型對比人類做同樣任務的優勢不是速度;一個ML模型通常需要幾毫秒來作出決定,人大概也需要這麼多時間。 (你在開車的時候一直如此)。他們的真正優勢是,他們不會覺得無聊或分心:一個ML模型可以在不同的資料片斷上連續做數百萬或數十億次決定,既不會把資料弄得更好也不會更糟。這意味著你可以將它們應用於人類不擅長的問題——比如為單個搜索排名數十億的網頁,或駕駛汽車。

人類駕駛汽車非常糟糕,2015年僅美國就有35,000人因車禍死亡。這些車禍中的絕大多數是由於分心或駕駛員失誤造成的——人們通常做得很好,但在某一次關鍵時刻卻失誤了。駕駛需要巨大的專注和快速反應能力,你可能認為也可以做到,但糟糕的是,它需要這種能力持續保持幾個小時,事實證明,我們實際上做不到。)

當某個人談論在專案中使用AI時,他們的意思是將專案分解成上面繪製的圖,然後構建正確的模型。這個過程首先收集訓練的例子,這通常是最困難的任務;然後選擇模型的基本形狀(即“神經網路”,“決策樹”等),這些都是針對不同問題的基本模型),並進行訓練;然後,最重要的是弄清楚什麼是壞的,並對其進行調整。

例如,看下面的六張圖片,找出前三張和後三張的關鍵區別:

如果你猜“前三張都有地毯”,那麼你猜對了!當然,如果你猜前三張是灰貓的照片,後面三張是白貓的照片,你也是對的。

但如果您使用這些圖像來訓練您的灰貓探測器,那麼當模型嘗試對您的訓練圖片進行評分時,您可能會獲得優異的表現,但在現實工作中這模型表現會很糟糕,因為模型實際學到的是“灰貓就是地毯上一些類似貓形狀的東西。“

當你的模型學習到了訓練資料的特質,但卻不是你真正關心的東西的時候,這叫做“過擬合”。構建ML系統的人大部分時間都在擔心這個問題。

2人工智慧擅長什麼,不擅長什麼

現在我們已經談論了AI(或ML)是什麼,接著讓我們來談談它究竟是有用還是無用。

如果你想要實現的目標和實現這些目標的手段都能夠很好的理解,這種問題就不需要人工智慧。例如,如果您的目標是“將車輪上的所有螺母擰緊到100英尺磅”,你只需要一個能夠擰緊和測量扭矩的機構,並在扭矩達到100時停止擰緊。這稱為“扭矩扳手”,如果有人給你提供一個人工智慧的扭矩扳手,你要問他們的第一個問題是我為什麼需要這個。 這些降低了AI的閾值,你需要的只是一個簡單的機制。

人工智慧能幫助解決的問題是:目標是明確的,但實現目標的手段不明確。在以下情況最容易解決:

可能的外部刺激的數量是有限的,所以模型能夠瞭解它們

你必須控制的事物數量是有限的,所以你不需要考慮過多選擇範圍

刺激或者要做的決定數量很大,你不能直接寫下規則並且區分開來

能夠很容易的把一個動作連接到外部的一個可觀察的結果,因此你可以很容易地弄清楚什麼奏效,什麼無效。

這些東西實際上比看起來更難。例如,現在拿起一個你旁邊的物體——比如我去拿一個空的汽水罐。現在再慢一點做一次,看你的手臂是怎樣運作的。

我的胳膊快速地沿肘部轉動,將我的手從鍵盤上水準移動到離罐子幾英寸的垂直位置,然後迅速停止。然後它向前移動,同時把手掌打開的比罐頭大一點,以比第一個動作慢得多但是其實還是很快的速度,直到我看到我的拇指在我的其他手指的對面,儘管事實上我的其他手指被罐子遮住了視線。然後我的手指合攏,直到遇到阻力立即停下。然後手臂開始抬起,這一次從肩膀起(保持肘部固定)保持握緊,無限地收緊,直到手牢固地握住罐子但又不使罐子變形。

事實上,我們走路而不會臉朝地摔倒就是一件很驚人的事情,雖然看似平常。下一次你走過房間時,要注意你的確切路徑,每次你彎曲或移動你的身體,或者把你的腳放在不在面前的別的任何地方。“運動規劃”這個問題在機器人技術中是非常困難的。

這是非常艱難的任務之一,我們的大腦付出了比其他事情多兩倍的專注來做這件事。這使我們完成的看起來比實際上容易得多。同屬此類的其他任務還有面部識別(你可能不知道,我們的大腦的視覺功能大部分不是用於通用視覺,而是專門用於識別臉部的),理解單詞,識別3D物件,以及不碰到障礙物。我們認為這些並不難,因為它們對我們來說是非常直觀的,但是它們之所以這麼簡單,是因為我們有專門的器官組織專門負責而且擅長做這些。

對於這一系列狹窄的任務,電腦做得很糟糕,並不是因為他們表現的比在其他類似的任務上差,而是因為人類在直覺上非常擅長這些,所以對“可接受性能”的基線非常高。如果我們的大腦中沒有一大塊專注於認識面孔,那麼我們看人就會像看犰狳一樣——現在電腦正是如此。

相反,人類聯結的方式又使得電腦就很容易的顯得足夠智慧了。例如,人類的大腦有線連接認為,或多或少活躍的事物事實上就是有生命的。這意味著與人類進行令人信服的對話並不需要總體上理解語言,只要你或多或少的能把話題保持在焦點上,人類就會自動糾正任何不清楚的東西,這就是語音助理能成功的原因。最著名的例子是ELIZA,一個1964年的模仿羅傑亞心理治療師的“人工智慧”,它會理解你的句子,讓你更多地講述各種各樣的事情,如果感到困惑,它就會退後一步回到“跟我說說你的母親吧”這樣的安全問題上,雖然這只是一個笑話,但人們表示確實在交談之後感覺好了一點。

為了理解上述的最後一個問題 ——當你很難把你的直接行動和後果聯繫起來的時候—— 可以考慮學習玩視頻遊戲。行動的後果是非常明顯的:當你應該轉彎的時候你就要轉彎,如果撞到牆上,遊戲就結束。但是當你更擅長比賽之後,你會開始意識到“糟糕,我錯過了一個提升,五分鐘內我要完了”,並且可以預見到更久之後的後果。你必須花很多時間去理解遊戲的機制,然後去理解其中的連接。AI也有同樣的問題。

我們談到了目標和手段都很清楚的情況,以及目標清楚但手段不清楚的情況。還有第三個類別的情況,AI根本無法説明:那就是,連目標本身沒有被很好地理解。畢竟,如果你不能給AI一堆好的和壞的解決方案的例子,那麼它能從中學到什麼?

我們隨後會再談這些問題,因為到底哪些問題屬於這個範疇,往往是最棘手的道德問題出現的地方。實際上很多時候情況是,要麼我們不知道“成功”的真正含義(在這種情況下,你怎麼知道你是否成功了?),或者更糟的是,我們知道 ——但是不想真正對自己承認。電腦程式設計的第一條規則是,他們不善於自我欺騙:如果你想要他們做某件事,你必須向他們解釋你想要的東西。

在我們開始談論道德之前,這裡有另外一種方法去分析AI的好壞。

最容易的是在可預測的環境中有明確的目標。譬如一台攝像頭監測著一條裝配線,它知道汽車很快就會出現,目標是識別到車輪。

相對較難的情況是在不可預測的環境中有一個明確的目標。自動駕駛汽車就是一個很好的例子:目標可以直接描述(從A點安全到B點而且速度合理),但是環境則可能包含許多意外。人工智慧在過去幾年剛剛發展到可以向這些問題發起衝擊的地步,因此我們研究自駕車或自駕飛機等問題。

另一種難題是在可預測的環境中實現一個間接目標。在這種情況中環境是可預測的,但是行為和目標之間的關係是非常遙遠的——就像玩遊戲一樣。這是我們近期取得巨大進步的另一個領域,人工智慧能夠完成以前難以想像的事情,比如Alpha Go在圍棋比賽中取勝。

贏得棋盤遊戲本身並不是很有用,但它卻打開了在不可預知的環境中實現目標的道路,比如計畫你的財務組合。這是一個比較棘手的問題,我們還沒有取得重大進展,但是我希望我們能夠在未來十年內把這些做好。

最後還有一種最難的情況:目標不明確的情況。AI根本無法解決這些問題;如果你不能告訴它你想做什麼,你就無法訓練系統。寫小說可能就是一個例子,因為沒有一個明確的答案是什麼使某本書成為“好的小說”。另一方面,這個問題有一些具體部分目標可以定義——例如“寫一本小說,如果像恐怖片一樣銷售,就能賣得好。這種對AI應用到底好還是不好,就留待讀者的智慧判斷。

3 倫理與現實世界

現在我們可以開始看看問題的真諦:那些AI的成敗能夠產生重大影響的難題是什麼樣的?還在不斷出現一些什麼樣的問題?

我可以很容易地給出一大串答案,但我們沒有覆蓋這個領域每一個有趣的問題,甚至沒法覆蓋大多數的問題。但是我給你們舉了六個例子,這些例子幫助我思考了很多,它們主要的幫助不在於給了我正確的答案,但是他們幫助我提出了正確的問題。

(1).乘客和行人

一個自駕車正在穿過一座狹窄的橋,這是一個小孩突然在它前面跑出來。停下來已經太遲了;這個汽車能做的只有要麼前進,將小孩撞飛,或者轉彎,把自己和乘客送到下面的奔流河裡。它應該怎麼做?

這個問題在過去幾年已經被公開討論過了,這個討論是非常明智的,展示了我們真正需要問的問題。

首先,整個問題有一個很大的漏洞:這個問題在實踐中出現的概率很小,因為自動駕駛汽車的重點在於,他們一開始就不會涉足這種情況。孩子很少突如其來出現,大多數情況下這種情況發生時,要麼因為駕駛員的反應不夠快,無法處理從他障礙物後面跳出來的孩子,要麼駕駛員出於某種原因分心,注意到孩子的時候已經太遲了。這些都是自動駕駛不存在的問題:自動駕駛一次查看所有信號,連續數小時都不會感到無聊或分心。像這樣的情況將變得非常罕見,這就是自動駕駛能夠拯救生命的來源。

但是“幾乎從不”與“絕對不會”是不一樣的,我們不得不承認有時會發生這種情況。當它發生時,車應該做什麼?應該優先考慮乘客還是行人的生命?

這不是一個技術問題:而是一個政策問題。這和我們今天生活的世界有很大的不同。如果你問人們在這種情況下會怎麼做,他們會給出各種各樣的答案,並用各種各樣的“取決於當時情況”來限制這個答案。事實是,我們不想做這個決定,我們當然不想公開承認我們的決定是要保護自己的孩子。當人們真的處於這種情況下,他們的回應就會在地圖上出現。

在文化上來說,我們有一個答案:在這個瞬間,在你看到迎面而來的災難和事件發生的那一瞬間,我們認識到我們不能作出理性的決定。我們最終會讓司機對他們的決定負責,並且認為這是不可避免的,不管他們做了什麼決定。 (雖然我們可能會讓他們為之前做出的決定負責任,比如超速駕駛或駕駛醉酒)。

有了自駕車,我們沒有這個選擇;程式設計在字面上有一個空格,它現在要求我們在事故發生的幾年之前就給它答案:“當發生這種情況時,我該怎麼辦?我應該如何減輕乘客的風險,以免對行人造成危險?”

它會按照我們告訴它的做。電腦程式設計的任務要求我們對自己想要的決定保持殘酷的誠實。當這些決定影響整個社會時,比如在這種情況下,這意味著作為一個社會,我們面臨著同樣艱難的抉擇。

(2)、禮貌性編造

機器學習模型有一個非常討厭的習慣:他們會學習資料顯示給他們的東西,然後告訴你他們學到了什麼。 他們頑固地拒絕學習“我們所希望的世界”,或者“我們喜歡宣稱的世界”,除非我們明確地向他們解釋那是什麼——即使我們喜歡假裝我們沒有這樣做。

2016年年中,高中生卡比爾·艾力(Kabir Alli)試圖在Google上搜索“三個白人青少年”和“三個黑人青少年”,結果甚至比你想像的還要糟糕。

“三個白人青少年”展現了迷人的、運動型的青少年身影; “三名黑人青少年”顯示了三名黑人青少年被捕的新聞報導中的照片。 (現在,搜索結果大部分都是關於這個事件的新聞報導)

這裡並不是因為Google演算法中的偏見:而是底層資料的偏見。這種特殊的偏見是“無形白人主義”和媒體報導的偏見的結合:如果三名白人青少年因犯罪被捕,不僅新聞媒體不太可能展示他們的照片,而且也不太可能特意提出他們是“白人青少年”。事實上,幾乎所有的青少年群體都被明確地標注為“白人”,從攝影產品目錄可以看出。但是,如果三名黑人青少年被捕,你可以找到在上面提到的新聞報導中出現的那句話。

許多人對這些結果感到震驚,因為他們似乎與我們這個“忽視種族”社會的國家觀念不一致。 (請記住,這是在2016年中)但基本的資料是非常明確的:當人們用高品質的圖像在媒體上說“三個黑人青少年”時,他們幾乎總是把他們作為罪犯在談論,當他們談到“三個白人青少年“,幾乎都是廣告攝影。

事實上,這些偏見確實存在於我們的社會中,而且它們幾乎反映在你看到的任何資料上。在美國,如果你的資料沒有顯示某種種族傾向,那麼很可能你做錯了什麼。如果你通過不讓種族成為模型的輸入特徵來手動地“忽略種族”,它會通過後門進入:例如,某人的郵遞區號和收入可以非常準確地預測他們的種族。一個將之不視為種族因素的ML模型,以及被要求預測我們社會中的事實上與種族相關的東西的ML模型,很快就會將其視為“最好的規則”。

人工智慧模型在我們面前舉起一面鏡子,他們不明白我們什麼時候不想誠實。他們只會禮貌性編造,如果我們告訴他們如何提前撒謊的話。

這種誠實會迫使你必須非常明確。最近的一個例子是在一篇關於“文字去除”的技術論文中。是關於一個非常受歡迎的叫做word2vec的ML模型,它學習了英語單詞含義之間的各種關係——例如,“國王對男性,女王對女性。”該論文作者發現,模型包含了不少社會偏見的例子:例如“電腦程式師對男人來說就像家庭主婦對女人一樣。”作者在該論文中提出了一種一種消除性別偏見的技術。

該論文的許多偶然性讀者(包括許多撰寫關於它的新聞文章的人)看不到的是,並沒有一種自動化的方式能消除偏見。模型的整個程式是相當合理的:首先,他們分析單詞兩個詞向量模型,找到沿著他/她軸線(性別軸線)對立性分開的單詞組。接下來,他們要一組人辨別哪些對應關係是有道理的(例如,“男孩對男人/女人對女人是對的”),以及哪些對應關係中代表了社會偏見(譬如程式師對男人/家庭主婦對女人)。最後,他們運用數學技術從整個模型中去除了帶有偏見的片語,留下了一個改進後的模型。

這項工作是很好的,但重要的是要認識到,確定哪些男性/女性分化應該被刪除的關鍵步驟是人為的決定,而不是一個自動的過程。它要求人們從字面上識別他們認為哪些片語的對應關係是合理的,哪些不合理。而且,原來的模型衍生出這些分化是有原因的。它來自對來自世界各地數以百萬計的書面文本的分析。原來的詞向量對應關係準確地捕捉到了人們的偏見;清理後的模型準確地反映了評估者認為哪些偏見應該被刪除的偏好。

這其中展現出的危險是“自然主義的謬誤”,當我們混淆“應該是什麼”和“其實是什麼”的時候,這種謬誤就會發生。如果我們想用模型來研究人們的看法和行為,原本的模型是合適的;如果我們想用模型來生成新的行為並將某些意圖傳達給其他人,修改後的模型是適當的。說修改後的模型更準確地反映了世界是什麼樣的,那是不對的;說因為這個世界某種程度上是什麼樣,那麼它就該是那樣,那也是不對的。畢竟,任何模型的目的——人工智慧或智力——都是要做決定。決定和行動完全是關於我們希望這個世界是什麼樣子的。如果不是這樣,我們根本就不會做任何事情。

(3).大猩猩事件

2015年7月,當我擔任Google社交工作(包括照片)的技術負責人時,我收到了Google同事的一個緊急資訊:我們的照片索引系統公開把一個黑人和他的朋友的照片描述成為“大猩猩, “他有理由憤怒。”

我立即回應,大聲做出保證之後,給團隊打電話,公開回應說這是很不好的。團隊採取行動,禁用了違規表徵以及其他幾個有潛在風險的表徵,直到他們能夠解決潛在的問題為止。

許多人懷疑,這個問題與六年前惠普的臉部攝像機不能在黑人身上工作的問題是一樣的:“面孔”的訓練資料完全是由白人組成的。我們開始也這麼懷疑,但是我們很快就排除了這個原因:訓練資料包括各種種族和膚色的人。

其真正原因是三個微妙的問題的交集。

第一個問題是人臉識別很難。不同的人臉看起來對我們來說截然不同,那是因為我們的大腦中有很大一部分隻專注於識別人臉; 我們已經花費了數百萬年的時間來改進這個功能。但是如果你注意比較兩個不同面孔的差異,把這個差異和兩把不同的椅子之間的差異相比,你會發現面孔的相似性比你想像的要大得多——甚至是跨物種之間。

事實上,我們發現這個錯誤並不是孤立的:這個照片索引系統也容易把白種人的臉誤認為是狗和海豹。

第二個問題是問題的真正核心:ML系統在其自己的領域非常聰明,但除非教導它,否則對於更廣泛的世界一無所知。而當它試圖考慮所有的圖片可能被識別的物件時——這個AI不僅僅識別人臉——沒有人想到要向它解釋黑人因為被歧視而長期被比作猿人。這種背景使這個錯誤非常嚴重,而將小孩錯誤地認定為一隻海豹則只是一件趣事罷了。

這個問題沒有簡單的答案。在處理涉及人類的問題時,錯誤的代價通常與極其微妙的文化問題聯繫在一起。這並不是說很難解釋,而是很難提前想到它們。

這個問題不僅僅體現在人工智慧上,也表現在人們要在不同文化中做出價值判斷。一個特別的挑戰來自於,當在網上發現騷擾和濫用行為的時候。這些問題幾乎完全由人類來處理,而不是由人工智慧來處理,因為即使是制定人類用來判斷這些事情的規則都是非常困難的。我曾在Google花了一年半的時間來制定這樣的規則,認為這是我所面臨的最大的智力挑戰之一。

即使有團隊提出規則,由人類而不是AI來執行它們,文化障礙也是一個巨大的問題。印度的評論家不一定具有關於美國的種族歧視的文化背景,在美國的人也不一定有印度文化背景。但世界各地的文化數量是巨大的:你怎樣以任何人都可以理解的方式來表達這些想法?

從中學到的教訓是:系統中最危險的風險通常不是來自系統內部的問題,而是來自系統與更廣泛的外部世界互動時意想不到的方式。我們還沒有一個好方法來管理這些。

(4)、不幸的是,人工智慧會按你說的做

人工智慧的一個重要用途是幫助人們做出更好的決策:不是直接執行某個操作,而是告訴人們推薦哪一個,從而幫助他們做出一個好的選擇。尤其當這些選擇具有高風險時,這是最有價值的。但真正影響這個長期結果的因素,對於人們來說並不是很明顯。事實上,如果沒有明確有用的資訊,人類可能會輕易地採納無意識的偏見,而不是真正的資料。這就是為什麼許多法院開始使用自動化的“風險評估”作為他們量刑指引的一部分。

現代風險評估是ML模型,負責預測未來犯罪的可能性。如果你拿一個地區的法院歷史的全部語料來訓練模型,可以形成一個令人驚訝的清晰的展現,告訴你誰是潛在危險分子。。

如果你到目前為止一直在仔細閱讀,你可能會發現一些方法來實現這個目標,這些方法可能會非常可怕,非常錯誤。正如2016年ProPublica揭露的那樣,然而這正是全國各地發生的事情。

佛羅里達州布勞沃德縣使用的系統COMPAS系統的設計者,遵循了最佳實踐原則。他們確保他們的訓練資料沒有人為地偏袒某個群體,例如確保所有種族的人都有相同的訓練資料。他們將種族排除在模型的輸入特徵之外。只有一個問題:他們的模型並沒有預測出他們認為該預測的事情。

量刑風險評估模式應該提出的問題是,“這個人將來犯下嚴重罪行的概率是多少,以此作為你現在給他們的刑罰的一個函數。”這要同時考慮到這個人以及刑罰帶給他未來生活的影響:是否會導致永遠監禁他們?釋放他們之後會不會沒有機會得到一個平穩的工作?

但是我們沒有一道在每次犯罪的時候都會熄滅的魔法之光,我們也當然沒有那種例子:一個人一次同時接受了兩種不同的刑罰結果產生兩種不同的後果。 因此,COMPAS模型是通過對真實的、難以獲得的資料的類比來進行培訓的:根據我們在判刑時所得知的一個人的資訊,這個人將被定罪的概率是多少? 或者用兩個人來對比:“這兩個人哪一個最有可能在將來被定罪?”

如果你對美國政治有一點瞭解的話,你可以立即回答這個問題:“黑人!”黑人比白人更可能被在路上截住,被逮捕,定罪並給予比白人更長的刑期。所以忽略其他絕對事實死亡情況下,一個查閱歷史資料的ML模型,如果預測一個黑人被告在未來更有可能被定罪,結合歷史來看肯定是相當準確的預測。

但是,這個模型被訓練的方法和它的真正用途不相符合。它被訓練回答“誰更可能被定罪”,問它的卻是“誰更有可能犯罪”,沒有人注意到這是兩個完全不同的問題。

這裡顯然有很多問題。其一是法院對待AI模型太過依賴,將其作為衡量判決的直接因素,跳過人的判斷,比任何模型本可以提供的保證還要自信。另一個問題當然是這暴露出的基本的、系統性的種族主義:同樣的罪行下黑人更有可能被逮捕並被定罪。

但是這裡有一個關於ML的特定問題值得注意:你想測量的數量和你可以測量的數量之間經常有差異。當兩者存在差異的時候,你的ML模型能夠很好的預測你所測量的數量,而不是它其實代表的數量。在相信你的模型之前,你需要非常仔細地理解這些相似和不同。

(5).人是一個合理化的動物

在機器學習的討論中有一個新的熱門話題:“解釋權”。意思是,如果ML被用來做任何重要的決定,人們有權理解這些決定是如何做出的。

直覺上,這似乎是顯而易見且有價值的想法——然而,當ML專業人員提到這一點時,他們的臉色立刻就變了,他們想要解釋這個要求事實上是不可能的。

為什麼會這樣?

首先,我們應該明白為什麼很難做到這一點;第二,更重要的是,我們應該明白為什麼我們期望它容易做到,為什麼這個期望是錯誤的。第三,我們可以看看對此可以做些什麼。

早些時候,我將ML模型描述為數百至數百萬個旋鈕。這個比喻對實際模型的複雜性來說並不公平。例如,現代基於ML的語言翻譯系統一次只能輸入一個字母。這意味著模型必須在閱讀了大量的字母之後,對其中的文本理解狀態進行表述,以及每個連續的下一個字母如何影響其對意義的解釋。

對於模型遇到的任何情況,它所做的唯一“解釋”是:“好吧,後面的幾千個變數是這樣的狀態,然後我看到字母“c”,這應該改變了用戶在談論狗的概率...

不僅僅你無法理解這一點,ML研究人員也是難以理解的。 ML系統的調試是該領域最難的問題之一,因為在任何時候檢查變數的個體狀態然後向你解釋這個模型,就像測量一個人的神經潛能然後將會告訴你他們吃晚飯的時間差不多。

然而 ——這是第二部分——我們總是覺得我們可以解釋我們自己的決定,而且是人們期望的那種解釋。 “考慮到它們的FICO分數中位數,我把這個抵押貸款的利率設定為7.25%。”他們期望它說:“如果Experian的FICO分數高了35分,那麼這個分數就會下降到7.15%。” ,“我建議我們聘請這個人,因為他們在我們的面試中清晰地解釋了機器學習。”

但是每個認知或行為心理學的人都知道一個黑暗的秘密:所有這些解釋都是無稽之談。我們是否會喜歡一個人,在聊天開始的最初幾秒就已經決定了,而且可能會受到一些看似隨意的事情的影響,比如在握手之前握著熱飲還是冷飲。無意識的偏見彌漫在我們的思想之中,而且也可以被測量出來,即使我們沒有意識到。認知偏差是當今心理學研究中最大的(也是最有意思的)分支之一。

事實證明,人們所擅長的並不是解釋他們是如何做出決定的,而是為自己的決定找出合理的解釋。有時候,這完全是無意識的,例如,我們在決策過程中會突出一些事實(“我喜歡這輛汽車的顏色”),並將注意力集中在這一點上,而忽略了對我們來說可能更重要但是看不見的因素(“我的繼父有一個敞篷車,我討厭我繼父”)。(“第一個候選人聽起來就像我畢業時那樣,那個女人很好,但是她看起來太與眾不同,她不適合和我一起工作。”)

如果我們期望ML系統為他們的決定提供實際的解釋,那麼我們就會遇到很多麻煩,就像我們要求人們解釋他們自己的決定的實際基礎一樣:ML系統不會比人類更容易解釋。

當我們要求解釋的時候,我們感興趣的常常是那些顯而易見的事實(因為改變它們會改變結果)和變數(因為對它們的改變值得討論)。 例如,“你現在看到的是這個招聘告示; 但如果你住在靠西邊十英里的地方,你就會看到另一個”,這在某種情況下可能很有趣,但是“如果你是一個鴯鶓,你會看到的就是木拉加的種子”,這就不有趣了。

生成這種解釋的數學技術正在積極的發展中,但存在一些不容忽視的挑戰。例如,大多數這些技術是基於建立另一個“解釋性”的ML模型,這個模型不太準確,只適用於給定一些輸入資訊然後變數很小的情況,整體更容易理解,但和前面提到的主ML模型是基於完全不同的原則。 (這是因為只有像決策樹這樣的幾種ML模型可以被人們完全理解,而在許多實際應用中最有用的模型,如神經網路,則完全無法被理解。)這意味著如果你試圖給第二個解釋模型輸入“不,改變這個變數!”這種回饋,它可能根本就辦法把它轉化為主模型的輸入。而且,如果你給人一個解釋工具模型,他們也會要求用相同的語言來改變它的權利——要求很合理但不可行。

人類的大腦有極度通用的智慧能處理各種概念,因而可以解決這個問題。你可以告訴它,在涉及種族歷史時應該對圖像識別格外小心,因為同一個系統(大腦)可以理解這兩個概念。但AI還遠遠不能做到這一點。

(6)AI,歸根到底,終是一個工具

人工智慧無人機殺手——不提出這個大家都喜歡的例子就沒法探討AI道德。這些飛機在高空飛行,僅由電腦控制,在維護平民生活的同時實現殺害敵方武裝分子的任務......除非它們認為任務需要一些“附帶損害”,就像官方委婉說法那樣。

人們對這樣的設備感到害怕,如果更多地聽一些正生活在永恆的死亡威脅之下的人們的故事,他們會更加害怕——從晴朗的天空中橫空出世的殺手。

人工智慧是這個討論的一部分,但它不如我們想像的那麼重要。大型無人機與有人駕駛飛機的不同之處在於,他們的飛行員可以遠離千里之外,遠離傷害。自動駕駛儀AI的改進意味著,一個無人駕駛操作員可以很快操作不止一架飛機。最終,大型無人機可以在99%的時間內自行駕駛,只有在需要作出重大決定時才會呼叫人。這將開闢更大的無人機空中力量成本更低的可能性——民主化從天上炸人的權力。

在這個故事的另一個版本中,人類可能已經完全被從“殺戮鏈”也就是決定是否發射武器的決定中排除。現在我們可能會問,誰來承擔完全由機器人決定的殺人的道德責任?

這個問題既比我們想像的要簡單,同時也要更複雜。如果有人用石頭擊中另一個人的頭,我們責怪這個人,而不是石頭。如果他們投擲長矛,即使矛在某一段飛行期間“處於自己的力量之下”,我們也絕不會想要責怪矛。即使他們構建了一個複雜的死亡陷阱,印第安那·鐘斯式的意志行為也是人類的。問題是現在“工具”自己決定的範圍變得模糊。

簡單的地方在於,在於這個問題並不是全新的。軍事紀律的很大要點是要建立一個戰鬥力量,在戰鬥中不要過於自主思考。在軍隊是歐洲體系後裔的國家,軍士和士官的作用是執行計畫;委託人員的職責是決定執行哪些計畫。因此,從理論上講,決策責任完全是在官員肩上,根據軍銜,指揮官等區分人員責任區的明確界定決定了誰最終對任何一個指令負責。

在實踐中,這往往是相當模糊的,這些原則是我們已經瞭解了幾千年的原則,而AI其實並沒有增加新的內容。即使具有了再大的決策能力和自主性,AI仍然需要這個討論——實際上在人類世界,我們有足夠的自主權去探討這些問題,也不過是近幾十年的事情。

也許這是人工智慧倫理的最後一個重要的經驗:我們面臨的關於人工智慧的許多問題其實是我們過去也面對的問題,現在通過技術上的一些變化而顯露出來。在我們現有的世界中尋找類似的問題往往是有價值的,能夠幫助我們理解如何處理看似新的問題。

4 我們要去向何處?

還有很多我們應該討論的問題——其中很多對這個社會來說是非常緊迫的。但是我希望上面的例子和解釋給了你一些環境,讓你理解事情什麼時候是對的,什麼時候不對頭。以及許多的AI道德風險源於何處。

這些大多都不是新問題;相反,是一個向電腦解釋我們的訴求的正式過程——沒有文化背景、也沒有能力推斷出我們的言外之意的終極案例——迫使我們以違背日常習慣的方式來表達。無論是要求我們在緊要關頭到來之前好幾年就做出生死攸關的決定,而不是拖延到事情真正發生的時刻現在的高☆禁☆潮,還是要求我們長期嚴格的審視社會的實際情況,並態度鮮明的表達我們想要保留哪些部分以及我們想要改變哪些部分;AI把我們推離了“禮貌性編造”的舒適區,進入了一個我們必須非常明確地討論事物的世界。

這些問題中的每一個,都早在AI之前就存在了; AI只是讓我們以一種新的方式來談論它們。這可能並不容易,但是對我們來說,誠實可能是新技術可以給我們帶來的最寶貴的禮物。

雷鋒網編譯 via Medium