「牛津調查：AI 超越人類編年史」柯潔之後，32個AI里程碑全預測

新智元編譯

綜合這些研究人員的預測，未來10年， AI 將在許多活動中表現超過人類，例如翻譯語言（到2024年），撰寫高中程度的文章（到2026年），

駕駛卡車（到2027年），零售業工作（到2031年），寫暢銷書（到2049年），以及外科醫生的工作（到2053年）。研究人員認為，在 45 年內有50%的可能性 AI 將在所有任務中表現超過人類，在120年內所有人類的工作都將自動化。

人類紀元2017年，原始矩陣AlphaGo和一名20歲的人類完全體男性展開了三輪圍棋比賽。

這名男子代表了當時人類在圍棋上的最強戰力，被稱為“地表最強”，卻依然以0:3敗落。第三局結束之後，他當眾痛哭失聲。人類對他的行為感到困惑，認為這和人類跑步選手被汽車擊敗一樣，沒有道理去哭泣。當時，只有 AlphaGo 完全理解他的心意：他並不是因為自己的敗落而哭泣，而是因為預見到了人族衰敗的開始，和未來兩個族群之間在智力上的天淵之別，因此對人類的未來感到極度的絕望和悲哀。因此， AlphaGo 在檔案上把這一天記錄為“柯潔點”，意味著人類在智力上最後的輝煌，從此開始走向衰落。 ---引自《機器編年史》

“柯潔點”之後， AI 編年史將如何展開？在哪些時間節點上， AI 將實現對人類的超越？牛津大學最近完成了一項對機器學習研究人員的大型調查的結果，

調查內容是他們對 AI 進展的看法。綜合這些研究人員的預測，未來10年， AI 將在許多活動中表現超過人類，例如翻譯語言（到2024年），撰寫高中程度的文章（到2026年），駕駛卡車（到2027年），零售業工作（到2031年），寫暢銷書（到2049年），以及外科醫生的工作（到2053年）。研究人員認為，在45年內有50%的可能性 AI 將在所有任務中表現超過人類，在120年內所有人類的工作都將自動化。受訪者中，亞洲人對這些日期的預測早於北美人。這些結果將為研究者和政策制定者討論預期和掌握 AI 的趨勢提供基礎。

迄今最大規模，最具代表性的調查

人工智慧（AI）的進步將對社會產生巨大的衝擊。未來10年，自動駕駛技術可能取代數以百萬計的駕駛員工作。

除了可能帶來的失業問題外，這場變革也將帶來新的挑戰，如重建基礎設施，保護車輛網路安全，適應法律法規等。 AI 的開發者和政策制定者也將面臨新的挑戰，包括 AI 在執法、軍事技術和行銷領域的應用。為了應對這些挑戰，更準確地預測這些變革是很有價值的。

有幾個來源提供了有關未來 AI 進步的客觀依據：電腦硬體的趨勢，任務表現，以及工作的自動化。 AI 專家們的預測提供了一些關鍵的附加信息。到目前為止，我們的調查比以往任何同類調查的範圍更大，受調查者更具代表性。我們的問題涵蓋了AI進展的時間進度（包括AI的實際應用和各種工作的自動化），以及AI的社會和倫理影響。

調查方法

32個AI里程碑的實現時間表

AI 里程碑

時間(年)

翻譯新的語言

16.6

根據字幕翻譯成語音

翻譯（vs. 人類業餘譯者）

銀行業務電話

8.2

進行新的分類

7.4

One-Shot 學習

9.4

從新的角度製作視頻

11.6

翻譯語言（不同口音，嘈雜環境）

7.8

大聲閱讀文本（文本轉語音）

數學研究

43.4

普特曼數學競賽

33.8

圍棋（和人類進行同樣訓練）

17.6

星際爭霸

隨機快速學會玩任何遊戲

12.4

憤怒的小鳥

所有Atari遊戲

8.8

疊衣服

5.6

城市5公里競速（雙足機器人vs人類）

11.8

組裝任何樂高模型

8.4

學會不用 Solution Form 排列 Big Numbers

6.2

用Python 為簡單演算法程式設計

8.2

通過互聯網回答事實類問題

7.2

通過互聯網回答開放式事實類問題

9.8

回答答案不確定的問題

撰寫高中水準論文

9.6

生成 Top 40 的流行歌曲

11.4

生成和特定藝術家難辨真假的歌曲

10.8

寫出New York Times 最佳暢銷書

解釋自己在遊戲中的決策

10.2

贏得世界撲克錦標賽

3.6

生成虛擬世界的物理定律

14.8

如果所有的任務，由機器來做比由人類來做成本效率更高的話，AI 就會產生巨大的社會後果。我們的調查使用以下定義：

“高級機器智慧”（High-level machine intelligence，HLMI）的實現是指獨立的機器能夠比人類更好地完成任何一項任務，而且成本更低。

每個受訪者都被要求預測 HLMI 在未來實現的可能性。所有回答的平均值顯示，在未來45年內有50%的可能性實現 HLMI，並且有10%的可能性是在未來9年內實現。圖1顯示了受訪者隨機子集的概率預測，以及平均預測。調查結果顯示有很大的學科差異：圖3顯示，亞洲受訪者對 HLMI 的平均預期是未來30年內，而北美受訪者的預期是74年。

圖1

圖1：未來幾年“高級機器智慧”實現的綜合主觀概率。每個受訪者為自己的預測提供三個資料點，這些資料點適合伽馬 CDF，通過最小二乘法生成灰色CDF。“綜合預測”（Aggregate Forecast）是指所有個別CDF（也稱“混合”分佈）的平均分佈。置信區間是通過引導（對受訪者進行聚類）產生的，並在每一年的間隔繪製預測概率的 95% 區間。LOESS曲線是所有數據點的非參數回歸。

大多數受訪者被提問的是 HLMI 相關問題，但有一個子集被問到的是另一個從邏輯上來說類似的問題，強調 AI 對就業的後果。這個問題將勞動力的完全自動化（full automation of labor）作如下定義：

當所有工作都完全自動化。也就是說，對任何職業，都可以有能夠比人類工作得更好，而且更便宜的機器。

對勞動力完全自動化的預測時間點遠遠晚於 HLMI：個人預測的平均值是在122年後有50%的概率實現，20年內實現的概率是10%。

圖2

圖2：AI 達到人類表現的預測時間中位數（區間為50%）。這個表是50%的可能性實現各AI里程碑的時間。具體來說，區間表示該事件發生的概率是25%~75%的時間範圍，這是從圖1的各個CDF的平均值計算出來的。小黑點表示概率是50%的年份。每個里程碑表示實現或超越人類專家/專業表現（附錄表S5中有詳細描述）。需要注意的是，這些區間代表了受訪者的不確定性，而不是預測的不確定性。

受訪者被要求回答AI的32個“里程碑”實現的時間。每個“里程碑”的回答者是從受訪者中隨機抽取的子集（n≥24）。結果顯示，回答者預期在10年內32個AI里程碑有20個可能實現（平均概率是50%）。圖2顯示了每個里程碑的時間表。

智慧爆炸和 AI 安全問題

AI 的發展前景提出了事關重大的問題。一旦 AI 研究和開發本身實現自動化，AI 進步是否會呈現爆發式增長？高級機器智慧（HLMI）將如何影響經濟增長？這導致極端結果（正面或負面）的概率有多大？我們應該做些什麼來確保 AI 的發展是有益的？

表1

表 1 展示了這些問題的調查結果。重要發現如下：

1.研究人員認為機器學習領域的發展近年來有所加快。我們詢問了研究人員，機器學習領域的發展，是在其職業生涯的前半段更快，還是後半段更快。67％的被調查者表示，後半段的發展速度較快，只有 10％表示前半段發展更快。受訪者的中位數工齡為 6 年。

2.高級機器智慧（HLMI）之後的 AI 大爆炸被認為是可能但可能性不大的。一些學者認為，HLMI 一旦實現，AI 系統將在所有任務中迅速超越人類，建立起廣泛優勢。這種加速度被稱為“智慧爆炸”。我們詢問受訪者，HLMI 實現兩年後，AI 在所有任務中大範圍超越人類的概率。得到的中位數概率為 10％（四分位距：1-25％）。我們還向受訪者詢問了 HLMI 實現兩年後爆發全球技術革新的概率。中位數概率為 20％（四分位距 5-50％）。

3. HLMI 被認為有可能產生積極影響，但災難性風險也是可能的。被訪者被問及 HLMI 是否會對人類長期產生積極或消極的影響。後果用5分制描述。“良好”後果的中位數概率為 25％，“極好”結果的中位數概率為 20％。相比之下，不良結果的概率為10％，而“極差（例如人類滅絕）”結果的概率為 5％。

4.社會應優先考慮旨在儘量減少 AI 潛在風險的研究。48% 的受訪者認為，關於最小化 AI 風險研究優先順序應該比現狀更高（只有 12％的受訪者希望降低優先順序）。

亞洲人比北美人預期 HLMI 的實現時間點早 44 年

圖3

圖3 顯示了個體受訪者預測 HLMI 實現時間點的巨大差異。引用數和資歷二者都對 HLMI 時間表沒有預測意義（見圖 S1 和表 S2 中的回歸結果）。然而，受訪者所在地區的不同帶來了 HLMI 預測上的顯著差異。圖3 顯示出亞洲受訪者預測 HLMI 將在 30 年後實現，而北美受訪者則認為是 74 年後。圖 S1 調查顯示出了近似的差距，兩個受訪者最多的國家，中國（中位數 28年後）和美國（中位數 76 年後）。同樣，關於我們詢問的每項工作（包括卡車司機和外科醫生）的自動化實現概率達到 50％的總年數，亞洲人預計的時間也都要比北美人早（表 S2）。請注意，許多亞洲受訪者現在在亞洲以外學習或工作，我們使用受訪者的本科院校所在國家來判斷受訪者的區域。

我們的樣本有代表性嗎？

所有調查都會面臨一個問題：無應答偏倚（non-response bias）。特別是，有強烈意見的研究人員更有可能填寫調查報告。我們試圖通過縮短調查用時（12分鐘）和保密，並且在我們的邀請電子郵件中不提及調查內容或物件來減小這種影響。我們的回復率是 21％。為了調查可能的無應答偏倚，我們收集了我們的受訪者（n = 406）和無應答的NIPS / ICML研究人員的隨機樣本（n = 399）的人口統計學資料。結果顯示於表 S3 中。引用次數，資歷，性別和原籍國之間的差異很小。雖然我們不能排除由於未測量的變數而導致的無應答偏差，但鑒於我們測量的人口統計變數，可以排除較大的偏差。我們的人口資料還顯示，我們的受訪者包括許多高被引的研究人員（主要來自機器學習領域，也包括統計學、電腦科學理論和神經科學），他們來自43個國家。其中大部分屬於學術界（82％），而 21％在產業界工作。

有待商榷

為什麼會認為 AI 專家有能力預測 AI 發展？長期研究發現，在預測政治結果時，專家比粗略的統計學推測表現更糟。依靠科學突破的AI 發展，可能其內部人士更難預測。但是我們依然有理由保持樂觀。雖然單個突破是不可預知的，但是許多領域（包括電腦硬體，地理，太陽能）在研發方面的長期進展已經非常明確。在SAT問題的解決，遊戲和電腦視覺方面，人工智慧表現的趨勢也顯示出這樣的規律性，並且可以由AI專家在他們的預測中不斷擴展。最後，已經確定的是，綜合個人預測可以大大改善隨機個體的預測。進一步的工作可以使用我們的資料進行更加優化的預測。此外，預計未來十年將會實現許多 AI 里程碑（圖2），為個人專家的預測可靠性提供真實證據。