英國皇家學會百頁報告：機器學習的力量與希望（豪華陣容參與）

選自：英國皇家學會

參與：機器之心編輯部

以機器學習為代表的人工智慧技術是當下最為熱門的技術研究方向之一，其被認為對經濟、社會、科學等都會有顛覆性的重大影響。

近日，英國皇家學會（Royal Society）發佈了一份題為《機器學習：能通過樣本進行學習的電腦的力量與希望（Machine learning: the power and promise of computers that learn by example）》的專題報告，對機器學習進行了較為全面的概述，其中涉及到機器學習的基本概念、發展歷程、應用、創造價值的方式和研究前沿等。值得一提的是，該報告的參與團隊陣容非常強大，其中包括 Uber 的首席科學家 Zoubin Ghahramani 教授、Google DeepMind 的聯合創始人兼 CEO Demis Hassabis 博士和亞馬遜機器學習主管 Neil Lawrence 教授等，以下為參與名單：

據信，英國皇家學會是全世界歷史最悠久、而又唯一從未中斷過的科學學會，在國際上享有盛譽。在事實上發揮著英國國家科學院的作用（英國沒有國家科學院）。其一貫宗旨是支持和推動英國及國際間自然科學和應用科學的發展，宣導以科學成果造福全人類。其網址首頁上載明瞭學會的三大職能， 1、英國國家科學院；2、科學學術團體；3、科學研究與交流的資助機構。以撒·牛頓、伯特蘭·羅素、亞當·斯密等許多著名科學家都曾是該學會的成員，目前在世的著名成員還包括斯蒂芬·霍金和楊振寧等。

機器之心在本文中對 TechCrunch 關於該報告的報導進行了編譯介紹，並在文後編譯補充了原報告的執行摘要及其它部分內容。感興趣的讀者也可點擊文末「閱讀原文」查閱原報告。

報告地址：https://royalsociety.org/topics-policy/projects/machine-learning/

什麼能夠推動科技巨頭 Google，

Amazon 以及 Uber 在機器學習技術上的前進，並且最終為它們自己領域平臺的引擎注入更多的動力呢？毫無疑問，是資料，這些公司追求對資料訪問的權利，很多很多的資料！

這些公司正在推動社會對公共資助資料的免費且自由的訪問，敦促這種類型的資料可被持續「預設開放」，並且以一種支持「更廣泛研究」的形式實現結構化。畢竟，在存在大量的公共資助的資訊的情況下，為什麼還要去花錢購買資料呢？

這個機器學習技術進步的期望清單上的其他專案還包括：資料的新型開放標準 (包括中繼資料)；在道德上可能具有最廣泛的認可的研究設計；以及一個重新思考「許可」概念的明確期望來充當良好資料管理的核心，

以使得支援資料訪問的通道更加流暢，使得資料擁有者在人工智慧時代更加「適應目標」。

以上這些建議來自皇家學會（也就是英國國家科學院）4 月 24 日發表的長達 125 頁的報告《機器學習：電腦的力量與希望》, 其作者呼籲營造一個可以讓機器學習技術走向繁榮的環境，以解放備受爭議的生產力，進一步發展經濟。儘管這裡還有一個亟待解答的問題：誰會隨著越來越多資料放棄珍貴的洞見而最終受益。（雖然技術最強大的機器學習部署平臺的三個巨頭支持同一個一個答案。）

爭奪公開的數據

題為《機器學習：電腦的力量與希望》的報告是皇家學會機器學習工作組的工作，其 15 名成員包括目前正在大規模部署機器學習的三家公司的員工： Google DeepMind 的創始人兼首席執行官 Demis Hassabis， DeepMind 的研究科學家 Yee Whye Teh; 亞馬遜機器學習總監 Neil Lawrence; 以及現任 Uber 首席科學家 Zoubin Ghahramani。

報告的主要議題集中在對於一些問題的擔憂上，但討論結束于對於長遠方向前瞻性研究的鼓勵，這符合一份嚴謹科學報告的特質——儘管其中對有關問題的擔憂程度是不容忽視的。

報告讚揚了英國在提高公共部門資料可獲取性方面取得的「良好進展」，敦促人們朝著「政府開放的機器學習資料新浪潮」做「持續努力」，以增強公共部門資料的可用性，並呼籲政府探索能夠促進新型開放標準資料安全、快速交付的方式，這些標準反映了機器驅動的分析方法的需求。

但是，早期的「戰略資料集的價值」的參考資料在報告中進一步被詳細地展開了，因為研究者們認識到早日獲得這些有價值的公共資金資料可能會鎖定商業優勢。（雖然你不會在整篇報告中發現任何一處「壟斷」字樣）。

「意識到一些公共部門的資料的價值是很有必要的。儘管讓此類資料公開化會帶來益處，但是考慮如何分配利益是很重要的，」作者寫道，「那些具備存取權限的人能夠獲得「先行者優先回饋」的優勢，這是很重要的。當有這樣的價值時，戰略性地管理重要資料集或資料來源將會變得越來越有必要」。

報告中沒有這樣的「先行者優先回饋優勢」的例子，但在現實世界中，這樣的情況已經數不勝數，DeepMind 與 NHS 就有醫療資料訪問的合作夥伴關係。尤其是當看到 Google 的一些子公司與倫敦皇家自由 NHS 信託基金會達成的原始資料共用協定存在爭議——因為它們在沒有病人知情或同意的情況下得到了接觸資訊的許可，並且在啟動時將其作為啟動應用程式。DeepMind 正在 NHS 的資料基礎上開展一個雄心勃勃的計畫，試圖構建一個病人資料 API 來代理協力廠商應用程式製造商去訪問 NHS 資料。同樣也是相關，但未被提及的是：原始的 DeepMind-Royal 免費資料共用協議仍在英國資料保護監督機構的調查之下。

與目前的情況相反，《機器學習》報告十分重視 NHS 的資料的價值——將其描述為「英國重要的資料資產之一」——然後才將協力廠商訪問英國公民醫療記錄的概念作為「個人隱私 vs 公共利益」的情況。報告提出發展「適當受控的獲取機制」以解決它引起的這種「不平衡情況」（再一次，其並未提到 DeepMind 已經設定了自主任務以開發受控存取機制）

他們寫到：「如果這種平衡問題得到解決，並且出現適當的開發受控存取機制，則 NHS 資料的潛力巨大，其可以提升 NHS 的功能並改善醫療保健服務。」

然而，我們不並知曉將價值巨大的醫療保健資料從政府資助的 NHS 中分離，誰會在經濟上受益。即使常識告訴你，Google 或者 DeepMind 相信，這是一樁有利可圖的生意，他們可以免費獲得數百萬 NHS 患者的健康資料，且這將賦予他們先發優勢，包括通過控制訪問基礎結構將自己納入醫療保健服務體系的機會。

在該報告的一份總結中，工作組的另一個成員，Amadeus Capital Partners 的聯合創始人 Hermann Hauser 激動地討論了利用機器學習技術的企業潛在的變革機會。他表示：「機器學習在商業中的應用還有很大的發展空間，它將會是説明組織利用他們自己以及其它資料的重要工具。為了實現這些潛在的巨大經濟效益，企業需要獲得不同層面下的正確技能。」

「經濟效益（economic benefits）」一詞至少在這裡被提到了。但投資者存在的理由就是要實現最後的退出。機器學習公司輕易的退出則向參與 AI 人才戰爭的科技巨頭們輸送了大量的效益。2014 年，Google 以超過 5 億美元收購 DeepMind 僅僅是一個例子。所以投資者有其搜尋不太嚴格的公共部門資料治理制度的方法——如果一個 AI 創業公司賭賣給一個科技巨頭，而非自發壯大，那麼它們仍然可以獲得收益。

康奈爾科技技術法律和政策研究員 Julia Powles 對於大量企業以公共部門資料洩露為前提從中獲利的想法表示遺憾。「小公司可以利用他們的資料的想法只是一個謠言，」她曾對 Tech Crunch 表示：「只有真正的巨頭才能從中獲利。」

影響轉移

顯然，該報告的另一部分花了相當的時間關注技能——討論了政府如何鼓勵「機器學習從業人員的發展通道」，包括敦促政府將機器學習作為博士學位的優先領域，並為 1,000 個額外的博士（或更多）提供短期資助。對於那些掌握大部分資金，想要吸引這些擁有巨大價值的人員的科技巨頭來說，機器學習博士當然是其雇傭的首要選擇物件。因此，如果公共部門資助這些額外的博士學位，那麼 Google 等科技巨頭將首先從頂級學術層面的增長獲得收益。

考慮到人工智慧對工作的潛在影響，技能討論（其中包括調整學校課程以涵蓋未來五年的機器學習知識）稍後將在報告的另一部分重新得到評估。本次報告不可避免地會得出機器學習至少會發生「變革」的結論——而且可能導致大量勞動力的就業前景發生影響轉移，作者也認為這種變化可能會增加社會不平等。

所有這一切根本上打破了一些人樂觀的設想，即「每個人」都能夠適應以機器學習為驅動的未來，因為你不會為不存在的工作學習某種技能……在報告作者的眼中，人工智慧的發展將產生巨大的財富和就業不對等，而且還引入了一個集體責任的全新理念（零所有權制度，zero ownership）。

「機器學習及其對就業產生的可能重要的後果所積累的潛在利益需要得到積極的管理，」作者寫到。「如果缺少這種管理工作，機器學習的好處或許就只能覆蓋到少數人，而使另一些人落後，或使他們由於社會地位變化而處於不利地位。

「雖然目前尚不清楚就業市場可能會變成什麼樣，但如今需要思考的是，社會如何才能確保機器學習使用量的進一步增加，不會助長不平等以及某些群體的不滿。如何才能讓所有人都享受到機器學習的好處，是所有人都在面臨的重大挑戰。」

最後，該報告呼籲「急迫地思考」其描述為「未來十年所需的政策尺度，以確保機器學習紅利……以使英國社會的所有成員受益。」如前所述，政策制定者和監管機構需要逐步開始構建框架並確定規則，從而確保機器學習技術在公共部門的資產被評估以前都沒有機會將其剝離（更不用說該技術使得未來公民無法支付那些花式服務的費用，這些服務是通過用公立資料免費進行訓練的機器學習模型所驅動的，它們之後還會被賣回給用戶）。

但是說得婉轉些，該報告所建議的 10 年時長的框架似乎並無誠意。例如，由於大量的 NHS 敏感性資料已經從公共部門流入到了世界上最市場資本化的公司（Alphabet /穀歌/ DeepMind）的手中，從而似乎會有更多的短期問題等待決策者來解決——而不是將其擱置 10 年左右的時間。事實上，議員們一直在敦促有關人工智慧問題的行動，比如演算法責任。

認知與道德

考慮到一個可能會損害人們的隱私並影響其工作風險的技術是十分不得人心的——不難想像，公眾輿論對於該報告的作者們來說是一個需要考慮的方面。英國皇家學院對該報告進行了一次有關機器學習的民意調查，並宣稱發現英國人對其褒貶不一。問題顯然包括「人格解體，或是機器學習系統取代寶貴的人類經驗；機器學習對就業的潛在影響；機器學習系統造成傷害的可能性，例如自動駕駛汽車事故；以及機器學習系統對選擇的限制，比如將消費者引導至特定的產品和服務上。」

「公眾的持續信任將是實現機器學習所期許的承諾的關鍵，而隨著該領域的發展，機器學習研究人員、從業者和公眾之間的繼續參與將會變得非常重要，」他們補充說。

該報告指出，大規模的機器學習研究項目應該包括「公共參與活動」方面的資金。所以至少在短期內，可以做一些公關/市場行銷類型的工作來承接「自動化的社會效益。」他們還呼籲將倫理道德歸入研究生課程的一部分，從而機器學習研究人員就可以感受到「其工作在更廣泛的社會意義上所擁有的強大基礎。」這是一個及時的提醒，因為大部分已被部署的（以及商業應用的）機器學習技術可能已經被那些缺少如此強大的倫理基礎的開發者所改造並實施了。

該報告總結稱：「社會需要認真思考機器學習的好處如何才能使全社會成員受益」。換個說法也即機器學習可能會——以全社會為代價——使財富和權力被集中在少數強大的公司和個人手中。無論以何種方式，這其中都有許多引人深思的事情。

報告目錄

執行摘要

推薦

章節一：機器學習

1.1 從資料中學習的系統

1.2 皇家學會的機器學習項目

1.3 什麼是機器學習

1.4 日常生活中的機器學習

1.5 機器學習、統計、資料科學、機器人和人工智慧

1.6 機器學習的發源與演變

1.7 機器學習中的典型問題

章節二：機器學習的新興應用

2.1 在公共與私人部門中潛在的近期應用

2.2 研究中的機器學習

2.3 增加英國對機器學習的吸收能力

章節三：從資料中提取價值

3.1 機器學習説明從大資料中提取價值

3.2 創造支援機器學習的資料環境

3.3 擴展開放資料的生命週期需要開放的標準

3.4 開放資料技術性替代：類比與合成類資料

章節四：從機器學習創造價值

4.1 人力資本，在各個層次上構建技能

4.2 機器學習和產業戰略

章節五：社會中的機器學習

5.1 機器學習和公眾

5.2 與機器學習應用有關的社會問題

5.3 管理資料使用對機器學習的含義

5.4 機器學習與未來的工作

章節六：機器學習研究的新浪潮

6.1 社會中的機器學習：主要的科學與技術挑戰

6.2 可解釋且透明

6.3 核實且穩健

6.4 隱私與敏感性資料

6.5 處理真實資料：公平且完善的分析管道

6.6 因果關係

6.7 人機交互

6.8 安全與控制

6.9 支持機器學習研究的新浪潮

附加／術語／附錄

機器學習中的典型問題

術語

附錄

執行摘要

機器學習是人工智慧的一個分支，能讓電腦直接從樣本、資料和經驗中進行學習。通過讓計算機智能地完成特定任務，機器學習系統能通過學習資料執行複雜的流程，而不是提前程式設計規則。

近年來，我們看到了機器學習的驚人發展，有能力完成各種應用。資料可用性的增加使得機器學習系統能在大型的樣本池上進行訓練，計算處理能力的增加支撐了這些系統的分析能力。在此領域內，演算法的進步也賦予了機器學習更強大的能力。這些進步帶來的結果就是，幾年前還低於人類能力的系統，如今在特定任務上已經超過了人類水準。

如今，許多人每天都會和基於機器學習的系統進行交互，例如社交媒體中使用的圖像識別系統；虛擬助手使用的語音辨識系統；線上零售商使用的推薦系統。隨著該領域的進一步發展，機器學習展現出了能夠支持大多領域轉型、發展的潛力，帶來的社會與經濟機遇是巨大的。在醫療領域，機器學習正在創造能夠幫助醫生進行高效、準確診斷的系統；在交通領域，它支援了自動駕駛的開發，助力讓現有交通網絡更高效。對公共服務而言，它有潛力進行更高效的目標定位，以及零售服務的目標定位。在科學領域，機器學習正在幫助研究人員理解大量的資料，提供對生物學、物理學、醫療和社會科學等學科的新洞見。

英國在歷史上曾是機器學習的領頭軍。從早期的思想者，到近期在商業上的成功，英國做出了人工智慧研究中的卓越貢獻，從而幫助了機器學習進來的發展。這些在研究與發展中的優勢，意味著英國可在未來機器學習的發展中佔據領導地位。確保機器學習安全與快速發展的最佳環境，將成為增強英國經濟增長、福利、安全以及解鎖「大資料」價值的重中之重。在關鍵領域中的行動，比如建立資料場景圖、構建技能、支持商業、發展研究，都能幫助創造這樣的環境。

機器學習近期的成功很大一部分歸因於一些領域的資料爆炸，例如圖像或語音辨識。這些資料提供了大量的樣本，機器學習可使用它們改進自己的表現。作為回報，通過先進的資料分析提取有價值的資訊，機器學習能説明獲得從所謂的「大資料」中期望的社會與經濟收益。開發機器學習的這一功能，需要經得起檢驗的資料環境，基於開放的標準和框架或行為，來保證各個部門的資料可用性。

隨著機器學習系統在某些領域變得越來越普及與重要，我們需要有三種技能。首先，隨著與機器學習的日常互動成為大多數人的常態，對資料和機器學習系統的瞭解與使用成為所有人群年齡段和背景所需要的重要工具。在學校介紹機器學習的關鍵概念有助於保障這一點。其次，為了確保各個領域和職業有能力以一種對它們有用的方式使用吸收和使用機器學習，我們需要新的機制來使使用者或實踐者獲得足夠的資訊。第三，我們需要進一步的支援來讓人們獲得機器學習的高級技能。

現如今市場對於高級技能人才的需求已經十分高了，而該領域的專家也受到大力追捧，因此企業需要額外的資源來增加人才庫。隨著機器學習、人工智慧和機器人的發展，大力構建數位化讀寫能力和高級用戶的堅定步伐將有助於英國在就業方面的可能變化。

因為產業進一步吸收機器學習的潛在利潤越來越大，這種技術的經濟效用可以在幫助英國解決生產力差距上發揮核心作用。各行各業的企業需要獲得適當的支援以瞭解資料和機器學習對其運營的價值。為了滿足工業界對機器學習的需求，英國需要利用其在這一領域的實力和相對國際競爭優勢支援一個活躍的機器學習產研界。英國的創業環境已經在機器學習方面培養了一些備受矚目的成功案例，英國應該進一步考慮如何最大限度地發揮這一領域創業活動的價值。

皇家學會對這一點進行了研究以瞭解市民對機器學習的看法。雖然大多數人沒有意識到這一術語，但他們確實知道該技術的一些應用程式。公眾並沒有一個共同的觀點，無論是態度還是積極態度，其都是根據機器學習的使用情況而不同。隨著該領域的進一步發展，機器學習與公眾的互動將是非常重要的。

機器學習應用可以在特定任務上實現良好的表現。在許多案例中，人類都可以使用機器學習來增強自己的能力。儘管機器學習的發展很顯然將會改變就業，但預測其實際的發生方式卻並不簡單，現有的研究也都給出了各自不同的預測。儘管機器學習有望給英國的經濟帶來新的業務或領域，但其顛覆性的影響也將給社會帶來挑戰以及關於其社會後果的質疑。其中一些挑戰涉及到資料的新興使用方式將重塑隱私和許可的傳統概念，而其它一些挑戰還涉及到人們與機器的對話模式。我們需要謹慎的管理工作來確保社會中的所有人都能受益於機器學習所帶來的生產力紅利。

機器學習是一個充滿活力的研究領域，具有一系列令人興奮的研究方向，在未來會通過不同的方法和應用進一步發展下去。除了純技術問題的研究以外，在機器學習領域裡還有一些公眾非常關心的議題，或是對其廣泛使用的約束。因此，支援對於機器學習的研究可以確保公眾對於部署機器學習系統的信心。可以開展的研究包括演算法的可解釋性、魯棒性、隱私、公平性、因果關係推理、人機交互和安全等方面。

圖 1：機器學習和人工智慧的發展

18 世紀：統計方法的發展：機器學習的許多關鍵概念都源自概率論和統計學。這些根基可以回溯到 18 世紀。比如說，1763 年，Thomas Bayes 提出了一個用於概率的數學理論（後來被稱為「貝葉斯定理」），其仍然是現代機器學習領域內一些方法的核心概念。

1950 年：圖靈測試：Alan Turing 在 40 年代的一些論文探索了機器智慧的思想。1950 年，他提出了「機器能夠思考？」的問題，並提出了一種測試機器智慧的方法。該方法後來被稱為圖靈測試，即如果一台機器的回應能使人相信它是一個人類，那麼就可以說這台機器是智慧的。

1952 年：能夠玩西洋跳棋的機器：Arthur Samuel 創造了一個早期的學習機器，其可以使用人類專家標注的指示和自我對玩來學習區別好的走子和糟糕的走子，從而學會玩西洋跳棋。

1956 年：達特茅斯會議：「artificial intelligence」這個術語的誕生一般歸功於電腦科學家 John McCarthy，他與 Marvin Minsky、Nathaniel Rochester 和 Claude Shannon 等關鍵人物在 1956 年的一次研討會上使人工智慧成為了一個專門的科學領域。

1957 年：感知器：Frank Rosenblatt 的感知器是創造神經網路的一個早期嘗試，其使用了一種由電機驅動的旋轉電阻器（電位計）。該機器可以接受圖像圖元這樣的輸入，然後得到圖像標籤這樣的輸出。

1973 年：《萊特希爾報告》與人工智慧的冬天：70 年代，該領域的發展很明顯不如人們預期的那麼快。一份由英國科學研究委員會發佈的報告《萊特希爾報告》指出「該領域的所有部分目前都沒有得到有重大影響潛力的發現」。這一評估加上該領域緩慢的進展，最終導致人們對該領域失去信心，人工智慧研究資源也一落千丈。

1986 年：並行分散式處理興起與神經網路模型：David Rumelhart、James McClelland 和 PDP Research Group 發表了《Parallel Distributed Processing》，這是一個兩卷本的研究成果，推動了機器學習中神經網路模型的使用。

1992 年：玩西洋雙陸棋：研究者 Gerald Tesauro 創造了一個基於人工神經網路的玩西洋雙陸棋的程式，其表現可比肩頂級玩家。

1997 年：深藍在國際象棋上擊敗當時的世界冠軍：深藍成為了第一個擊敗當時的世界國際象棋冠軍的電腦系統。深藍利用了 90 年代已經得到了發展的電腦能力來執行潛在走子方式的大規模搜索——據報導其可以每秒處理 2 億步——然後從中選擇出最好的。

2011 年：Watson 擊敗兩位人類 Jeopardy! 冠軍：在美國一個電視解密節目 Jeopardy! 上，IBM 的 Watson 系統擊敗了兩位元人類冠軍。

2012 年：ImageNet 分類賽與電腦視覺的進步：Alex Krizhevsky、Ilya Sutskever 和 Geoﬀrey Hinton 發表了一篇高影響力的論文。該論文所描述的模型贏得了 ImageNet 年度圖像識別比賽，並極大地降低了圖像識別的錯誤率。

2016 年：AlphaGo 擊敗世界圍棋冠軍棋手：Google DeepMind 創造的 AlphaGo 圍棋系統以 4:1 的成績擊敗了世界頂級棋手李世石。

2017 年：學習玩撲克：卡內基梅隆大學的研究者開發了一個名叫 Libratus 的系統，其在歷時 20 天的無限制德州撲克比賽上擊敗了 4 位人類頂級玩家。阿爾伯塔大學研究者開發的系統 Deepstack 也報告了類似的成功。

表 1：機器學習領域的典型問題，其中包括：分類、回歸、聚類、降維、半監督學習、強化學習

DeepMind 的研究科學家 Yee Whye Teh; 亞馬遜機器學習總監 Neil Lawrence; 以及現任 Uber 首席科學家 Zoubin Ghahramani。

他們寫到：「如果這種平衡問題得到解決，並且出現適當的開發受控存取機制，則 NHS 資料的潛力巨大，其可以提升 NHS 的功能並改善醫療保健服務。」

影響轉移

認知與道德

報告目錄

執行摘要