「Science」CMU機器學習系主任：八個關鍵標準判別深度學習任務成功與否

新智元編譯

目前，機器學習在醫療、金融、安防等領域應用廣泛，並替代了一些流程化低級勞動，因此有人認為未來人類的工作將被機器學習所取代，人們面臨失業的危險。

近日，《Science》發表了麻省理工學院數字經濟宣導行動主任Erik Brynjolfsson和卡內基梅隆大學電腦科學學院機器學習系主任Tom Mitchell的文章，他們從機器學習和經濟學角度分析了人類會不會“被失業”的問題。

引言：機器學習改變的太多了

在過去的幾十年裡，數位電腦已經改變了幾乎所有經濟領域的工作，現在的我們正處於一個更大、更快速變革的開端，這一切歸功於機器學習的最新進展，它有能力加快自動化的步伐。

對機器學習的進展至關重要的是改進演算法的組合，包括深度神經網路和相當快的電腦硬體。例如， Facebook基於短語的機器翻譯模型，每天有超過45億的語言翻譯。圖像識別的演算法在ImageNet上造成了越來越低的錯誤率，使其從2010年的超過30%下降到今天的不到3%。同樣，自2016年7月以來，語音辨識方面錯誤了從8.4%降低到4.9%。

然而，機器學習是一個“通用技術”，就像蒸汽機和電力一樣，它將產生大量的創新和功能。但對於具體的勞動力的影響和因此產生的更廣泛的經濟問題而言，

我們還沒有深刻的認識。現實也並不像我們有時所宣稱的那樣，人們面對即將到來的“失業”問題。

儘管機器學習的進步能力讓人印象深刻，但它並不適用於所有任務，並且在在決策能力上也比人類弱的多。

八個關鍵標準來判別深度學習在任務中成功與否

1、能夠學習函數，將定義明確的輸入映射到明確輸出

其中包括分類（例如，根據癌症發生的可能性給狗狗的圖片做標記或標記醫療記錄）和預測（例如，分析貸款申請來預測未來違約的可能性）。儘管機器學習可能學會預測與給定輸入X相關的Y值，但這是一種學習的統計相關性，也許機器學習不會理解因果關係。

2、存在或者能夠創建含有輸入-輸出對的大資料集

訓練的例子越多，學習的準確度就越高。深度神經網路的顯著特徵之一是，它在許多領域的性能在一定數量的示例之後似乎並不具有漸近性。尤其重要的是，所有相關的輸入特性都要在訓練資料中獲取。儘管原則上任何任意的函數都可以用深度神經網路表示，但是電腦很容易模仿和延續訓練資料中存在的不需要的偏差，並忽略那些包含了它們不能觀察到的變數的規則。通過對現有流程和客戶交互進行監督，可以通過雇傭人員標記或創建全新的資料集，或者通過類比相關的問題設置來創建數位資料。

3、能夠提供明確回饋，具有明確的目標和指標的任務

當我們能夠清晰地描述目標時，

機器學習就能很好地工作，即使我們不能確定實現這些目標的最佳過程。儘管機器學習能模仿個體，但由於在獲取個體的輸入輸出決策能力上的缺失，因此它可能不會形成最佳的全系統性能。因此，為性能定義了系統範圍的度量標準，為深度學習系統提供了一個黃金標準。當訓練資料按照這樣的黃金標準進行標記時，深度學習尤其強大，從而定義了預期的目標。

4、擺脫對背景知識或常識的依賴，縮短甚至跳脫邏輯推理的長鏈

機器學習系統在學習資料中的經驗關聯方面非常強大，但是當任務需要依賴電腦未知的常識或背景知識的長推理鏈或複雜計畫時，它的效率較低。一般來說，機器學習在視頻遊戲中表現不錯，這種遊戲需要快速反應，並提供即時回饋，但在遊戲中選擇最佳動作取決於記憶先前事件的時間以及關於世界的未知背景知識（例如，知道房間裡新引入的物品可能在哪裡找到）。例外的是，圍棋和象棋這樣的遊戲，因為這些非物理的遊戲可以以非常精確的速度快速類比，所以可以自動收集數百萬個完全自我標記的訓練樣例。但是，在大多數現實世界中，我們缺乏完美的模擬。

5、不需要詳細解釋決定是如何做出的

大型神經網路通過巧妙地調整數以億計的數位權重來學習做出決定，這些數字權重互連了他們的人造神經元。解釋這種決定對人類的推理可能是困難的，因為深度神經網路通常不會使用與人類相同的中間抽象。例如，雖然電腦可以診斷特定類型的癌症或肺炎，或者比專家醫生更好，但與人類醫生相比，他們解釋為什麼或如何提出診斷的能力較差。

6、具有容錯性，不需要最佳解決方案，或者證明是正確的解決方案

幾乎所有的機器學習演算法都是從統計和概率上推導出他們的解決方案。因此，很難將其訓練到100％的準確度。即使是最好的語音，物體識別和臨床診斷電腦系統也會犯錯（就像最好的人類一樣）。因此，容忍學習系統的錯誤是制約採用的重要標準。

7、學會的現象或函數/功能不要隨時間發生快速的變化

一般來說，只有當未來測試例子的分佈類似於訓練樣例的分佈時，機器學習演算法才能很好地工作。如果這些分佈隨著時間而改變，則通常需要再培訓，因此成功取決於相對於新培訓資料獲取率的變化率（例如，電子郵件垃圾郵件篩檢程式做得很好，部分原因是與垃圾郵件發生變化的速度相比，新電子郵件的獲得率the rate of acquisition較高）。

8、沒有專門的靈巧性，身體技能或移動性要求

在處理非結構化環境和任務中的物理操作時，機器人與人類相比仍然笨拙。這不是機器學習的缺點，而是機器人的一般物理機械操縱器的現有技術的結果。

六個非技術影響因素

除了上述標準外，還有許多非技術因素會影響到機器學習對勞動力的影響。具體而言，機器學習對勞動力需求和工資的總體影響可以寫成六個不同經濟因素的函數：

1、勞力替代

2、價格彈性

3、互補性

4、收入彈性

5、勞動力供給彈性

6、業務流程重新設計

（經濟學內容在此不做詳細敘述）

最後，任何關於機器學習夠和不能做什麼，以及如何影響經濟的討論，都應該首先認識到兩個基本的考慮因素：1、我們仍非常遠離通用人工智慧，機器也不能做全方位的任務。2、儘管技術創新通常能夠影響和改善整體生活水準，但技術進步導致工資不平等表明，機器學習帶來的經濟效應可能具有極大的破壞性，既造造就了贏家，又造就了輸家。

這就要求決策者、商業領袖、技術人員和研究人員相當重視這些問題。

文章地址：

http://science.sciencemag.org/content/358/6370/1530

作者介紹：

Erik Brynjolfsson

麻省理工學院數字經濟宣導行動（the MIT Initiative on the Digital Economy）主任，斯隆學院教授。

Tom Mitchell

卡內基梅隆大學電腦科學學院機器學習系主任、教授，美國工程院院士，著有《機器學習》等。

這種遊戲需要快速反應，並提供即時回饋，但在遊戲中選擇最佳動作取決於記憶先前事件的時間以及關於世界的未知背景知識（例如，知道房間裡新引入的物品可能在哪裡找到）。例外的是，圍棋和象棋這樣的遊戲，因為這些非物理的遊戲可以以非常精確的速度快速類比，所以可以自動收集數百萬個完全自我標記的訓練樣例。但是，在大多數現實世界中，我們缺乏完美的模擬。