自動調優資料科學：新研究使機器學習流線化

一個新的自動化機器學習系統比它的人類同行表現得更好，並且工作速度提高了100倍。

資料科學既是一門學科又是一個應用程式。它最近的飛速發展可以部分歸因於其強大的問題解決能力：它可以預測帶有欺騙性的信用卡交易；幫助業主弄清楚什麼時候發放優惠券可以最大限度的提高顧客反應；或者在學生即將退學的時候，通過預測來促進教育干預。

然而，為了得到這些資料驅動的解決方案，資料科學家必須通過一系列複雜的步驟來跟蹤他們的原始資料，每個步驟都需要很多人為決策。

整個過程的最後一步需選定一種建模技術，這是至關重要的一步。從神經網路到支援向量機，有數百種技術可供選擇，選擇最好的一種可能意味著數百萬美元的額外收入，或者發現關鍵醫療設備缺陷和錯過這種發現的區別。

近期，麻省理工學院和密西根州立大學的研究人員在IEEE國際大資料會議上發表了一篇題為“自動調優模型：分散式、協作式、可擴展自動機器學習系統”的論文。該論文提出了一種新的系統，可以讓模型選擇步驟自動化，甚至可以提高人類的表現。該系統被稱為自動調優模型(Auto-Tuned Model， ATM)，它利用雲計算對建模選項進行高通量的搜索，為特定的問題找到最佳的建模技術。它還對模型的超參數進行了優化（對演算法進行優化），

這對性能有實質性的影響。自動調優模型現在作為開源平臺供企業使用。

為了比較自動調優模型與人類的表現，研究人員用協作眾包平臺openml.org的使用者對系統進行測試。在這個平臺上，資料科學家合作解決問題，以彼此的工作為基礎尋找最佳解決方案。自動調優模型分析了來自該平臺的47個資料集，所提供的解決方案比當時人類提供的解決方案要好30%。如果它的表現無法比人類好，它也與人類水準非常接近，而且至關重要的是，它的工作速度比人類快得多。開放的機器學習使用者平均需要100天來提供一個近乎最優的解決方案，而自動調優模型已經可以在不到一天的時間內給出一個答案。

這種速度和準確度為經常被“假設”所困擾的資料科學家提供了急需的平和心態。 “資料科學家有很多種選擇。 ”這篇論文的作者、美國密西根州立大學(Michigan State University)電腦科學與工程學系教授說， “如果一位元資料科學家選擇支援向量機作為建模技術，那麼，總是縈繞在她腦海裡的問題就是：神經網路或不同的模型是否會帶來更高的準確性？”

在過去的幾年裡，模型選擇/調優問題已經成為機器學習一個新的子領域自動機器學習（Auto-ML）的焦點。自動機器學習解決方案旨在為資料科學家提供具體機器學習任務的最佳模型。只存在一個問題：相互競爭的自動機器學習方法會產生不同的結果，而且它們的方法通常不透明。換句話說，

在尋求解決一個選擇問題的同時，這個共同體創造了另一個更加複雜的問題。 “‘假設’問題仍然存在。 ”該論文的資深作者、麻省理工學院資訊和決策系統實驗室(LIDS)的首席研究科學家說， “問題只是變成了‘如果我們使用不同的自動機器學習方法呢?’”

自動調優模型系統的工作方式不同，它使用隨需應變的雲計算，在一夜之間生成並比較數百個(甚至數千個)模型。為了搜索技術，研究人員採用了智慧選擇機制。該系統對數千個模型進行並行測試，然後對每個模型進行評估，並將更多的計算資源配置給那些有望成功的技術。糟糕的解決方案會中途退出，而最好的選擇則會拔得頭籌。

自動調優模型不是盲目地選擇“最好的”提供給使用者，

而是將結果顯示為一種分佈，可以並排比較不同的方法。研究人員表示，通過這種方式，自動調優模型加快了測試和比較不同建模方法的過程，而不會自動化人類的直覺——這仍然是資料科學過程的一個重要部分。

通過流線化模型選擇的過程，該研究團隊的目標是讓資料科學家能夠研究更有影響力的部分。研究人員表示：“我們希望我們的系統能讓專家們騰出更多時間來瞭解資料、問題的形成和特色工程。 ”

為此，研究人員開源了自動調優模型，讓那些想要使用它的企業可以用。他們還添加了條款，允許研究人員整合新的模型選擇技術，從而在平臺上不斷改進。自動調優模型可以在一台機器運行，也可以在本地計算集群或隨需應變的雲端集群上運行，能同時處理多個資料集和多個用戶。

“只用幾個步驟，中小型的資料科學團隊可以建立和生產模型。”研究人員表示，而這些步驟都不需要進行“假設”。

也可以在本地計算集群或隨需應變的雲端集群上運行，能同時處理多個資料集和多個用戶。

“只用幾個步驟，中小型的資料科學團隊可以建立和生產模型。”研究人員表示，而這些步驟都不需要進行“假設”。