如果資料品質不好，你的機器學習工具就沒用了，咋辦？

對於機器學習廣泛化、盈利化來說，資料品質差是頭號敵人。儘管這話有些刻薄，但是， “垃圾資料登錄，垃圾資料輸出”一直困擾著一代又一代的分析師和決策者，因此，對於機器學習的資料，我們必須給予足夠的重視。

機器學習的資料品質要求是非常高的，壞的資料可以在兩個方面拖後腿：一個是訓練預測模型，另一個是預測未來決策。

為了正確訓練預測模型，歷史資料必須符合特別廣泛和高品質的標準。首先，資料必須正確：它必須是正確標記的，去除重複的，等等。但是，在開發預測模型的整個輸入範圍內，你還必須擁有正確的，大量無偏差的資料。大多數資料品質工作只需要達到其中一個標準，但對於機器學習來說，必須符合這兩個標準。

然而今天，大多數資料未能滿足基本的“資料是正確的”標準。原因包括資料創造者不知道要預測什麼，

測量工具不精確，資料獲取過程過於複雜，以及人為錯誤等。

為了彌補以上不足，資料科學家在訓練預測模型之前首先要整理資料。這是一項耗時又乏味的工作(佔用了資料科學家80%的時間)，這是科學家們抱怨最多的問題。

即使有這樣的努力，整理工作也不能檢測或糾正所有的錯誤，而且目前還無法理解其對預測模型的影響。更重要的是，資料並不總是符合“正確”的標準，關於面部識別和刑事司法的偏見的報導證實了這一點。

為了處理日益複雜的問題，我們不僅需要更多的資料，還需要更多樣化，更全面的資料。同時關注資料品質問題，例如，手寫的筆記和本土化的首字母縮略詞就使得IBM的機器學習(如沃森)應用於癌症治療變得複雜起來。

在實現過程中保證資料品質也同樣麻煩。雖然開發預測模型的資料科學團隊可能已經完成了對訓練資料的整理工作，但資料集仍有可能被未來出現的糟糕資料所影響。所以必須進行再一次努力，要很多人找到並改正錯誤。

這嚴重影響了生產率。

此外，隨著機器學習技術滲透組織機構，一個預測模型的輸出結果將會被各層級使用，從一個層級到另一個層級，甚至跨公司各部門使用。其帶來的風險是，一個小的錯誤將會關聯公司每個使用資料的部門，導致更多的錯誤，並在整個過程中使小錯誤變大。

這些問題必須有一個積極的，執行良好的資料品質計畫來監管，這比日常工作所需要的管理要重要得多。它要求全體負責人採取以下五個步驟來進行管控。

明確目標，並評估是否有合適的資料支援這些目標

假設一家抵押貸款發放公司，希望將機器學習應用到貸款過程中。公司是否應該給予貸款，如果是，應該符合什麼條件?

機器學習的目標可能包括:

1.降低現有決策過程的成本。既然不以做出更好的決策為目標，那麼現有的資料可能就足夠了。

2.消除對現有決策過程的偏見。這種偏見反映在現有資料中，所以要謹慎行事。

3. 改進決策過程。發放少量的違約貸款，批准先前拒絕的貸款。注意，雖然該公司有大量先前拒絕的抵押貸款的資料，但它不知道這些抵押貸款是否能發揮作用，所以要謹慎行事。

當資料達不到目標時，最好的辦法是找新資料，或者縮小目標，或兩者兼顧。

需要有足夠的時間將資料品質納入整體項目計畫

對於訓練來說，這意味著每個人都要花4個月的時間去做資料處理，因為你必須測量品質水準、評估來源、去重複等，做出乾淨的訓練資料，就像你做任何重要的分析一樣。

為了實現目標，消除錯誤的最好辦法，就是儘量減少應用過程中的清理。這樣做有助於消除隱藏的資料庫中的錯誤，同時也會節省你的時間和金錢。儘早開始這項工作，應該在你想讓你的預測模型投入應用至少6個月之前就開始做這些。

在準備訓練資料時進行審核跟蹤

保留你的原始訓練資料的副本，包括你在訓練中使用的資料，以及從第一階段到第二階段所使用的步驟。

儘管許多人不明智地跳過這一步，但它可以幫你在未來的決策中使用預測模型來改進流程。此外，瞭解模型中的偏差和限制是很重要的，審核跟蹤可以幫你解決這個問題。

當模型出現問題時，必須向負責資料品質的個人(或團隊)問責

這個人應該對資料有深入的瞭解，包括其優點和缺點，並且他的工作有兩個重點。

首先，必須日復一日地，為傳入資料的品質設置和執行標準。如果資料不夠好, 負責人必須進行干預或接管。第二，必須時刻努力尋找根本原因，消除錯誤。這項工作從一開始就要做，而且必須一直堅持做下去。

獲得獨立，嚴格的品質保證

品質保證是確保品質計畫提供期望結果的過程。這裡的關鍵是要保持獨立，所以這項工作應該由其他人來完成——內部品質保證部門，部門之外的團隊或合格的協力廠商。

即使在這五個步驟之後，你也會發現你的資料並不完美。你可以允許預測模型中有一些次要的資料品質問題，如15個最重要的變數中有一個缺失值。為了探索這一領域，在準備資料和訓練模型時，要讓資料科學家和最有經驗的業務人員合作。

創業公司Stratyfy的蘿拉•科恩豪澤(Laura Kornhauser)就這樣說過:“儘快讓你的業務人員和資料科學家們聚在一起。特別是業務人員，他們一直在處理糟糕的資料，你需要把他們的專業知識應用到你建立的預測模型中去。”

這看起來很複雜是嗎?的確是這樣的。但是機器學習有著不可思議的力量，你需要學會利用這種力量。糟糕的資料品質可能會導致這種力量發揮不出來，或被誤用、濫用，這充分說明了你的每一分努力都是值得的。

作者：Thomas C. Redman

智能觀編譯

—完—

親愛的朋友：

我們都知道，想有好的AI應用與研究，需要高品質的資料做基礎。

希望本文介紹的關於如何確保資料品質的方法，可以對你有所啟發。

祝安！

智慧觀一米

2018-4-21 於北京中關村

想知道AI加教育領域有哪些最新研究成果？

想要AI領域更多的乾貨？

想瞭解更多專家的“智慧觀”？

請在對話介面點擊“找找看”，去獲取你想要的內容吧。

聲明：

編譯文章旨在幫助讀者瞭解行業新思想、新觀點及新動態，為原作者觀點，不代表智能觀觀點。

轉載智慧觀原創文章，請聯繫

智慧觀小艾（微信號：zng2017618）！