MIT 新系統用機器學習實現機器學習，合成資料較好代替真實資料

新智元編譯

雖然資料科學家可以從大型資料集中得出很多洞見，並利用這些洞見應對挑戰、實現任務目標——但這談何容易！許多這樣的努力從一開始就困難重重，因為隱私問題使科學家難以訪問他們想要使用的資料。

在一篇提交給 IEEE 國際資料科學和高級分析會議的論文中， MIT 資訊和決策系統實驗室（LIDS）的 Data to AI Lab 成員 Kalyan Veeramachaneni，論文合作者、LIDS及資料、系統和社會學院（IDSS）的首席科學家 Neha Patki 和 Roy Wedge 描述了一種自動創建合成資料的機器學習系統，

目的是使資料科學的努力，即使缺乏對實際資料的訪問，也不會完全和真實情況脫節。使用真實資料可能會引起嚴重的隱私問題，而這種合成資料與真實使用者所產生的資料完全不同，卻仍可用于開發和測試資料科學中的演算法和模型。

Veeramachaneni 說：“一旦我們為整個資料庫建立了模型，我們就可以取樣並再造出一個這些資料的合成版本，從統計學的角度看，合成版本看上去和原始資料庫非常像。如果原始資料庫中有一些缺失的值和一些噪音，我們還將該雜訊也嵌入在合成版本中。在某種程度上，我們正在使用機器學習來實現機器學習。 ”

這篇論文介紹了 Synthetic Data Vault （SDV），該系統可以從真實資料庫中構建一個機器學習模型，

來創建人造或合成資料。這一演算法稱為“遞迴條件參數聚合”（recursive conditional parameter aggregation），利用了所有資料庫共有的資料階層結構。例如，它可以根據客戶交易表中的交易資訊，為每個客戶形成多變數模型。

該模型捕獲這些交易中多個域之間的相關性，例如購買數額和類型，以及交易發生的時間等等。在演算法對每個客戶進行建模並組合參數後，可以自己形成這些參數的多變數模型，並對整個資料庫進行遞迴建模。一旦模型完成學習，就可以合成一個充滿人工資料的資料庫。

測試表明，合成資料能夠較好地取代真實資料

在開發了 SDV 後，該團隊使用它為五種不同的公開資料集生成了合成資料。然後，作為眾包實驗的一部分，

他們聘請了 39 位元獨立資料科學家，分成四個小組，開發預測模型。他們想要回答的問題是：在被給予合成資料的資料科學家和訪問真實資料的資料科學家之間，他們的工作是否存在區別？為了測試這一點，一組被給予了原始資料集，而另外三組拿到的則是合成版本，每個組使用他們的資料來解決一個預測建模問題，最終在 5 個資料集上進行 15 次測試，最後，比較他們的解決方案，可以看出使用真實資料生成的組和使用合成資料生成的組在 15 個測試中的 11 個上沒有表現出顯著的性能差異（70%）。

這些結果表明，合成資料可以成功地取代軟體編寫和測試中的真實資料——這意味著資料科學家可以使用它來克服訪問中存在的重大困難。

Veeramachaneni 說：“使用合成資料可以擺脫‘隱私瓶頸’，這樣一來後續的工作就可以開始了。這對一系列行業的資料科學都會有影響。除了一些以前無法進行工作現在可以開始以外，合成資料也將使資料科學家能夠繼續進行已經開始的工作，而不會涉及到真正的潛在敏感性資料。

Veeramachaneni 說：“公司現在可以創建他們資料倉庫或資料庫的合成版本了。這樣他們就可以規避諸如優步這樣的公司所面臨的問題，並使他們的資料科學家能夠繼續設計和測試方法，而不會侵害到正在使用他們服務的人士——包括他們的朋友和家人——的隱私。 ”

此外， Veeramachaneni 及其團隊的機器學習模型在規模上可以輕鬆縮放，創建非常小或非常大的合成資料集，適應大資料系統的快速開發週期或壓力測試。

人工資料也是教育學生的寶貴工具。真實資料對於他們的工作往往過於敏感，現在則可以有效地利用合成資料。這一創新可以讓下一代資料科學家享受大資料的所有好處，而不用承擔任何責任。

IEEE 論文：合成資料庫

摘要

本研究的目標是建立一個自動創建合成資料以實現資料科學潛能的系統。為了達到這一目標，我們提出了 Synthetic Data Vault (SDV)，該系統構建了關聯式資料庫的生成模型。我們能夠從模型中進行抽樣並創建合成資料，因此命名為SDV。在實施 SDV 時，我們還開發了一種演算法，用於計算相關資料庫表的節點處的統計資訊。然後，我們使用最先進的多變數建模方法對該資料進行建模。SDV 遍歷所有可能的關係，最終為整個資料庫創建一個模型。一旦該模型的計算完成，相同的關係資訊允許SDV 從資料庫的任何部分進行抽樣來合成資料。

構建 SDV 後，我們使用它為五個不同的公開資料集生成合成資料。然後，我們發佈了這些資料集，並要求資料科學家為它們開發預測模型，作為眾包實驗的一部分。通過分析結果，我們顯示合成資料可以成功地在資料科學中替代原始資料。我們的分析表明，使用合成資料而非真實資料的資料科學家的工作沒有顯著差異。我們得出結論，SDV是合成資料生成的可行解決方案。

論文地址：http://dai.lids.mit.edu/SDV.pdf

MIT 報導文章：http://news.mit.edu/2017/artificial-data-give-same-results-as-real-data-0303

新智元招聘

職位：客戶總監

職位年薪：30 - 60萬（工資+獎金）

工作地點：北京-海澱區

所屬部門：客戶部

彙報物件：COO

下屬人數：8 人

年齡要求：25 歲至 40 歲

性別要求：不限

工作年限：5 年

語言：英語 + 普通話

學歷要求：全日制統招本科

職位描述：

熱愛人工智慧，在行業內有一定的人脈資源和影響力；

為客戶制定媒體關係策略和公關活動策劃，達成客戶的市場或傳播目標；

負責監督公關專案的計畫和實施，使專案能按期在預算內完成；

積極拓展客戶資源，開發公司業務，與既有客戶保持緊密的業務聯絡和溝通；

監督、管理及考核客戶服務團隊，全面提升公司客戶服務品質；

理工科背景優先，有知名企業或知名媒體機構工作經驗者優先。

適應大資料系統的快速開發週期或壓力測試。