人工合成資料，讓小型創業公司也能在 AI 上大有作為

不過，柏林的一家新創公司 Spil.LY 想出了一個解決辦法，即用虛擬合成資料來訓練他們的 AI。他們需要用 AI 演算法來密切追蹤視頻中的人體移動，但沒有資源來收集需要應用在專案訓練的中的數十萬個手動標記圖像。

Spil.LY 的工程師開始嘗試自己製作資料，創建一些標記圖像來訓練演算法。畢竟真實圖像和製作出來的虛擬影像還是有些差距的，就單從外觀上來講，我們看起來可能有點怪異，不過在使用上絲毫不遜色於真實圖像。

圖片來自 Spil.LY

事實上，除了 Spil.LY 之外，還有不少創業公司也在利用人工合成資料來訓練他們的演算法，又或者做起了合成資料的生意。

比如，以色列的創業公司 DataGen 就花費高達數百萬的資金來製作這些合成圖像，而且生成的虛擬影像完全可以以假亂真。

因為客戶希望能夠通過攝像頭追蹤到家畜的生長情況，愛沙尼亞塔林的創業公司 Neuromation 正在嘗試使用類比豬的圖像來當訓練素材。

圖片來自Neuromation

當然，使用合成資料不只是創業公司在幹的事情，像 Google、蘋果、微軟這些擁有全球龐大資料量和豐富資金的人工智慧團隊也都會使用合成資料。

以蘋果公司為例，該公司在 2016 年就發佈了一篇關於如何生成逼真圖像的研究論文，

並用以 AI 在對抗的訓練來從類比和無監督圖像中學習。在蘋果去年發佈具備面部識別的和解鎖功能的 iPhone X 後，業界猜測這是合成資料成功運用的一個體現，儘管蘋果官方沒有承認這一點。

又比如，微軟在去年發佈了關於如何運用 200 萬個合成語句，來改進黎巴嫩阿拉伯語方言翻譯的結果。 Alphabet 的 Waymo 就曾公開過，其自動駕駛系統在的類比街道上「行駛」了數十億英里。

即便合成資料被 AI 訓練取得了不少的應用成果，但這不並不意味著我們就可以大範圍的使用合成資料來代替真實資料了。這好比用克隆人和真人，外表毫無差距，但內心世界是無法複製的。而類比的合成資料也同樣面臨這樣的問題，

這些資料無法很好的理解現實環境並作出自然的反應。尤其是在一些複雜問題處理的應用上，風險難以把控。（題圖來自 Spil.LY Facebook）