谷歌大腦負責人：深度學習需要至少十萬個樣本

矽谷Live / 實地探訪 / 熱點探秘/ 深度探討

深度學習究竟需要多少資料才足夠？

雖然如今深度學習科技已經進一步點燃了 AI 之火，但這項技術卻常因需要大量的資料而備受詬病。人們也一直在爭論，究竟深度學習需要多少資料才足夠呢？

（ Jeff Dean , 圖片來自網路）

“我認為那些至少擁有數以萬計或是十萬計的客戶群體的公司才需要考慮是否使用深度學習技術的問題， ” Jeff Dean，谷歌的資深研究員，近期在伯克利舉行的一場大會上接受採訪時說到， “如果你只有十個樣本，那你與深度學習無關。如果你有將近十萬件你關心的事情，資料，記錄，這時你才應該開始考慮使用這方面的技術。 ”

Dean 是機器學習方面的專家，他是穀歌大腦團隊的負責人，這個團隊專門研究電腦科學和人工智慧相關的各種問題。他本人自從1990年代就開始研究神經網路，而當時他還在撰寫關於人工神經網路的本科畢業論文。

在他看來，機器學習技術有機會影響到所有產業。但其發展速度要視各個產業的具體情況而定。

在人們使用機器學習技術之前，他們需要跨過多重障礙。首當其衝的，就是處理資料，一項頗為耗時且需要大量人為干預的工作。

“其實許多存在於機器學習系統中的工作並不是真正的機器學習， ” Dean 如此說道。 “但你仍然需要大量地去做這些工作。你需要將資料聚集到一起，然後人工地為他們都貼好樣本標籤，再之後，你需要寫一些資料處理管道來生成你希望機器學習使用的資料組。 ”

為了能簡化生成機器學習習系統的全過程，穀歌正在嘗試利用機器學習技術來決定解決特定問題該使用怎樣的系統。這是一個極複雜的任務，但是 Dean 透露，整個團隊的初期研究成果展現出了頗為樂觀的前景。

本文編譯自VB。

想和探長聊一聊？來加探長個人微信號 svinsight