致開發者：2018年AI技術趨勢展望

時間＼2018-01-19

作者｜Alex Honchar

譯者｜核子可樂

編輯｜Emily

AI 前線導讀：近日，一篇預測 2018 年 AI 技術趨勢的文章吸引了 AI 前線的注意，

文中討論了如何將 2017 年業界已經醞釀出一些成熟產物在在 2018 年實現大規模應用。在 2018 年，開發者如何將一系列 AI 技術成果應用於當前的工作當中呢？AI 前線對這篇文章做了部分翻譯，供大家參考。

更多乾貨內容請關注微信公眾號“AI 前線”，（ID：ai-front）

注意：今天的文章包括一份目前已經在實踐中應用的 AI 演算法與技術成果清單，如時序分析（深度學習正迅速取代信號處理領域中的一些傳統技術）等。

一方面，這些成果可以說相當酷炫，但本文暫時不會對強化學習的實際應用進行展望，因為在我看來，實際上其還很難在某些工業應用環境中產生實際效果。當然，不能否認的是，強化學習確實是個前景廣闊，且正處於快速發展中的研究領域。這裡我就不再繼續討論圖像識別與簡單的電腦視覺議題了，畢竟這幾年此類文章已經多如牛毛：）

GAN 與偽造

儘管生成性對抗網路已經擁有數年發展歷史，但我對其仍抱有懷疑態度。幾年過去，雖然如今的技術不再只能生成可憐的 64 x 64 圖像，但這仍不足以打消我的顧慮。在閱讀相關數學文章後，我對 GAN 並不能真正理解其分佈狀況的懷疑進一步加深。不過這一切在今年有所改變——首先是 CycleGAN 等有趣的體系以及 Wasserstein GAN 等數學改進讓我得以在實踐當中加以嘗試。雖然其實際效果仍無法令人完全滿意，

但現在我已經確定，其生成能力絕對不容質疑。

首先，我強烈推薦英偉達公司發表的關於生成逼真全高清圖像的研究論文（共結果要遠好於一年之前恐怕的 64 x 64 面部圖像）：《AI 可以生成偽造的名人臉部圖像，效果好得讓人意外......》

https://www.theverge.com/2017/10/30/16569402/ai-generate-fake-faces-celebs-nvidia-gan

不過更讓我激動的（甚至喚起了我的‘少年夢想’），則是利用 AI 生成偽造的色☆禁☆情影片：

《AI 生成的色☆禁☆情片》

https://motherboard.vice.com/en_us/article/gydydm/gal-gadot-fake-ai-porn

另外，遊戲行業也在大規模採用這些新型技術，

例如利用 GAN 生成景觀、英雄甚至整個世界。在我看來，我們必須提高自己的分辨能力——從偽造的色☆禁☆情影片到欺詐性網路人物。

全部神經網路皆遵循同一獨特格式

現代開發領域（不僅僅是在人工智慧行業）的一大難題在於，我們往往面對數十種作用基本相同的框架方案。目前，每家投身於機器學習領域的大型企業都擁有自己的框架：穀歌、Facebook、Amazon、微軟、英特爾、甚至包括索尼與優步都是如此，

這還不算其它眾多開源解決方案。在單一人工智慧應用程式當中，我們往往需要使用多種不同框架——例如利用 Caffe2 實現電腦視覺，PyTorch 實現自然語言處理，TensorFlow/Keras 則專攻推薦系統。將這一切加以合併需要耗費大量時間，意味著資料科學家與軟體發展人員需要費心費力，而無法專注於處理真正重要的任務。理想的解決方案應當是一種獨特的神經網路格式，且可輕鬆與各類框架進行對接，包括允許開發人員輕鬆部署、確保科學家能夠輕鬆使用。在這方面，ONNX 應運而生：

《ONNX：開源神經網路改變了格式》

http://onnx.ai/getting-started

可互換 AI 模型的新開源生態

事實上，ONNX 只是非迴圈計算圖的一種簡單格式，但卻在實踐層面為我們帶來真正部署複雜 AI 解決方案的機會。我個人非常看好該專案——人們能夠在 PyTorch 等框架當中開發神經網路並部署工具，而不再需要從頭到尾始終被局限在 TensorFlow 生態系統之內。

Zoo 快速普及

三年之前，人工智慧領域最令人興奮的成果當數 Caffe Zoo。當時我負責處理大量電腦視覺工作，因此需要嘗試所有模型，並觀察其工作原理以及實際效果。在此之後，我會利用這些模型進行遷移學習或者作為特徵提取器。最近我開始使用兩種不同的開源模型，並將引入規模更大的電腦視覺處理管道。究其本質，這意味著我們已經不再需要自行訓練網路。舉例來說，ImageNet 能夠很好地實現物件或者地點識別，因此我們可以直接將這些基礎性成果下載並接入到自己的系統當中。除了 Caffe Zoo 之外，其它框架也提供類似的 Zoo 方案。但真正讓我驚奇的是，現在大家甚至能夠將各類模型添加至電腦視覺、自然語言處理甚至是 iPhone 內的加速度計信號處理機制當中。

最全的核心機器學習模型清單（iOS 11 以上）

https://github.com/likedan/Awesome-CoreML-Models

在我看來，這類 Zoo 方案只會越來越多 ; 再加上 ONNX 這類生態系統的出現，這些方案將變得更加集中（並憑藉機器學習區塊鏈類應用實現本體分散）。

AutoML 替換管道

設計一套神經網路架構無疑是一項痛苦的任務——有時候，大家可以通過疊加卷積層獲得相當出色的結果，但在大多數情況下，我們需要利用直覺與超參數搜索等方法認真設計寬度、深度與超參數——例如隨機搜索或貝葉斯優化。而且對於除電腦視覺以外的其它工作，我們不光需要對 ImageNet 上訓練完成的 DenseNet 進行微調，同時也要面對 3D 資料分類或者多變數時序應用等其它難題。

目前已經存在多種能夠利用其它神經網路從零開始生成新的神經網路架構的嘗試，但其中我最為看好的，當數穀歌研究團隊拿出的最新成果：

AutoML 用於大規模圖像分類與物件檢測

https://research.googleblog.com/2017/11/automl-for-large-scale-image.html

他們利用其生成電腦視覺模型，且不僅速度較人類科學家更快，效果也更好！我相信很快就會出現大量與之相關的論文與開源成果。在我看來，未來將有更多博文或初創企業不再強調“我們開發出一套 AI 方案……”，而是轉向“我們的 AI 方案能夠學習其它 AI 方案，並借此創造出新的 AI 方案”。至少我肯定會在自己的項目中加以嘗試，請告訴不只我一個人有這樣的衝動。

智慧堆疊規範化

關於這個概念，我的認知主要來自俄羅斯系統分析師、教練兼 AI 愛好者 Anatoly Levenchuk 的博客。通過以下圖片，大家可以看到所謂“AI 堆疊”的示例：

其中不僅包含機器學習演算法與您最喜愛的框架，同時也存在著諸多更為深入的層級，且各個層級都擁有自己的發展與研究趨向。

我認為人工智慧開發行業已經非常成熟，其中存在著大量多元化的專家。事實上，團隊中僅有一名資料科學家是遠遠不夠的——大家需要不同的人才來進行硬體優化、神經網路研究、AI 編譯器開發、解決方案優化以及生產實現。而在他們之上，還應設置不同的團隊領導者、軟體架構師（分別為各個問題進行堆疊設計）以及管理員。之所以在這裡提及這個概念，是希望各位 AI 技術專家能夠在職業規劃當中予以關注——例如對於希望成為人工智慧軟體架構師或者技術領導者的朋友，您將能夠借此確定自己需要學習哪些知識。

語音類應用

人工智慧能夠以高於 95% 的精確度解決的問題其實非常有限：我們可以將圖像歸類為 100 種類別、可以判斷文本內容屬於正面還是負面，此外還有少數更為複雜的可行任務。展望新的一年，我認為最具突破的應用方向在於語音辨識與生成。事實上，一年之前 DeepMind 發佈的 WaveNet 已經擁有相當出色的表現，但現在感謝百度 DeepVoice 3 以及穀歌 Tacotron2 的助力，上述結論已經基本成為板上釘釘的事實：Tacotron 2: 立足文本生成逼真的人類語音

數十年以來，技術人員們一直在努力研究如何立足文本生成自然的人類語音（即文本到語音，簡稱 TTS 技術）……

https://research.googleblog.com/2017/12/tacotron-2-generating-human-like-speech.html

這項技術將很快擁有自己的開源版本（或者被其他一些技術天才所重現），意味著未來每個人都能夠以極高的精度實現語音辨識與生成。那麼接下來的前景如何？毫無疑問，除了更出色的個人虛擬助手、自動閱讀器以及對話轉錄工具之外，音訊偽造也將成為現實。

機器人智慧水準略有提高

我們目前所擁有的機器人存在著一大共通性問題——其中 99% 根本不屬於人工智慧，而只是硬編碼型方案。考慮到這樣的情況，我們意識到已經不能簡單利用數百萬次對話訓練編碼器 - 解碼器 LSTM，並指望能夠借此建立起智慧系統。正因為如此，Facebook Messenger 與 Telegram 中的大多數聊天機器人只能遵循硬編碼命令，或者最多只能算是具備 LSTM 與 word2vec 語句分類能力的神經網路。現代先進自然語言處理技術的實際水準應該略高於此，Salesforce 公司做出的一些有趣實驗已經證明了這一點：

AI 研究 - Salesforce.com

他們正在著手構建自然語言處理與資料庫的介面，希望借此克服現代編碼器 - 解碼器自回歸模型——即不僅能夠對文字或句子進行嵌入，同時還可實現字元嵌入。此外，ROUGE 等自然語言評分優化機制等研究成果同樣值得關注。

我相信通過上述開發工作，未來我們的聊天機器人至少能夠獲得更強大的智慧資訊檢索與命名實體識別能力，並可能會在一部分封閉領域當中出現完全由深度學習技術驅動的機器人方案。。

時序分析的當前發展水準

除了 Salesforce 之外，另一股遭受嚴重低估的機器學習研究力量當數優步 AI 實驗室。前一段時間，他們曾發表一篇博文，其中展示了其時序預測方法。老實講，這實在令我感到受寵若驚——因為其成果與我在應用當中使用的方法基本相同！下面來看這一將統計特徵與深度學習表達加以結合的驚人示例：

優步公司利用遞迴神經網路預測極端性工程事件在優步公司，事件預測能力允許我們根據預期中的使用者需求設計面向未來的服務方案。

https://eng.uber.com/neural-networks/

此外還出現了其它更激動人心的實例，包括利用 34 層 1 維 ResNet 診斷心律失常。最酷的是其擁有非常出色的成效——不僅遠超多種傳統統計模型，甚至在診斷率方面勝過了專業心臟病專家！演算法診斷心律失常疾病，準確度超越心臟病專家|斯坦福新聞由斯坦福大學電腦科學家們發明的一種新演算法能夠對心律資料進行篩選……

https://news.stanford.edu/2017/07/06/algorithm-diagnoses-heart-arrhythmias-cardiologist-level-accuracy/

我最近一直投身於深度學習的時序分析工作當中，並可以向大家保證神經網路在這方面確實表現良好。與傳統的“黃金標準”相比，其成效可達到原有水準的 5 到 10 倍。

優化應當獲得更多關注

我們該如何對自己的神經網路進行訓練？實事求是地講，大多數從業者只是在使用“Adam”以及標準學習率。也有一些聰明的從業者會選擇最適合的優化器，同時調整並安排其學習速度。然而，大多數朋友對於優化這個主題仍然重視不足，因為我們習慣於直接按下“訓練”按鈕，並靜待自己的神經網路收斂完成。但從計算能力、記憶體資源以及開原始程式碼解決方案等層面來看，我們實際上基本處於公平的競爭環境當中——最終的贏家屬于那些能夠立足同一 Amazon 實例在最短時間內獲得最佳 TensorFlow 模型成效的技術人員。從這個角度來看，決定一切的實際上正是優化。

2017 年深度學習優化大事記

目錄：深度學習的終極目標在於找出最低程度的概括方法……

http://ruder.io/deep-learning-optimization-2017/index.html

在這裡，我建議大家參閱 Sebastian 的 Ruder 博文，其中談到了 2017 年內新近出現的、能夠對標準優化器加以改進的簡單方法，外加其它一些輕鬆易行的強化手段。

炒作態勢有所降溫

談到這裡，我們能夠從以上圖片當中得到怎樣的啟示？很明顯，開發出有價值的新方案並借此獲利絕非易事，特別是考慮到目前正有大量開源工具與演算法被持續發佈出來。我認為 2018 年對於 Prisma 這樣的初創企業可能不會太友好——畢竟這個世界永遠不缺少競爭對手與“技術天才”。他們完全可以將如今的開源網路部署在移動應用當中，並借此建立自己的商業企業。

在新的一年中，我們必須專注於更為基礎的技術研發——而非一味追求快錢。即使大家只是打算利用穀歌 Ratacon 語音辨識技術生成語音讀物，也絕對不能僅僅將其視為簡單的 Web 服務——相反，良好的合作夥伴與商業模式將成為您獲得投資的必要前提。

總結

總結起來，我們目前已經擁有多種可以應用於實際產品的技術成果，具體包括時序分析、GAN、語音辨識以及自然語言處理技術方面的改進等。我們不必再針對分類或者回歸等目標自己設計基礎架構，因為 AutoML 已經能夠幫助我們完成這些任務，希望在經過進一步優化之後，AutoML 能夠在速度方面更上一層樓。而在 ONNX 與模型 Zoo 的説明下，我們將能夠輕鬆將基礎模型引入自己的應用程式當中。在我看來，至少就目前的最新發展水準而言，這將顯著簡化基於 AI 類應用程式的開發難度。

最後再來點預告：接下來，我將完成 2018 年 AI 技術趨勢預測系列文章中的最後一篇，即《人工智慧技術將如何影響“普通人”的生活》，敬請期待：）（AI 前線將繼續跟進該系列文章）

原文連結：

https://medium.com/@alexrachnog/ai-in-2018-for-developers-2f01250d17c

目前有10000+人已關注加入我們，歡迎您關注

↓↓↓

且可輕鬆與各類框架進行對接，包括允許開發人員輕鬆部署、確保科學家能夠輕鬆使用。在這方面，ONNX 應運而生：