您的位置:首頁>正文

人工智慧領域中日漸升溫的幾個分支領域

到底什麼才是人工智慧, 怎樣統一大家的意見, 形成共識, 為它定性?這在最近已經成為了科技圈裡的熱門話題。

一些人將 AI 看做是「認知計算」或者「機器智慧」;而另外一些人將「AI」和「機器學習」給完全等同了起來。

之所以會出現這麼多的說法, 主要是因為我們大家現在所說的「人工智慧」, 並不是某一個單純的技術, 它事實上已經成為了很多學科交叉後的領域:從機器人到機器學習, 無所不包。

而人工智慧的目的, 其實現在絕大多數人已經達成了共識:開發一種能夠執行任務, 具備某種認知功能的機器, 而這種執行任務的能力和認知功能, 原本只屬於人類智慧的範疇當中的。 為了達到這種狀態, 機器必須具備自我學習的能力。

在過去的十年時間裡, AI 領域出現了何等驚人的進步, 無論是無人自駕駛汽車的逐步成熟, 還是語音辨識技術的日趨完善。

在這樣的大背景之下, 人工智慧已經跳脫出了 20 年前固有的形象, 第一次在公司和消費者面前生動立體了起來:它是真的可以影響到我們每天生活的啊!

確實, 現在各大媒體報刊都在用頭條講述人工智慧領域出現的一舉一動, 詳細闡述長期 AI 戰略, 但就在這樣的火熱環境下, 大眾仍然搞不清楚人工智慧究竟是什麼, 同時, 政府其實也在這方面表現的遲鈍一些, 到底技術自動化對於整個社會有著怎樣的影響?

在這個前提下, 本文向大家介紹人工智慧領域下的六個細分領域, 它們中任何一個現如今都是科研領域的大熱門。 所以, 跳脫出人工智慧這個籠統的範疇, 轉而研究這幾個細分具體化的領域, 也許才是更加靠譜的討論方式。

因為我們未來的數位產品和服務, 都將被它們所左右。

在本文中, 我會描述它們是什麼, 為什麼重要, 如今怎麼來應用它們。 最後, 還會給出一個清單(當然不會是完全詳盡的), 上面列出來有關這些領域的科技公司。

1. 強化學習(Reinforcement learning)

人們在學習一項新技能的時候, 往往會有一個試錯的過程, 而 RL(強化學習)就是從這個模式中演化而來。 在一個標準的 RL 設定中, 軟體的任務是觀察在數字環境中當下所處的狀態, 並根據已經定好了的最終要達到的效果, 採取行動來不斷地接近這個目標。 在這個不斷接近的過程中, 軟體每執行一個動作, 它都能從這個數字環境中得出一個判斷:這個動作到底是推動了我向目標前進,

還是阻礙了。

就在這種不斷試探、確認、再試探的反復過程中, 軟體逐步找到最優策略和路徑。

該領域之所以會引起大家的注意, 是 Google DeepMind 在 Atari games 這個項目上應用了這項技術。 而目前這項技術在現實中應用的最大價值竟然是給 Google 的資料中心降溫!

資料中心中裡眾多伺服器、存放裝置、網路設備等等在 24 小時的運行著, 同時散發著巨大的熱量, 採用常規的冷空調系統降溫, 不僅使整個資料中心的能耗增大, 成本也會相應提高一大塊。 而 Google 在利用了 RL 技術可以使得降溫成本下降 40%。

在一個可以被類比的數位環境(比如視頻遊戲)中, 應用 RL 工具的最大好處就是可以以很低的成本獲取到機器學習的資料。 這跟「監督式深度學習」(supervised deep learning)有著明顯區別,

後者獲取資料的成本很高, 在現實世界中應用的難度也較高。

應用:軟體在迷宮中找路, 或者是給無人自駕駛技術在城市街道上行駛提供技術支援, 還比如在視頻遊戲中, 讓 NPC 開始學習使用一些高度擬人化的行為。

處在這個領域裡的公司:Google DeepMind, Prowler.io, Osaro, MicroPSI, Maluuba/Microsoft, NVIDIA, Mobileye, OpenAI.

2. 生成式對抗網路

跟那些用來分類、或者執行「回歸任務」的可識別人工智慧相比, 歸納模型基於某個學習物件, 可以自發生成一個高度類似的圖像。

就比如說, 給軟體看過一張人臉照片之後, 它就能立刻生成一張類似的, 機器合成的照片。 這個技術的基礎其實是:「生成式對抗網路」(generative adversarial networks) 在人工智慧領域非常火爆, 因為它給人們提供出來了一條直抵「非監控式機器學習」的路徑。

生成式對抗網路(Generative Adversarial Nets, GAN)在 2016 年所召開的 NIPS(神經資訊處理系統大會)上大放異彩,成為神經網路最受關注的技術之一,其實 GAN 的思想其實十分樸素:有一對模型,一個生成模型(G)生成假樣本,最好是六耳獼猴,直叫眾人真假難辨;一個判別模型(D)識別假樣本,最好是火眼金睛,敢讓贗品無所遁形。

那麼 GAN 的訓練過程就變成了生成模型(G)和判別模型(D)之間的競爭過程——隨機從真實樣本和由生成模型(G)生成出的「假樣本」中取一個,讓判別模型(D)去判斷是否為真。把這個問題,轉化為了一個博弈的問題。利用納什均衡來得到最終的目標函數。

應用案例:在時間序列中模擬出未來(例如規劃未來的工作);通過 2D 圖片來恢復 3D 結構;在視頻中預測下一幀,在對話介面上開發出自然語言,將音樂和語音進行合成等等。

目前正在做這件事的公司:Twitter Cortex、Adobe、Apple、Prisma、Jukedeck、Creative.ai, Gluru*, Mapillary*, Unbabel.。

3. 具有記憶的網路

這個世界是千姿百態的,為了在這樣一個複雜多變的世界裡,像人類一樣的去歸納、總結、分類,它們必須能持續不斷地學習執行新的任務,記住這些任務的執行方式並不斷地應用到未來。

但是,傳統的神經網路是沒有辦法做到這一切的。它們只有在「忘記」了某些資訊之後,才能連續地執行任務。這個短板有個專有名詞:「災難性遺忘」。原因在於,執行 A 任務時,對於機器來說非常重要的「權重」,到了執行 B 任務的時候就徹底變了。

但是,現在有一些非常強大的系統,能夠給予神經網路不同程度的記憶能力。比如「長短期記憶網路」(一個重複型神經網路的衍生品),能夠處理和預測時間序列;比如 DeepMind 的「可辨神經電腦」,它能將神經網路和記憶系統給結合起來,從而自行地學習,並組織複雜的資料結構;比如「彈性權重整合演算法」,它能夠跟當前任務跟前一個任務進行對比,按照不同的重要級別,放慢對某些權重的學習速度;比如「激進式神經網路」,它能夠在「目標明確的任務」之間建立一些橫向聯繫,從之前已經習得的任務中提取經驗,然後將這些經驗應用到新的任務當中。

具體的應用:某些可以歸納經驗,應用到新環境裡的學習工具;機器人手臂控制系統;無人自駕駛汽車;時間序列預測系統(比如金融市場交易工具、視頻、物聯網等);自然語言理解及聯想詞技術。

在該領域的公司: Google DeepMind, NNaisense (?), SwiftKey/Microsoft Research, Facebook AI Research.

4. 即便資料少,也能學習;並且打造更為小巧的模型

一般來說,在大家的理解中,深度學習都是要求海量的學習資料,從而達到世界頂尖的表現水準的。就比如說之前有一個教機器識別圖像的研究專案,光是學習材料就包括了 120 萬張圖片,手動一個個的標注,歸納到了 1000 個物體類別裡。

深度學習從某種意義上來說就必須這麼做。而且對越是複雜的任務,對資料量的要求就會直線上升,比如說「語音辨識」和「機器翻譯」,更複雜的任務是把一段語音輸入進去,一段文本輸出出來。

但目前,研究人員為了降低這其中的複雜程度,決定使用多個神經網路來分解這種複雜性,每一個生成的結果都成為了下一個系統的學習材料。就比如說語音輸入後,轉化成為音素、音素再轉化成為字詞、字詞再轉化成為指令。

如果我們真的想讓人工智慧系統解決複雜的任務,它們往往特別具有挑戰性,成本很高,耗時很長,那麼開發多個學習模型,從更少的例子中去得到最優的解決方案,這一個思路就顯得尤其重要了。在面向小規模的資料組進行學習的時候,也是存在挑戰的,比如「過度擬合問題」,「在處理離群值上」也會很困難。

應用:機器翻譯、SqueezeNet 專案。

目前在該領域從事開發工作的公司:Geometric Intelligence/Uber, DeepScale.ai, Microsoft Research, Curious AI Company, Google, Bloomsbury AI.

5.專門為人工智慧而設計的硬體

之所以 AI 技術現在出現了這麼驚人的爆發,其中一個原因是圖形處理單元(GPU)功能上的延展。不同於中央處理器,GPU 提供了多重平行結構,可以同時處理很多工。在 GPU 上進行機器學習要明顯比在 CPU 上快很多。

自從 2012 年 AlexNet 一戰成名以後,如果說機器學習是一場淘金熱的話,那麼 GPU 就成為了淘金的鏟子。NVIDIA 一直以來引領這股風潮,帶領我們走進了 2017 年,在這方面它的實力遙遙領先於 Intel、Qualcomm、AMD、 以及 Google 公司。

但是,GPU 畢竟不是專門為機器學習、推理來開發的一款產品,它們是專門為視頻遊戲來提供圖像支援處理的,而且它們往往在計算性能上面往往擁有高精准度,是以犧牲記憶體頻寬和資料輸送量而換來的。

所以,正是基於這樣的考慮,現在很多人開始創辦初創公司,還有一些大公司,比如 Google 也自己開設新的專案,專門為機器學習專案來量體裁衣開發新的硬體。這種全新的硬體所具有的特點是:存儲頻寬大,高計算密度,能耗相對較低。在這種硬體的基礎上,我們可以進行更加快速,更多高效的模型學習,更好的使用者體驗,使用者跟產品交互的次數也變多了,最終帶來更加豐富的資料量,通過優化再提升模型的表現,以此來循環往復進行機器學習。

應用:快速學習模型(尤其是在圖像上面),依託物聯網設備來運行 AI 系統,永遠處於「傾聽」狀態之中的物聯網設備,以雲基礎設施作為服務,無人自駕駛汽車,無人機和機器人。

目前在這個領域的公司: Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex

6. 模擬環境

之前我們就討論過,為人工智慧系統來生成學習資料,這項工作充滿了挑戰性。更重要的是,人工智慧得出的結論必須能夠跟我們的現實生活,應用情景息息相關。於是,在這樣的考量之下,通過開發一個數位化的環境,類比現實世界的物理機制和行為,這將給我們在評估和訓練人工智慧上面提供一個非常理想的平臺。在這樣一個平臺上,我們會更加瞭解人工智慧學習的方式,提升它們的途徑,同樣也能給我們帶來真正能夠可以轉化成為現實應用的訓練模型。

應用:智慧城市、工業設計、遊戲開發、駕駛培訓系統、製造業。

目前在這個領域的公司: Improbable, Unity 3D, 微軟 ( 開發 Minecraft 的遊戲部門), Google DeepMind/暴雪, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard

本文來源:Medium GAN)在 2016 年所召開的 NIPS(神經資訊處理系統大會)上大放異彩,成為神經網路最受關注的技術之一,其實 GAN 的思想其實十分樸素:有一對模型,一個生成模型(G)生成假樣本,最好是六耳獼猴,直叫眾人真假難辨;一個判別模型(D)識別假樣本,最好是火眼金睛,敢讓贗品無所遁形。

那麼 GAN 的訓練過程就變成了生成模型(G)和判別模型(D)之間的競爭過程——隨機從真實樣本和由生成模型(G)生成出的「假樣本」中取一個,讓判別模型(D)去判斷是否為真。把這個問題,轉化為了一個博弈的問題。利用納什均衡來得到最終的目標函數。

應用案例:在時間序列中模擬出未來(例如規劃未來的工作);通過 2D 圖片來恢復 3D 結構;在視頻中預測下一幀,在對話介面上開發出自然語言,將音樂和語音進行合成等等。

目前正在做這件事的公司:Twitter Cortex、Adobe、Apple、Prisma、Jukedeck、Creative.ai, Gluru*, Mapillary*, Unbabel.。

3. 具有記憶的網路

這個世界是千姿百態的,為了在這樣一個複雜多變的世界裡,像人類一樣的去歸納、總結、分類,它們必須能持續不斷地學習執行新的任務,記住這些任務的執行方式並不斷地應用到未來。

但是,傳統的神經網路是沒有辦法做到這一切的。它們只有在「忘記」了某些資訊之後,才能連續地執行任務。這個短板有個專有名詞:「災難性遺忘」。原因在於,執行 A 任務時,對於機器來說非常重要的「權重」,到了執行 B 任務的時候就徹底變了。

但是,現在有一些非常強大的系統,能夠給予神經網路不同程度的記憶能力。比如「長短期記憶網路」(一個重複型神經網路的衍生品),能夠處理和預測時間序列;比如 DeepMind 的「可辨神經電腦」,它能將神經網路和記憶系統給結合起來,從而自行地學習,並組織複雜的資料結構;比如「彈性權重整合演算法」,它能夠跟當前任務跟前一個任務進行對比,按照不同的重要級別,放慢對某些權重的學習速度;比如「激進式神經網路」,它能夠在「目標明確的任務」之間建立一些橫向聯繫,從之前已經習得的任務中提取經驗,然後將這些經驗應用到新的任務當中。

具體的應用:某些可以歸納經驗,應用到新環境裡的學習工具;機器人手臂控制系統;無人自駕駛汽車;時間序列預測系統(比如金融市場交易工具、視頻、物聯網等);自然語言理解及聯想詞技術。

在該領域的公司: Google DeepMind, NNaisense (?), SwiftKey/Microsoft Research, Facebook AI Research.

4. 即便資料少,也能學習;並且打造更為小巧的模型

一般來說,在大家的理解中,深度學習都是要求海量的學習資料,從而達到世界頂尖的表現水準的。就比如說之前有一個教機器識別圖像的研究專案,光是學習材料就包括了 120 萬張圖片,手動一個個的標注,歸納到了 1000 個物體類別裡。

深度學習從某種意義上來說就必須這麼做。而且對越是複雜的任務,對資料量的要求就會直線上升,比如說「語音辨識」和「機器翻譯」,更複雜的任務是把一段語音輸入進去,一段文本輸出出來。

但目前,研究人員為了降低這其中的複雜程度,決定使用多個神經網路來分解這種複雜性,每一個生成的結果都成為了下一個系統的學習材料。就比如說語音輸入後,轉化成為音素、音素再轉化成為字詞、字詞再轉化成為指令。

如果我們真的想讓人工智慧系統解決複雜的任務,它們往往特別具有挑戰性,成本很高,耗時很長,那麼開發多個學習模型,從更少的例子中去得到最優的解決方案,這一個思路就顯得尤其重要了。在面向小規模的資料組進行學習的時候,也是存在挑戰的,比如「過度擬合問題」,「在處理離群值上」也會很困難。

應用:機器翻譯、SqueezeNet 專案。

目前在該領域從事開發工作的公司:Geometric Intelligence/Uber, DeepScale.ai, Microsoft Research, Curious AI Company, Google, Bloomsbury AI.

5.專門為人工智慧而設計的硬體

之所以 AI 技術現在出現了這麼驚人的爆發,其中一個原因是圖形處理單元(GPU)功能上的延展。不同於中央處理器,GPU 提供了多重平行結構,可以同時處理很多工。在 GPU 上進行機器學習要明顯比在 CPU 上快很多。

自從 2012 年 AlexNet 一戰成名以後,如果說機器學習是一場淘金熱的話,那麼 GPU 就成為了淘金的鏟子。NVIDIA 一直以來引領這股風潮,帶領我們走進了 2017 年,在這方面它的實力遙遙領先於 Intel、Qualcomm、AMD、 以及 Google 公司。

但是,GPU 畢竟不是專門為機器學習、推理來開發的一款產品,它們是專門為視頻遊戲來提供圖像支援處理的,而且它們往往在計算性能上面往往擁有高精准度,是以犧牲記憶體頻寬和資料輸送量而換來的。

所以,正是基於這樣的考慮,現在很多人開始創辦初創公司,還有一些大公司,比如 Google 也自己開設新的專案,專門為機器學習專案來量體裁衣開發新的硬體。這種全新的硬體所具有的特點是:存儲頻寬大,高計算密度,能耗相對較低。在這種硬體的基礎上,我們可以進行更加快速,更多高效的模型學習,更好的使用者體驗,使用者跟產品交互的次數也變多了,最終帶來更加豐富的資料量,通過優化再提升模型的表現,以此來循環往復進行機器學習。

應用:快速學習模型(尤其是在圖像上面),依託物聯網設備來運行 AI 系統,永遠處於「傾聽」狀態之中的物聯網設備,以雲基礎設施作為服務,無人自駕駛汽車,無人機和機器人。

目前在這個領域的公司: Graphcore, Cerebras, Isocline Engineering, Google (TPU), NVIDIA (DGX-1), Nervana Systems (Intel), Movidius (Intel), Scortex

6. 模擬環境

之前我們就討論過,為人工智慧系統來生成學習資料,這項工作充滿了挑戰性。更重要的是,人工智慧得出的結論必須能夠跟我們的現實生活,應用情景息息相關。於是,在這樣的考量之下,通過開發一個數位化的環境,類比現實世界的物理機制和行為,這將給我們在評估和訓練人工智慧上面提供一個非常理想的平臺。在這樣一個平臺上,我們會更加瞭解人工智慧學習的方式,提升它們的途徑,同樣也能給我們帶來真正能夠可以轉化成為現實應用的訓練模型。

應用:智慧城市、工業設計、遊戲開發、駕駛培訓系統、製造業。

目前在這個領域的公司: Improbable, Unity 3D, 微軟 ( 開發 Minecraft 的遊戲部門), Google DeepMind/暴雪, OpenAI, Comma.ai, Unreal Engine, Amazon Lumberyard

本文來源:Medium

同類文章
Next Article
喜欢就按个赞吧!!!
点击关闭提示