您的位置:首頁>科技>正文

「不依賴離線訓練」為什麼說持續學習才是AI的關鍵

1新智元推薦

摘要:本文介紹了什麼是持續學習, 詳細闡述了持續學習是人工智慧發展的關鍵, 以下是譯文

隨著越來越多的公司開始在不同的環境中進行試驗和部署機器學習, 展望一下未來的系統是極好的。 今天, 典型的序列是收集資料, 學習一些底層的結構, 通過部署一種演算法, 系統地捕捉到你學過的東西。 收集, 準備, 和豐富正確的資料 — 特別是訓練資料 —這是必不可少的,

應該說收集回饋資料仍然是想要使用機器學習公司的一大瓶頸。

未來的人工智慧系統將依賴於持續學習, 而不是離線訓練的演算法。 人類以這種方式學習, 人工智慧系統也將越來越有能力這樣做。 想像一下第一次前往一間辦公室並且被障礙物絆倒。 下一次你再去到那個地方 — 也許只是幾分鐘以後 — 你很可能就會知道要當心絆倒你的物體。

有許多應用和場景具有相似探索性質的學習。 設想一個Agent與環境相互作用的同時, 為了完成一些指定的任務, 努力學習採取什麼樣的行動, 以及要避免哪些行為。 我們已經看到了強化學習(RL)近期的一些應用。 在RL中, 目標是學習如何將觀察和量度映射到一組動作上, 同時試圖最大化一些長期回饋。

(RL這個術語經常用來描述一類問題和一組演算法)雖然深度學習獲得了更多的媒體關注, 但在大家熟知的AI圈子裡, 有許多有趣的關於RL的新事態發展。 研究人員最近將RL應用于遊戲, 機器人, 無人駕駛, 對話系統, 文本摘要, 教育和培訓, 以及能源利用。

正如深度學習正在慢慢成為資料科學家工具集的一部分一樣, 類似的情況也正在持續學習上發生。 但是為了讓資料科學家參與進來, 工具和演算法都需要變得更容易被接受。 這將需要一套新的工具和演算法—不同於過去監督學習的工具和演算法。 持續學習需要一組工具, 這些工具可以運行和分析大量涉及複雜計算圖形的模擬類比, 理想情況下, 應該有一個很低的延遲回應時間。

加州大學伯克利分校RISE實驗室的一個團隊最近發佈了一個開源的分散式運算框(Ray),它補充了強化學習所需的其他部分。 在像自動駕駛汽車這種複雜的應用中, 涉及多種感測器和測量, 因此, 能夠快速並行地探索和模擬運行將具有極大的優勢。 Ray允許用戶運行帶有一個Python API的並行類比, 這對於資料科學家來說更易用(Ray本身主要是由C++語言寫的)。 我在RL文章中寫關於Ray的內容, 是因為它通常是針對Python用戶的容錯, 分散式運算框架。 Ray的創建者使其他人很容易使用Python在Ray上編寫和運行自己的演算法, 包括常規的機器學習模型。

為什麼需要一個機器學習庫,什麼樣的演算法對持續學習重要?回想一下,在RL中,需要學習如何將觀察和量度映射到一組動作上,同時試圖最大化一些長期回饋。最近RL的成功案例主要使用基於梯度的深度學習,但是研究人員發現了其它的優化策略,比如推演可能會有所幫助。與監督學習不同,你是從訓練資料和客觀目標開始,在RL中僅有稀疏的回饋,因此像神經進化的技能,隨著經典的梯度學習下降而變得更有競爭力。還有其它相關的演算法,可能成為用於持續學習模型標準集合的一部分(例如,最近應用於撲克牌遊戲中最低限度減少悔牌的可能性)。Ray的創建者正在收集一個庫,這個庫實現一組共同的RL演算法,它通過一個簡單Python API的函數變的更容易使用。

大多數公司仍在學習如何使用和部署標準(離線)的機器學習,所以討論持續學習可能是不成熟的。開始這場討論的一個重要原因是,這些技術對於將AI帶入到你的組織是必不可少的。與其他任何新的技術和方法一樣,其出發點是確定用例,在這種情況下,持續學習可能比現有的離線方法更具有優勢。我提供了一些例子,這些例子已經部署了RL或者研究取得了可喜的成果,但是這些例子可能與你的組織運作相去甚遠。一組已經使用強盜演算法(推薦內容或評估產品)的公司可能很快會確認用例,並且成為早期的用戶。用於開發AI教學Agent的技術可能拓展到許多涉及擴張人力的應用領域(包括軟體工程)。

許多公司意識到,在大多數情況下,機器學習模型在部署到生產後不久就開始退化。好消息是許多AI初創公司正在他們的產品中構建持續學習。公司可能在不久的將來開始使用RL。

相關資源:

Ray :一個新興的分散式執行框架AI應用(2017 Strata Data keynote by Michael Jordan)*

機器人強化學習((2016 Artificial Intelligence Conference presentation by Pieter Abbeel)*

人車結合(2017 Artificial Intelligence Conference keynote by Anca Dragan)

強化學習介紹和OpenAI Gym

神經進化:一種不同的深度學習

強化學習的解釋*

請點擊「閱讀原文」獲取資源地址。

點擊閱讀原文可查看職位詳情,期待你的加入~

包括常規的機器學習模型。

為什麼需要一個機器學習庫,什麼樣的演算法對持續學習重要?回想一下,在RL中,需要學習如何將觀察和量度映射到一組動作上,同時試圖最大化一些長期回饋。最近RL的成功案例主要使用基於梯度的深度學習,但是研究人員發現了其它的優化策略,比如推演可能會有所幫助。與監督學習不同,你是從訓練資料和客觀目標開始,在RL中僅有稀疏的回饋,因此像神經進化的技能,隨著經典的梯度學習下降而變得更有競爭力。還有其它相關的演算法,可能成為用於持續學習模型標準集合的一部分(例如,最近應用於撲克牌遊戲中最低限度減少悔牌的可能性)。Ray的創建者正在收集一個庫,這個庫實現一組共同的RL演算法,它通過一個簡單Python API的函數變的更容易使用。

大多數公司仍在學習如何使用和部署標準(離線)的機器學習,所以討論持續學習可能是不成熟的。開始這場討論的一個重要原因是,這些技術對於將AI帶入到你的組織是必不可少的。與其他任何新的技術和方法一樣,其出發點是確定用例,在這種情況下,持續學習可能比現有的離線方法更具有優勢。我提供了一些例子,這些例子已經部署了RL或者研究取得了可喜的成果,但是這些例子可能與你的組織運作相去甚遠。一組已經使用強盜演算法(推薦內容或評估產品)的公司可能很快會確認用例,並且成為早期的用戶。用於開發AI教學Agent的技術可能拓展到許多涉及擴張人力的應用領域(包括軟體工程)。

許多公司意識到,在大多數情況下,機器學習模型在部署到生產後不久就開始退化。好消息是許多AI初創公司正在他們的產品中構建持續學習。公司可能在不久的將來開始使用RL。

相關資源:

Ray :一個新興的分散式執行框架AI應用(2017 Strata Data keynote by Michael Jordan)*

機器人強化學習((2016 Artificial Intelligence Conference presentation by Pieter Abbeel)*

人車結合(2017 Artificial Intelligence Conference keynote by Anca Dragan)

強化學習介紹和OpenAI Gym

神經進化:一種不同的深度學習

強化學習的解釋*

請點擊「閱讀原文」獲取資源地址。

點擊閱讀原文可查看職位詳情,期待你的加入~

Next Article
喜欢就按个赞吧!!!
点击关闭提示