您的位置:首頁>設計>正文

時代聚焦AI安全——可解釋性

摘要: 隨著人工智慧的發展, 越來越多的人開始關注人工智慧的安全問題。 今年的NIPS多集中人工智慧安全上, 作者列舉了在會議上出現的解決人工智慧安全問題的比較不錯的論文。

今年的NIPS多集中在人工智慧安全上, 此外精彩的部分還有凱特·克勞福德關於人工智慧公平性問題上被忽視的主題演講、ML安全研討會、以及關於“我們是否需要可解釋性?”可解釋ML討論會辯論。

值校準文件

逆向獎勵設計是為了解決RL代理根據人類設計的代理獎勵函數推斷出人類的真實獎勵函數的一種設計。 與反強化學習(IRL)不同, 它可以讓代理人從人的行為推斷出獎勵函數。 論文中提出了一個IRD方法, 假設人類選擇一個可以導致訓練環境中正確行為的代理獎勵, 代理人就獎勵函數的不確定性遵循風險規避策略, 模擬真實獎勵的不確定性。

儘管目前還不清楚它們將如何推廣到更複雜的環境, 但是這篇論文中關於如何避免某些副作用和阻止獎勵駭客行為的觀點還是有些令人備受鼓舞的。 這種方法也有可能過於規避一些新事物, 但是在這種環境下看到一些安全探索的方法是非常棒的。

重複反向RL是指推導出包含安全標準的固有人類偏好的問題,

並在許多工中保持不變的。 每個任務的獎勵功能是任務不變內在獎勵(代理人未觀察到的)和特定任務獎勵(代理人觀察到的)的組合。 這種多工設置有助於解決反強化學習(IRL)中的可識別性問題, 其中不同的獎勵功能可以產生相同的行為。

作者提出了一種演算法來推斷內在獎勵, 同時最大限度地減少代理人犯錯誤的次數。 他們證明了:“主動學習”案例的錯誤數量有上限, 在錯誤數量的上限內, 代理可以選擇任務。 如果超出這個錯誤數量的上限, 則代理人無法選擇任務。 雖然它仍然存在很多人類難以解釋的現象, 但是綜合來看, 讓代理人選擇它所訓練的任務似乎是個好主意。

來自人類偏好的深度RL(Christiano等人)是指利用人類回饋來教授深度RL代理人理解關於人類可以評估但可能無法證明的複雜事物(例如後空翻)。 人類創造了代理行為的兩個軌跡片段, 並選擇出哪一個更接近目標, 這種方法可以非常有效地利用有限的人類回饋,

使代理人學習更複雜的事物(如MuJoco和Atari所示)。

分散式多智慧體RL的動態安全可中斷性(EI Mhamdi等人)將安全可中斷性問題推廣到多智慧體設置。 不可中斷的動態可以出現在任何一組代理人中, 比如如果代理B收到代理A的中斷影響並因此被激勵以防止A被中斷, 則可能發生這種情況。多智慧體定義的重點在於當存在中斷的情況下保持系統動態性,而不是收集在多智慧體環境中難以保證的最優策略。

Aligned AI研討會

這場研討會上有很多很有見解的會談比如Ian Goodfellow的“對齊AI的對抗魯棒性”和Gillian Handfield的“不完全契約和AI對齊”。

Ian提出的ML安全性對於長期的AI安全至關重要。敵對例子的有效性不僅受當前的ML系統(例如自駕車)的短期視角的影響,還受一些水準不高的參與人的影響。從長遠角度來看,調整高級代理的價值也是一個壞消息,由於古德哈特定律,他可能會無意中尋找獎勵函數的對抗性例子。因為敵對的例子會干擾代理人的判斷,所以依靠代理人對環境或人類偏好的不能確保結果的準確性。

Gillian從經濟學的角度來看待人工智慧安全,將人造智慧的目標與人類的合同的設計相對比。與造成合同不完整相同的問題(設計師無法考慮所有相關的偶然事件或者精確地制定所涉及的變數,以及激勵當事方遊戲系統)導致人為代理人的副作用和獎勵駭客行為。

談話的核心問題是如何利用不完全契約理論的見解來更好地理解和系統地解決AI安全中的規範問題,這是一個非常有趣的研究方向,客觀規格問題似乎比不完整的合同問題更難。

人工智慧系統的可解釋性

作者在可解釋的ML討論會上就可解釋性與長期安全性之間的關係進行了討論,並探討了何種形式的解釋能夠幫助在安全問題方面取得進展(相關幻燈片和視頻)。

副作用和安全探索問題將從識別對應於不可逆狀態的表示(如“破碎”或“卡住”)中受益。雖然現有的關於神經網路表示的研究著重於視覺化,但與安全有關的概念往往難以形象化。

解釋特定的預測或決定的本地解釋性技術對安全也很有用。我們可以監測出訓練環境特殊的特徵或者表示與危險狀態接近的特徵是否會影響代理人的決定。

解釋能力在很多方面對安全是有用的。作為解釋性問題的基礎-安全性可以為解釋能力做些什麼,似乎還沒有人弄明白。正如研討會的最後一場辯論中所爭論的那樣,在ML社區裡,一直在進行著一場對話,試圖制定一個模糊的解釋性思想-它是什麼,我們是否還需要它,什麼樣的理解是有用的,等等。但是我們需要記住最重要的:解釋欲望在某種程度上是由我們的系統易出錯所驅動的-理解我們的AI系統如果100%穩健且沒有錯誤,那麼它就不那麼重要了。從安全的角度來看,我們可以將解釋性的作用理解為説明我們確保系統安全。

對於那些有興趣將解釋性錘子應用于安全釘或處理其他長期安全問題的人,FLI最近宣佈了一個新的補助計畫,現在是AI領域深入思考價值取向的好時機。正如Pieter Abbeel在主題演講結束時所說的那樣:“一旦你建立了非常好的AI裝置,你如何確保他們的價值體系與我們的價值體系保持一致?因為在某些時候,他們可能比我們聰明,它們實際關心的關於我們所關心的東西可能很重要。”

本文由阿裡云云棲社區組織翻譯。

文章原標題《NIPS 2017 Report》

作者:Vikas Bhandary

譯者:烏拉烏拉,審校:袁虎。

則可能發生這種情況。多智慧體定義的重點在於當存在中斷的情況下保持系統動態性,而不是收集在多智慧體環境中難以保證的最優策略。

Aligned AI研討會

這場研討會上有很多很有見解的會談比如Ian Goodfellow的“對齊AI的對抗魯棒性”和Gillian Handfield的“不完全契約和AI對齊”。

Ian提出的ML安全性對於長期的AI安全至關重要。敵對例子的有效性不僅受當前的ML系統(例如自駕車)的短期視角的影響,還受一些水準不高的參與人的影響。從長遠角度來看,調整高級代理的價值也是一個壞消息,由於古德哈特定律,他可能會無意中尋找獎勵函數的對抗性例子。因為敵對的例子會干擾代理人的判斷,所以依靠代理人對環境或人類偏好的不能確保結果的準確性。

Gillian從經濟學的角度來看待人工智慧安全,將人造智慧的目標與人類的合同的設計相對比。與造成合同不完整相同的問題(設計師無法考慮所有相關的偶然事件或者精確地制定所涉及的變數,以及激勵當事方遊戲系統)導致人為代理人的副作用和獎勵駭客行為。

談話的核心問題是如何利用不完全契約理論的見解來更好地理解和系統地解決AI安全中的規範問題,這是一個非常有趣的研究方向,客觀規格問題似乎比不完整的合同問題更難。

人工智慧系統的可解釋性

作者在可解釋的ML討論會上就可解釋性與長期安全性之間的關係進行了討論,並探討了何種形式的解釋能夠幫助在安全問題方面取得進展(相關幻燈片和視頻)。

副作用和安全探索問題將從識別對應於不可逆狀態的表示(如“破碎”或“卡住”)中受益。雖然現有的關於神經網路表示的研究著重於視覺化,但與安全有關的概念往往難以形象化。

解釋特定的預測或決定的本地解釋性技術對安全也很有用。我們可以監測出訓練環境特殊的特徵或者表示與危險狀態接近的特徵是否會影響代理人的決定。

解釋能力在很多方面對安全是有用的。作為解釋性問題的基礎-安全性可以為解釋能力做些什麼,似乎還沒有人弄明白。正如研討會的最後一場辯論中所爭論的那樣,在ML社區裡,一直在進行著一場對話,試圖制定一個模糊的解釋性思想-它是什麼,我們是否還需要它,什麼樣的理解是有用的,等等。但是我們需要記住最重要的:解釋欲望在某種程度上是由我們的系統易出錯所驅動的-理解我們的AI系統如果100%穩健且沒有錯誤,那麼它就不那麼重要了。從安全的角度來看,我們可以將解釋性的作用理解為説明我們確保系統安全。

對於那些有興趣將解釋性錘子應用于安全釘或處理其他長期安全問題的人,FLI最近宣佈了一個新的補助計畫,現在是AI領域深入思考價值取向的好時機。正如Pieter Abbeel在主題演講結束時所說的那樣:“一旦你建立了非常好的AI裝置,你如何確保他們的價值體系與我們的價值體系保持一致?因為在某些時候,他們可能比我們聰明,它們實際關心的關於我們所關心的東西可能很重要。”

本文由阿裡云云棲社區組織翻譯。

文章原標題《NIPS 2017 Report》

作者:Vikas Bhandary

譯者:烏拉烏拉,審校:袁虎。

Next Article
喜欢就按个赞吧!!!
点击关闭提示