天津大學、東京大學等研究：用深度強化學習檢測模型缺陷

新智元專欄

作者：段義海

【新智元導讀】天津大學多智慧體與深度強化學習實驗室與東京大學、日本 AIST 研究所合作的一篇論文，提出利用深度強化學習方法來檢測資訊物理系統(CPS)模型中的缺陷。與傳統方法相比，深度強化學習方法在大多數情況下能夠通過更少次的類比實驗找出系統的缺陷。

隨著AlphaGo的出現，掀起了深度強化學習（DRL）的浪潮。包括DeepMind、OpenAI在內的眾多科研機構和高校都團隊都致力於DRL的研究， DRL在遊戲、智慧型機器人控制等領域也取得了不錯的成效，如星際爭霸相關遊戲研發、機器人Atlas等。隨著人工智慧逐步走入人們的生活，資訊物理系統的概念更加為人們熟知。資訊物理系統（CPS, Cyber-Physical Systems）是一個綜合計算、網路和物理環境的多維複雜系統，通過3C（Computer、Communication、Control）技術的有機融合與深度協作，實現大型工程系統的即時感知、動態控制和資訊服務。主要用於一些智慧系統上如設備互聯，

物聯傳感，智慧家居，機器人，智慧導航等。因此，資訊物理系統（CPS）的安全檢測問題成為了重中之重。

近日，軟體工程形式化領域頂會FM2018（International Symposium on Formal Methods）接收了天津大學多智慧體與深度強化學習實驗室與東京大學、日本 AIST 研究所合作的一篇論文，提出利用深度強化學習方法來檢測資訊物理系統(CPS)模型中的缺陷。與傳統方法（simulated annealing and cross entropy）相比，深度強化學習方法在大多數情況下能夠通過更少次的類比實驗找出系統的缺陷。

這篇論文創新點為：首次將深度強化學習與違反CPS模型魯棒性的問題型結合，並取得的較為顯著的實驗結果；提出了新型測試框架：

1）利用深度強化學習得到被測試系統的輸入

2）把輸入傳入被測試系統，得到系統輸出並計算收益值，

作為下一輪學習的輸入

3）迴圈以上步驟，檢測缺陷。

CPS漏洞檢測的傳統方法

資訊物理系統（CPS）在關鍵安全領域被應用得越來越廣泛，這使得保證資訊物理系統的正確性更加重要。在CPS模型上的測試和驗證是保證其準確性的通用方法。同時由於CPS模型的狀態空間是無限的，使得測試很難達到高覆蓋率，驗證技術昂貴並且不可判定。因此以魯棒性為導向的falsification方法近期被認為是可以有效檢測CPS缺陷的方法。

以魯棒性為導向的falsification方法中，信號時序邏輯（STL）通常被用於表示CPS模型應該滿足的（魯棒性）性質。本文提出用以魯棒性為導向的falsification技術來探索CPS模型的狀態空間，並將使魯棒性最小化的行為序列確定為測試的候選項。

利用這種方式，以魯棒性為導向生成暴露模型缺陷的輸入（也就是反例），這樣能更有效的並且自動的進行缺陷檢測。儘管falsification過程沒有終止不代表沒有反例，但是在給定的時間內未找到反例在一定程度上顯示了CPS模型的正確性。

現有的以魯棒性為導向的falsification方法採取隨機全域優化的演算法，比如類比退火、交叉熵等，來達到最小化魯棒性的目的。這些方法都把整條軌跡（行為序列）作為輸入，因此在falsification過程中需要大量的類比運行，進而無法保證在有限的時間內找到實際的CPS系統模型中的反例輸入。

基於強化學習的CPS模型性質falsification方法

本文應用DRL解決CPS模型違反魯棒性性質的問題。強化學習方法可以觀察環境回饋，然後及時調整輸入行為。

通過這種方式，該方法可以更快地收斂到最小的魯棒性數值。本文採用了兩種最先進的DRL技術：Asynchronous Advanced Actor Critic (A3C) 和 Double Deep-Q Network (DDQN)。

具體框架如圖1所示：該框架的環境包括Matlab的類比運行環境模組以及計算回報模組。採用經典的強化學習演算法，代理（Agent）以系統的當前狀態（state）和當前的回報值（reward）作為輸入，然後輸出下一個行為（action）作為類比模組的輸入。本框架的Agent採用了A3C和DDQN兩種演算法。

圖1：系統的整體框架

本文的主要貢獻有：

（1）展示了怎樣將找到違反CPS模型魯棒性性質的行為序列的問題轉化為深度強化學習（DRL）問題；

（2）實現提出的方法並進行初步評估，結果證明利用DRL技術可以減少尋找CPS模型致錯輸入需要的類比運行次數，進而減少模擬運行的總時間。

（3）提出基於強化學習技術的CPS模型魯棒性性質falsification問題的測試框架，為進一步探索該問題提供了保障。

本文提出的方法在原型系統中進行了實現，並採用廣泛應用的CPS系統模型進行初步評估。實驗結果表明，本文提出的方法可以減少發現偽造輸入的次數。在自動傳輸控制系統上運行結果如圖2 所示，基於強化學習的方法在成功率上一直優於其他baseline方法。在有限時間內，基於強化學習的方法更容易找到致錯輸入。

圖2：在自動傳輸控制系統（AT）上運行結果

論文：Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning

摘要

隨著軟體和分散式運算的迅速發展，資訊物理系統（CPS）被廣泛應用於許多領域，如智慧電網，自動駕駛汽車等。由於軟體和物理系統的複雜性，檢測CPS模型中的缺陷是困難的。為了有效地發現CPS模型中的缺陷，引入了以魯棒性為導向CPS模型性質falsification方法。現有方法使用全域優化技術來生成違反了CPS模型性質的反例。然而，這些方法可能需要大量的類比運行才能找到反例，往往超出了實際可行性。本文探索最先進的深度強化學習（DRL）技術，以減少查找此類反例所需的模擬運行次數，並討論了具體方法和初步評估結果。

為進一步探索該問題提供了保障。

圖2：在自動傳輸控制系統（AT）上運行結果

論文：Falsification of Cyber-Physical Systems Using Deep Reinforcement Learning

摘要