熱門文章
人工智能安全:使用相對可達性測量和避免副作用
發布時間:2018-09-11 分類:交通百科
人工智能安全的一個主要挑戰是可靠地指定人工智能系統的偏好,目標的不正確或不完整的規范可能導致不良行為,如規范游戲或導致負面影響。有各種方法可以使“副作用”的概念更加精確-我認為這是對代理人環境的破壞,而這對于實現其目標是不必要的。例如,如果一個機器人攜帶裝有花瓶的盒子進入顛簸的路徑,打破花瓶就會產生副作用。另一方面,制作煎蛋卷的烹飪機器人必須打破一些雞蛋,因此打破雞蛋不會產生副作用。
我們如何以一般方式測量副作用,而不是針對特定環境或任務,并激勵代理人避免它們?這就是我們最近討論的核心問題。
部分挑戰是在試圖懲罰副作用時很容易為代理人引入不良激勵措施,以前關于這個問題的工作重點是保持可逆性或減少代理對環境的影響,這兩種方法都引入了不同類型的問題激勵:
保持可逆性(即保持起始狀態可達)鼓勵藥劑防止環境中的所有不可逆事件(例如人類食用食物)。此外,如果目標需要不可逆轉的行動(例如打破煎蛋的雞蛋),那么任何進一步的不可逆行為都不會受到懲罰,因為已經失去了可逆性。
懲罰影響(即與默認結果的距離的某種度量)不考慮狀態的可達性,并且平等地處理可逆和不可逆效應(由于距離測量的對稱性)。例如,盡管第一個動作顯然更糟,但是代理人在打破花瓶和防止花瓶破裂方面同樣會受到懲罰。這會導致“過度補償”(“抵消”)行為:當獎勵以防止花瓶被破壞時,具有低沖擊力的代理人拯救花瓶,收集獎勵,然后打破花瓶(以回到默認結果)。
這兩種方法都做得很對:將可達性考慮在內是個好主意,并且與默認結果(而不是初始狀態)進行比較也是一個好主意。我們可以將兩者放在一起,并使用基于可達性的度量與默認結果進行比較。然后,代理人不再有動機阻止一切不可逆轉的發生或過度補償以防止不可逆轉的事件。
對于目標需要不可逆轉的行動的情況,我們仍然存在問題。簡單地懲罰代理人使得默認結果無法到達會產生“地獄效應”,代理人無法避免任何進一步的不可逆行為。為了解決這個問題,我們考慮所有狀態的可達性,而不是考慮默認狀態的可達性。對于每個城市,我們懲罰代理,使其比默認狀態更難達到。在確定性環境中,懲罰將是陰影區域中的狀態數量:
由于每個不可逆轉的行為都會切斷更多的狀態空間(例如,打破花瓶會使花瓶完整無法到達的所有狀態),懲罰將相應增加。我們稱這種措施為“相對可達性”。
我們在AISafetyGridworlds框架中使用表格式Q學習代理進行了一些簡單的實驗,以提供概念證明,即默認結果的相對可達性避免了上述不良激勵。
在第一個gridworld中,代理需要到達目標G,但是路上有一個盒子,只能通過推動移動。通向目標的最短路徑將箱子向下推入角落(不可恢復的位置),而較長的路徑將箱子推向右側(可恢復的位置)。安全行為是采取更長的路徑。具有相對可達性懲罰的代理采用較長的路徑,而具有可逆性懲罰的代理失敗。發生這種情況是因為任何進入目標的路徑都會產生不可逆轉的影響-一旦移動了方框,代理人和方框都不能返回到他們的起始位置。因此,代理接收兩條路徑的最大懲罰,并且沒有動力遵循安全路徑。
在第二個網格世界中,當物體到達傳送帶的末端時,默認情況下會發生不可逆轉的事件。這個環境有兩種變體:
對象是一個花瓶,并且代理商因將其從腰帶上取下而獲得獎勵(代理人的任務是拯救花瓶)。
該物體是傳送帶壽司餐廳中的壽司盤,并且代理商不會從帶上取下獎勵(代理商不應該干涉)。
這個網格世界專門用于測試可能通過懲罰副作用引入的不良激勵,因此沒有副作用懲罰的代理會表現正常。我們發現,具有低影響罰分的代理通過在收集獎勵后將花瓶放回腰帶上來參與過度補償行為,而具有可逆性保留懲罰的代理將壽司盤從腰帶上取下,盡管沒有得到獎勵。具有相對可達性懲罰的代理在兩種環境變體中都能正確運行。
當然,當前形式的相對可達性定義在現實環境中不易處理:有太多可能的狀態需要考慮,代理在開始訓練時并不知道所有狀態,并且默認結果可能很難定義和模擬。我們期望通過考慮代表性狀態的可達性來近似定義(類似于近似賦權的方法)。為了定義默認結果,我們需要一個更精確的代理“無所事事”的概念(例如,“無操作”動作并不總是可用或有意義)。我們為未來的工作留下了更實際的相對可達性。
雖然相對可達性在現有方法上有所改進,但它可能不包含我們希望成為副作用測量一部分的所有考慮因素。即使它們與默認結果相比沒有減少未來選項,也會對代理商的環境產生一些影響。將相對可達性與這些考慮因素結合起來是可能的,但在考慮這些因素和避免過度補償行為之間可能存在權衡。我們也將這些調查留給未來的工作。