透過深度強化學習實現共享自動化

2021-10-09由迷人的軍艦鳥發表于體育

設想一下，一名無人機駕駛員遠端駕駛一架四旋翼飛行器，使用機載相機進行導航和降落。不熟悉的飛行動力學、地形和網路延遲都可能會使人類對這個系統的掌控面臨一定的挑戰。解決這個問題的一個方法是對一個自動智慧體進行訓練，從而使其能夠在無需人為干預的情況下執行巡視和製圖等任務。當任務被明確指定，並且智慧體可以觀察到成功所需的全部資訊時，該策略就可以很好地執行。不幸的是，許多涉及人類使用者的實際應用程式並不能滿足這些條件：使用者的意圖通常是智慧體所無法直接訪問的隱私資訊，而且任務可能太複雜，以至於使用者無法對其進行精確定義。例如，飛行員可能想要跟蹤一組移動目標（比如一群動物），並且在飛行過程中即時改變目標優先順序（例如，關注那些以外受傷的人）。共享自動化透過將使用者輸入與自動協助相結合以解決此問題，換句話說，這是為了增強人類的控制而不是取代它。

一個盲視的自動駕駛飛行員（左），次優人類飛行員（中）和人機聯合團隊（右）在玩Lunar Lander遊戲

背景

將人類和機器智慧結合在共享控制系統中這一想法，可以追溯到1949年Ray Goertz所提出的主從操縱手（Master-Slave Manipulator）、1969年Ralph Mosher所提出的Hardiman外骨骼，和1980年Marvin Minsky所提出的遠端呈現呼叫的初期。在機器人技術、人機互動和人工智慧領域進行了數十年的研究之後，人類操作員和遙控機器人之間的互動仍然是一個挑戰。根據對2015年DARPA機器人挑戰的回顧，“提高機器人效能的最具成本效益的研究領域是人機互動……在DRC中，機器人穩定性和效能的最大敵人是操作失誤。開發出一種能夠避免和克服這種操作錯誤的方法對於實際中的機器人來說是至關重要的。操作人員會在壓力下犯錯誤，特別是在沒有廣泛的訓練和實踐的現實條件下”。

共享自動化的一個研究主旨是透過推理使用者的目標並進行自動化行動來實現它們，從而解決這個問題。Shervin Javdani博士在其論文中談及了對以往研究方法的優秀評論。這些方法已經在更好的駕駛輔助、假肢的腦機介面和輔助遠端操作方面取得了進展，但往往需要事先對世界加以瞭解：具體地說，（1）動態模型，預測在給定的環境中採取給定操作的結果，（2）使用者可能擁有的目標集，以及（3）觀察模，描述給定目標的使用者的行為。基於模型的共享自動演算法非常適合於這樣一些領域，可以直接對領域中的知識進行硬編碼或學習，但卻面臨著由具有未定義的目標和不可預測的使用者行為的非結構化環境所帶來的挑戰。我們從另一個角度來解決這個問題，使用深度強化學習來實現無模型共享自動化。

深度強化學習使用神經網路函式近似來處理高維度的、連續狀態和動作空間中的維度問題，並且最近在從零開始訓練自動智慧體玩影片遊戲、在圍棋對戰中擊敗人類世界冠軍、控制機器人等方面取得了顯著的成功。我們已經採取了初步措施來回答以下問題：深度強化學習是否有助於建立靈活和實用的輔助系統？

在迴路中具有人類輔助的無模型強行學習

為了在最小的先驗假設下實現共享控制遠端操作，我們設計了一個用於共享自動化的無模型深度強化學習演算法。關鍵理念在於學習從環境觀察和使用者輸入到智慧體行為的端到端對映，而任務獎勵是唯一的監督形式。從智慧體的角度來看，使用者的行為像一個可以進行微調的先驗策略，以及一個可以生成觀察結果的附加感測器，從而智慧體可以隱式地解碼使用者的私人資訊。從使用者的角度來看，智慧體的行為就像一個自適應介面，可以學習從使用者命令到能夠最大化任務獎勵的操作的個性化對映。

這項研究的核心挑戰之一是採用標準的深度強化學習技術，在不顯著干擾使用者反饋控制迴路，或進行長時間的訓練期間使他們感到疲勞的情況下，利用來自人類的控制輸入。為了解決這些問題，我們使用深度Q-學習來學習一個近似的狀態—行為值函式，該函式計算在給定當前環境中的觀察和使用者輸入的情況下，行為的預期未來返回值。配備該值函式後，輔助智慧體將對使用者的控制輸入執行最接近的高值操作。智慧體的獎勵函式是用於計算每個狀態的已知術語，和使用者在任務成功或失敗時提供的終端獎勵的組合。請參見下圖以瞭解此過程的高階示意圖。

無模型共享自動化中，我們的在迴路中具有人類輔助的深度Q學習演算法的概述

學會進行輔助

之前的研究已經將共享自動化形式化為部分可觀察的馬爾可夫決策過程（POMDP），其中使用者的目標對智慧體是未知的，並且為了完成任務必須對其進行推理。而現有方法傾向於假設POMDP的以下組成部分是事先已知的：（1）環境動態或狀態轉移分佈；（2）使用者的一組可能的目標，或目標空間；（3）對於給定目標的使用者控制策略，或使用者模型。在我們的研究中，我們放寬了這三個標準假設。我們引入了一種無模型的深度強化學習方法，該方法能夠在不知道這些知識的情況下提供幫助，但也可以已知使用者模型和目標空間時對其加以利用。

具有使用者控制的Q-Learning

在迴路中進行無模型強化學習會帶來兩個挑戰：（1）保持資訊豐富的使用者輸入和（2）最小化與環境的互動次數。如果使用者輸入是一個建議控制元件，一直忽略該建議並採取不同的行為可能會降低使用者輸入的質量，因為人類依靠他們的行為反饋來執行實時控制任務。像TRPO這樣的通用策略演算法很難在這個環境中進行部署，因為它們不能保證忽略使用者輸入的頻率。它們也傾向於需要與環境進行大量的互動，而這對於人類使用者來說是不切實際的。受到這兩個標準的啟發，我們轉向深度Q-學習。

Q-learning是一種off-policy演算法，使我們能夠透過對用於給定預期返回和使用者輸入情況下選擇行為的策略進行修改來解決（1）問題。從最近在並行自動化和外部迴路穩定方面研究中所體現出的最小干預原則得到啟發，我們執行一個最接近使用者建議的可行操作，其中，如果一個操作不比最佳操作差很多，那麼該操作就是可行的。

考慮到（2），我們注意到，相較於政策梯度和基於Monte Carlo值的方法，off-policy Q-learning傾向於具有更高的樣本效率。當用戶近似最優時，我們的行為策略的結構也加快了學習速度：對於適當大的α，智慧體學會對使用者的策略進行微調，而不是學習從零開始執行任務。在實踐中，這意味著在學習的早期階段，組合的人機團隊至少能夠和沒有附加輔助的人類執行能力一樣好，而不是在隨機策略的層面上執行。

使用者研究

我們將我們的方法應用於兩個實時輔助控制問題：月球登陸游戲（Lunar Lander game）和四旋翼著陸任務（Quadrotor Landing Task）。這兩項任務都涉及利用離散動作空間和低維狀態觀測（包括位置、方向和速度資訊）來控制運動。在這兩項任務中，人類飛行員都擁有完成任務所必須的私有資訊，但他們無法獨自完成任務。

月球登陸游戲

比賽的目的是透過操控一臺主發動機和兩個側向推進器，將飛船降落在旗幟之間，而不發生碰撞或出界。輔助副駕駛可以看到著陸器的位置、方向和速度，但不能看到旗幟的位置。

人類飛行員（單獨操控）：人類飛行員無法保持穩定，並不斷失敗

人類飛行員+RL副駕駛：副駕駛提高了穩定性，從而讓駕駛員有足夠的把握降落在旗幟之間

很少有人能夠單獨完成月球登陸游戲，但在副駕駛參與時，他們往往表現得很好。

圖2。a：30次以上的平均成功率和失敗率

圖2。b-c：前後兩圖分別表示，在月球登陸游戲中，有副駕駛和無副駕駛兩種情況下的人類飛行員追蹤軌跡。紅色軌跡表示以碰撞或出界告終，綠色表示任務成功完成，其他情況用灰色軌跡表示。中間的星號標記代表著陸平臺。為了便於說明，我們只顯示左側邊界的著陸點資料

在選用綜合飛行員模型進行的模擬實驗（此處未展示）中，我們還發現了明確測量目標（即著陸平臺的位置）的顯著益處，這表明我們可以而且應該利用目標空間和使用者模型，而不是簡單地將使用者的原始控制輸入新增到智慧體的觀測結果中。

經過分析，我們發現月球登陸游戲的一個缺點是，遊戲介面和物理性不能反映出現實世界中，機器人共享自動任務的複雜性和不可預測性。為了在更加真實的環境中對我們的方法進行評估，我們為駕駛一架真實四旋翼飛行器的人類飛行員定製了一項任務。

四旋翼著陸任務

該任務的目的是讓一架Parrot AR-Drone 2無人機，著陸在距起飛點一定距離的小型、方形著陸平臺上，並使無人機的第一人稱視角指向環境中的隨機目標（例如：一把紅色的椅子），而不會飛出邊界或耗盡時間。飛行員使用鍵盤控制飛行速度，並被阻止獲取第三人稱視角，這樣一來，他們就不得不依賴無人機的第一人稱視角來進行導航和著陸。輔助副駕駛觀察無人機的位置、方向和速度，但不知道飛行員想要看向哪個目標。

人類飛行員（單獨操控）：飛行員的顯示器只顯示了無人機的第一視角，因此相機的指向很容易把控，但想要找到著陸平臺卻很困難

人類飛行員+RL副駕駛：副駕駛不知道飛行員要把攝像頭對準哪裡，但他知道著陸平臺在哪裡，因此，飛行員和副駕駛相互配合，共同完成了任務

人們發現，在限制時間的情況下，將攝像頭指向目標場景並精確導航至一個可行的著陸平臺，具有挑戰性。輔助副駕駛在著陸平臺上進行著陸方面幾乎沒有任何困難，但卻並不知道要將攝像頭對準哪裡，因為它不知道人類在著陸後想觀察什麼。因此，人類飛行員可以將精力用於攝像頭的瞄準，讓副駕駛關注在著陸平臺上的精準著陸，從而相互配合，完成任務。

圖3a。超過20次實驗的平均成功率和失敗率

圖3b-c。前後兩圖分別表示，在四旋翼著陸任務中，有副駕駛和無副駕駛兩種情況下，人類飛行員飛行軌跡的鳥瞰圖。紅色軌跡表示以碰撞或出界而告終，綠色軌跡表示任務成功完成，其他情況用灰色軌跡表示。中間的星號標記代表著陸平臺

我們的研究結果表明，飛行員和副駕駛相配合的任務完成情況，要顯著優於單個飛行員或單個副駕駛的任務完成情況。

接下來怎麼做？

我們的方法有一個主要的缺點：無模型深度強化學習通常需要大量的訓練資料，這對操縱物理機器人的人類使用者而言是一種負擔。實驗中，我們透過在無人類飛行員干預的情況下，從模擬環境中對副駕駛進行訓練，從而在一定程度上解決了這一問題。遺憾的是，由於構建高保真模擬器和使用者無關的獎勵函式Rgeneral存在一定難度，因此這對於實際應用而言並不總是可行的。目前，我們正在探索解決這一問題的方法。

上一篇：學了後面忘前面治療AI“健忘症”還難有良策

下一篇：比能力重要1000倍的，是槓桿思維

愛樓網

透過深度強化學習實現共享自動化

相關文章

推薦文章