熱門文章
人工智能自動駕駛汽車深度強化學習的人工輔助訓練
發布時間:2018-08-07 分類:交通百科
在控制論自動駕駛汽車研究所,我們正在利用人體訓練來幫助進行自動駕駛汽車人工智能的駕駛訓練,有各種各樣的方法來教自動駕駛汽車的人工智能有關駕駛任務的知識。
首先,人工智能開發人員可以嘗試直接編程的人工智能關于如何駕駛汽車
這包括識別各種驅動算法,并編寫實現這些算法的編程代碼。不幸的是,工作量非常大,可能需要很長的時間來做,而且代碼涵蓋駕駛的所有方面和無數的駕駛情況的可能性是有問題的。因此,這種形式的“教學”通常是為人工智能的核心在駕駛任務,然后使用其他技術來加強它。
第二,通過直接教授來學習
在這種情況下,人工智能幾乎就像一塊白板,被開發用來觀察人類的行為,然后嘗試模仿這些動作。這可能很方便,但它也常常缺少駕駛任務的上下文。換句話說,人類駕駛員可能會告訴人工智能如何轉動輪子或如何快速啟動,但是人工智能不知道這些動作應該發生在什么環境中。
第三,讓人工智能嘗試駕駛汽車,然后有某種形式的自校正反饋,人工智能使用相應的調整,這是流行的使用汽車駕駛模擬
你設計的人工智能,使它能夠駕駛模擬汽車,你設定模擬的汽車不應該離開模擬的道路。人工智能試圖駕駛模擬汽車,當它離開模擬道路時,它將自己指向碼頭。它的目標是努力得分,而不是失去分數。因此,它逐漸聯合起來,不再駛離公路。它是根據一組約束或限制,以及某種獎懲制度,通過自我修正來做到這一點的。
這種方法在現實世界中并不是很有效,因為你不希望一輛真正的汽車不斷地離開路面或撞到墻壁上,所以這是通過模擬來實現的。一個模擬的好處是你可以讓它運行幾百次,數千次,甚至數百萬次。為了讓人工智能捕捉到該做什么,模擬車可以不停地運行,可以根據需要提供盡可能多的模擬實例。
機器學習是來這里玩的,一個人工神經網絡可以被輸入數百、數千或幾十萬張汽車背面的圖片,并逐漸設計出汽車從后面看上去是什么樣子的圖案。這有助于自動駕駛汽車的攝像頭,因為當汽車行駛時拍攝到圖像時,神經網絡可以很容易地識別出什么是自動駕駛汽車前面的一輛汽車,什么可能不是一輛汽車。從某種意義上說,這種形式的機器學習需要進行大量的觀察(查看汽車后部的圖片),然后找出能夠在這些圖片中找到關鍵方面的模式。
另一種學習駕駛任務的方法是讓人工智能試著駕駛汽車,然后對人工智能系統進行人工解說
一名人類“乘客”向人工智能提供反饋,然后人工智能根據提供的反饋進行調整。一些人稱這種反饋為“批評”,人工智能被設置為深度強化型學習者。這被認為是“深刻的”,因為批評是作為更高級學習方面的一部分而發生的,它被認為是一種“強化”的形式,因為它建議人工智能要么多做點什么,要么少做點什么。它加強了正確的行為,并且可以說加強了對不當行為的避免。
人工智能自動駕駛汽車也可以做到這一點
實時反饋(或批評)被傳達到人工智能深層強化學習系統,以提高人工智能的駕駛技能。反饋需要及時完成,并在一定程度上與駕駛過程中的駕駛任務的展開聯系在一起,反饋需要明確,重點放在駕駛任務的性質上。
在反饋過程中,衡量學習者的表現也是很重要的。您希望確保人工智能不會變得過于依賴反饋。這可能會成為培訓的意外結果,即人工智能系統開始對人類訓練師過度適應。自動駕駛汽車的人工智能顯示了一個高維的狀態空間,這意味著當你考慮到駕駛汽車所涉及的所有決策因素時,會涉及到許多維度。我們沒有使用大量的培訓數據來嘗試和提供完整的指導,而是通過使用人力培訓師來加強培訓。在進行了其他形式的訓練后,他們在人工智能內部自我調整的過程中提供了幫助。
對于人工智能系統,這里有一些關于反饋提供的方面,這些方面對于人員培訓的設計是值得注意的:
1、反饋太少
人類訓練師必須判斷給人工智能自動駕駛汽車提供多少反饋。太少的反饋可能是不好的,因為人工智能沒有得到它所需要的,以提高駕駛任務。
2、反饋太多
人類訓練師在給出過多的反饋時必須小心謹慎。除了它在學習方面把人工智能弄得亂七八糟,還有另一個危險,那就是人工智能過度依賴于人的訓練。
3、破壞性反饋
這些反饋可能會無意中干擾人工智能,如果人工智能正在確定一個行動計劃,而反饋發生了,人工智能可能無法完成該行動計劃,或者從駕駛任務所需的元素上分散注意力。
4、無關反饋
為了控制無關的反饋,我們限制了一組反饋語句,這些反饋語句由人類訓練師提供。不可否認的是,這并不是真實世界的方式,因為一個人訓練另一個人可能像他們想要的那樣無關緊要,但即使是人類學習者,他們也可能很難弄清楚什么反饋是針對任務的,哪些反饋對任務沒有影響,我們通過有一個嚴格的反饋可能性列表來防止這種情況的發生。
5、不一致反饋
不一致反饋甚至沖突反饋的潛在可能是人工智能系統的一個難點。假設人類訓練師說加速時,采取一個曲線,但后來的人說,放慢時,采取相同的曲線。人工智能如何看待這種看似不一致或相互矛盾的反饋呢?我們有人工智能系統向人類訓練師表明,所提供的反饋似乎不一致,因此至少提醒人類訓練師注意該方面(如果人類訓練師確實沒有必要不一致的話,那么人類訓練師就可以進行調整)。
6、適當的、貢獻的、及時的反饋
其目的是讓人類培訓師能夠向人工智能系統提供適當、貢獻和及時的反饋。要做到這一點,需要有精通這方面培訓并認真嘗試進行培訓的人力培訓師。
為自動駕駛汽車的人工智能提供人員培訓是快速提高自動駕駛任務人工智能能力的一種手段。它并沒有取代教人工智能開車的其他方法,相反,它被用來加強其他技術。為這個目的設計人工智能是一個額外的挑戰,而不是通常人工智能會做的事情。它包括使戰術和戰略人工智能驅動元素準備好接受反饋,并能夠根據提供的反饋進行調整。
盡管我們都在試圖走向人工智能自動駕駛汽車,這是真正的自動駕駛汽車,通常被稱為第5級,這是自動駕駛汽車的最高水平,指的是一種自動駕駛汽車,能以人類能夠駕駛的任何方式駕駛汽車,想象一下,如果我們不僅通過使用人類訓練器來教授人工智能,而且假設有一天我們有人工智能自動駕駛汽車,教人類駕駛。